臺灣原住民族資訊資源網 - 研究資源 - 博碩士論文


依類型	族群	主題

2019.07.26

基於生成對抗網路之語音合成

族群：跨族群

主題：學術研究

作者		楊明豪
學校系所		國立雲林科技大學資訊工程系
地點		全臺全部
研究內容		近年來，基於成熟的硬體技術以及巨量資料(big data)，使得深度類神經網路(Deep Neural Network, DNN)有突破性的發展，在各領域都能夠看到許多其成功的案例，其中最具突破性發展的深度網路架構可說是生成對抗網路(Generative Adversarial Network, GAN)，該架構提供了一種創新方法來訓練生成模型(generative model)，更具體地說它將模型設計成兩個子模型：生成器(generator)和鑑別器(discriminator)。生成器用於生成樣本，而鑑別器嘗試將樣本分類為真實或偽造。本論文探討基於生成對抗網路之語音合成(speech synthesis)技術，有別於傳統語音合成技術，利用生成對抗網路具有學習數據分布的能力，藉此生成出更自然的語音。本論文考慮中、英文語音合成，採用英文語料CSTR VCTK語料集，訓練出男女各3位不同語者的模型，中文語料則採用口語韻律語料庫暨工具平台庫，也訓練男女各3位不同語者的模型。從實驗結果中可以發現，英文語言男女平均意見分數(Mean Opinion Score, MOS)滿分5分達到了3.18分(男3.52分，女2.83分)，而中文語言男女平均意見分數達到了1.91分(男2.21分，女1.6分)。此外，在語者辨識實驗中，我們發現中、英文之本文有關合成語音(text dependent synthesized speech)的平均通過率如下：DNN平均通過率達到80.5%(中72%，英89%)，支援向量機(Support Vector Machine, SVM)平均通過率可達到86%(中100%，英72%)。而本文無關合成語音(text independent synthesized speech)的平均通過率則依據語音長短有不同的通過率：0.5秒下DNN平均通過率為36%(中44%，英28%)，SVM則為44.5%(中61%，英28%)，3秒下DNN平均通過率為75%(中78%，英72%)，SVM則為80.5%(中72%，英89%)，5秒下DNN平均通過率為89%(中78%，英100%)，SVM則為97%(中94%，英100%)。在平均意見分數中，由於英文具有較完善的前端語言規則以產生更完整的文字特徵，使得模型能夠生成出更自然的語音。因此，英文合成語音較優於中文。在語者辨識實驗中，本文有關情況下，英文通過率較中文差，是由於英文語音時間遠短於中文語音。至於本文無關的情況下，可以發現給予的語音時間越長通過率越高，因此，要提高語者辨識系統的安全性可以減短語音時間或改善模型。由於，本系統的鑑別器在訓練過程中用於判斷語音的真實性，因此我們可以將本系統中的鑑別器的結合到語者辨識系統中，以有效地阻擋合成語音的攻擊。
相關網頁		https://ntu.primo.exlibrisgroup.com/permalink/886NTU_INST/f27f2j/alma991038706772504786