依類型 族群 主題   
 
 
2019.07.26
基於生成對抗網路之語音合成
族群: 跨族群  
主題: 學術研究  
作者 楊明豪
學校系所 國立雲林科技大學 資訊工程系
地點 全臺 全部  
研究內容

 近年來,基於成熟的硬體技術以及巨量資料(big data),使得深度類神經網路(Deep Neural Network, DNN)有突破性的發展,在各領域都能夠看到許多其成功的案例,其中最具突破性發展的深度網路架構可說是生成對抗網路(Generative Adversarial Network, GAN),該架構提供了一種創新方法來訓練生成模型(generative model),更具體地說它將模型設計成兩個子模型:生成器(generator)和鑑別器(discriminator)。生成器用於生成樣本,而鑑別器嘗試將樣本分類為真實或偽造。本論文探討基於生成對抗網路之語音合成(speech synthesis)技術,有別於傳統語音合成技術,利用生成對抗網路具有學習數據分布的能力,藉此生成出更自然的語音。

本論文考慮中、英文語音合成,採用英文語料CSTR VCTK語料集,訓練出男女各3位不同語者的模型,中文語料則採用口語韻律語料庫暨工具平台庫,也訓練男女各3位不同語者的模型。從實驗結果中可以發現,英文語言男女平均意見分數(Mean Opinion Score, MOS)滿分5分達到了3.18分(男3.52分,女2.83分),而中文語言男女平均意見分數達到了1.91分(男2.21分,女1.6分)。此外,在語者辨識實驗中,我們發現中、英文之本文有關合成語音(text dependent synthesized speech)的平均通過率如下:DNN平均通過率達到80.5%(中72%,英89%),支援向量機(Support Vector Machine, SVM)平均通過率可達到86%(中100%,英72%)。而本文無關合成語音(text independent synthesized speech)的平均通過率則依據語音長短有不同的通過率:0.5秒下DNN平均通過率為36%(中44%,英28%),SVM則為44.5%(中61%,英28%),3秒下DNN平均通過率為75%(中78%,英72%),SVM則為80.5%(中72%,英89%),5秒下DNN平均通過率為89%(中78%,英100%),SVM則為97%(中94%,英100%)。
在平均意見分數中,由於英文具有較完善的前端語言規則以產生更完整的文字特徵,使得模型能夠生成出更自然的語音。因此,英文合成語音較優於中文。在語者辨識實驗中,本文有關情況下,英文通過率較中文差,是由於英文語音時間遠短於中文語音。至於本文無關的情況下,可以發現給予的語音時間越長通過率越高,因此,要提高語者辨識系統的安全性可以減短語音時間或改善模型。由於,本系統的鑑別器在訓練過程中用於判斷語音的真實性,因此我們可以將本系統中的鑑別器的結合到語者辨識系統中,以有效地阻擋合成語音的攻擊。
相關網頁 https://ntu.primo.exlibrisgroup.com/permalink/886NTU_INST/f27f2j/alma991038706772504786