ICLR 2020 | 使用GAN進行高保真語音合成

ICLR 2020 | 使用GAN進行高保真語音合成

本文是對 ICLR 2020 論文《High Fidelity Speech Synthesis with Adversarial Networks》的解讀,論文作者來自谷歌。作者 |李科雨

編輯 | 叢 末

ICLR 2020 | 使用GAN進行高保真語音合成

論文地址:https://openreview.net/forum?id=r1gfQgSFDr

1 問題提出

自從GAN產生以來,就被主要應用在圖像生成領域中,然而,其在語音合成的領域卻涉獵不多。為了彌補GAN在語音合成領域探索的缺乏,本文提出了一個利用GAN來進行文本向語音轉換的模型。該模型在不同評價度量手段中,都取得了可和之前的語音合成模型相比的效果,並且和前人提出的自迴歸模型相比,由於其高效的前向傳播生成器,本模型還獲得了很高的並行性。

2 研究背景

在基於文本的語音合成(TTS)領域,前人大部分使用神經自迴歸模型處理原始語音波形的方法(如WaveNet, SampleRNN, WaveRNN等),這些模型一個明顯的缺陷就是,由於其使用序列形式對語音信號進行預測,因此很難去進行並行計算,從而會消耗很大的計算成本,並在很多場景都並不實用。

因此,最近很多關於TTS的研究都聚焦於提高並行性,如使用基於流的模型(flow-based model)。

另一種提高並行生成的方法就是使用生成對抗網絡(GAN)。GAN在之前的研究中多用於生成圖像,並能夠生成高仿真的樣本,這些生成的樣本一般很難和真實數據區別開來。然而,在語音合成任務中,GAN的探索甚少。

3 解決方法

1、核心思想

本文使用 GAN生成原始波形圖來進行語音合成,證明了對抗網絡前饋生成器的確能夠生成高保真的語音音頻,並解決了前人模型中缺乏並行性的缺陷。

2、主要貢獻

本文的貢獻主要有:

(1) 提出了一個使用生成對抗網絡基於文本進行高保真語音合成的模型(GAN-TTS, a Generative Adversarial Network for text-conditional high fidelity speech synthesis),在前向傳播層使用卷積神經網絡作為生成器,判別器則使用多個判別器集成的方法,基於多頻率隨機窗口來進行判別分析。

(2)同時,基於Frechet Inception距離(FID)和核 Inception距離(KID)這兩個針對圖像生成的衡量指標,本文還提出一系列衡量語音生成質量的指標。

(3)針對TTS-GAN模型,本文提出了定量和主觀的評價標準,並通過控制變量對模型進行分成分評估,證明了模型各部分選擇的重要性。其中得到最好的結果得到了與其他文本語音合成前沿研究方法相似的結果,證明了GAN在高效TTS任務上的可行性。

3、模型細節

(1)生成器

本文使用的生成器G的結構如下圖所示:

ICLR 2020 | 使用GAN進行高保真語音合成

G的輸入是語言和音調信息200Hz的序列,輸出是24kHz的原始波形圖。生成器由七個塊組成(GBlocks),其中每個塊是兩個殘差塊的堆積。

ICLR 2020 | 使用GAN進行高保真語音合成

當生成器在產生原始語音的時候,我們使用空洞卷積去保證G的感知野足夠大到捕捉長時期的屬性。每個GBlock中的卷積核有四個,大小為3,空洞因子為1,2,4,8.在卷積部分,本文使用條件條件批標準化(Conditioanl Batch Normalisation)。一個GBlock包含兩個跳躍連接,其中第一個當輸出頻率大於輸入頻率時進行上採樣,第二個則是當輸出通道和輸入通道不同時採用一個大小為1的卷積操作。最後的卷積層則採用Tanh激活函數,來產生一個單通道的語音波形圖。

(2)隨機窗口判別器集成

相對於單個判別器,本文集成了隨機窗口判別器(Random Window Discriminators, RWDs)此判別器對真實和生成樣本的隨機子採樣片段進行操作。集成操作可以使本文可以對語音進行模型的逐個評估,並且可以通過兩個參數的笛卡爾積獲得,這兩個參數分別是1)隨機窗口的大小2)判別器是否捕捉了語言和音調信息。由於採用了較短的隨機窗口,集成判別器可以獲得比傳統判別器梗塊的訓練效果。

相比於在整個生成的樣本上進行操作,使用不同大小的隨機窗口有數據增強的效果,並且可以減小計算複雜性。同時,條件判別器可以捕捉到語言和音調特徵,從而可以判斷生成的語音是否匹配輸出的條件。

(3)判別器架構

本文采用的判別器結構如下圖所示:

ICLR 2020 | 使用GAN進行高保真語音合成

多隨機窗口鑑別器結構(Multiple Random Window Discriminator architecture)

其中採用的DBlock和Conditional DBlock如下所示:

ICLR 2020 | 使用GAN進行高保真語音合成

其中,包含塊的判別器(discriminator consists of block, DBlocks)和生成器中使用到的GBlock相似,區別就在於沒有批標準化。DBlock和Conditional DBlock的區別就在於。Conditional DBlock中第一個卷積操作之後加入了語言信息的嵌入表示。

在判別器結構中,前兩個和最後兩個DBlock並沒有下采樣,同時,本文在中間層還加入了至少兩個下采樣塊。DBlock中卷積的空洞因子遵從1,2,1,2的參數變化,因為和生成器不同,判別器在相對更小的窗口上操作,並且本文檢測到,使用大的空洞因子並不會帶來任何益處。

4 模型評估

本文提供了基於平均意見分數(Mean Opinion Scores,MOS)的主觀人類評估指標和定量指標來對模型的結果進行評估。

1、MOS

本文使用人類評估員,在一千個句子上進行了模型評估。與van den Oord等人在WaveNet和Parallel WaveNet上報告的分數相比,要求每個評估者以1-5 Likert量表標記句子的主觀自然性。

2、語音距離

基於Frechet Inception距離(FID)和核 Inception距離(KID)這兩個針對圖像生成的衡量指標,本文提出了一系列衡量語音生成質量的指標,指標包括了無條件和條件Frechet DeepSpeech距離(FDSD和cFDSD)以及核DeepSpeech距離(KDSK, cKDSD)。

5 實驗

1、 數據集

本文提出的文本語音轉換模型在包含語言特徵和音調信息的高保真人類語音上進行訓練。語言特徵對語音和持續時間進行編碼,而音調信息則使用對數基本頻率

數據集由單個序列的變長語音切片組成,發音使用的是標準美語,採用結合語言特徵的兩秒時間窗口進行訓練,總時長為44小時,樣本頻率為24kHz,並使用5毫秒時間窗口來計算語言特徵和音調信息。這意味著生成網絡在將信號上採樣120倍,並且需要學習如何將語言特徵和音調信息轉換為原始語音。

2、實驗設置

本文的模型主要設置是多個滑動窗口判別器(RWD),條件和非條件調整以及不同的下采樣因子。因此,在實驗部分,這邊文章使用控制變量的方式證明了模型選擇的最優性,具體設置如下:

ICLR 2020 | 使用GAN進行高保真語音合成

在實驗部分對比設置中,除以上變化,其他所有參數都和本文模型保持一致。

3、實驗結果

下表展示了定量評估本文模型的結果:

ICLR 2020 | 使用GAN進行高保真語音合成

實驗結果表明,雖然本文提出的模型的效果比WaveNet和Parallel WaveNet差,但是還是在一個可比的數值區間內。並且本文是第一個使用GAN來解決此類問題,並且取得較好性能結果的探索者。需要補充的是,由於WaveNet和Parallel WaveNet訓練所採用的數據集要比GAN-TTS的大,因此模型之間也不是完全直接可比的。

通過控制變量,本文證明了使用多重RWD的重要性,因為所有多重RWD模型都取得了比單個cRWD更好的結果,同時,所有使用無條件RWD的模型比不使用的效果都要更好。和10個判別器的模型相比,因為使用固定長度的窗口的模型明顯表現更差,那麼很顯然,使用不同窗口大小的組合會帶來更多的好處。

最後,本文還觀察到了MOS和定量評估指標很明顯的相關性,這一點也證明了這些指標是很適合評估神經語音合成模型的。

4、結果討論

(1)隨機窗口判別器(RWD)

雖然很難說為什麼RWD比整體判別器要好,本文假設原因在於分佈的相對簡單性以及對同一個分佈取樣的多樣性。

(2)計算有效性

相對於Parallel WaveNet,本文提出的生成器有更大的感知野,同時還減少了三倍的FLOPs。並且由於使用了集成RWD而不是整體生成器,模型在訓練過程中還取得了更快的速度。最後,在網絡深度層面,本模型的生成器有30層,是Parallel WaveNet的一半。

(3)穩定性

本文提出的模型在訓練過程中非常穩定,主觀的樣本質量隨著訓練過程逐步上升,定量的評估指標也隨之逐漸下降,並且直到訓練到一百萬迭代次數,也沒有遭遇GAN經常會遇到的模型崩潰問題。

ICLR 2020 | 使用GAN進行高保真語音合成

6 結論

本文介紹了一個基於GAN的原始文本轉化語音生成模型——GAN-TTS,和之前的文本語音轉換模型不同,GAN-TTS是對抗式訓練,生成器是一個前饋卷積神經網絡,這使得生成模型非常高效,從而有益於實際應用場景。使用的模型架構利用了條件和非條件的不同窗口大小的隨機窗口判別器,可以對合成語音的真實性以及和輸入文本的一致性進行評判。

在實驗部分,本文通過控制變量法,證明了本模型的每個部分對得到最後良好結果的重要性。與此同時,本文提出了衡量語音合成效果的定量指標——(條件)Fre ́chet DeepSpeech Distance 和 (條件) Kernel DeepSpeech Distance,並且證明了這些指標在實驗中和人類評估效果的一致性,由於這些指標基於開源DeepSpeech識別模型,因此可以對整個機器學習社群作出貢獻。

最後,本文實驗結果顯示,針對生成語音樣本的定量評估指標和主觀衡量指標都證明了在文本語音轉換領域使用GAN的可行性。

ICLR 2020 | 使用GAN進行高保真語音合成
ICLR 2020 | 使用GAN進行高保真語音合成


分享到:


相關文章: