
Google表示,不少開發(fā)者向他們反應(yīng),也想要將文字轉(zhuǎn)語音的功能,使用在自己的應(yīng)用上,因此他們把這項功能放到Google云端平臺,推出云端文字轉(zhuǎn)語音服務(wù)。
開發(fā)者現(xiàn)在可以將云端文字轉(zhuǎn)語音服務(wù)用在語音回應(yīng)系統(tǒng),像是呼叫中心(IVRs),也能在電視、汽車或是機(jī)器人等物聯(lián)網(wǎng)裝置,建置語音回應(yīng)功能,或是在以文字為主的媒體上,將文章與書轉(zhuǎn)成音訊。
Google云端文字轉(zhuǎn)語音使用了DeepMind所創(chuàng)建的聲音生成模型WaveNet,這個高傳真的人聲合成技術(shù),可以讓電腦合成的語音更自然。
WaveNet是2016年DeepMind發(fā)表的技術(shù),但是到了今日已有很大的進(jìn)步。以速度來說,WaveNet現(xiàn)在Google的云端TPU基礎(chǔ)設(shè)備上運作,比起初代,產(chǎn)生原始波形的速度快了一千倍,而且產(chǎn)生1秒鐘的語音只需要50毫秒。
除了速度提高千倍,產(chǎn)生語音的擬真度也得到了長足的提升,WaveNet能夠建立每秒24,000樣本的高傳真波形,且采樣分辨率從原本8位元提升到了16位元,因此所得到的人聲語音品質(zhì)更好更自然。
Google表示,比起市面上的電腦語音,人們對WaveNet所合成的語音有更高的接受度。而在語音測試中,WaveNet合成的新美國英語語音,平均得分4.1,比起標(biāo)準(zhǔn)聲音好20%,也與真實人類語音差距減少70%
云端文字轉(zhuǎn)語音功能現(xiàn)在支援32種聲音12種語言,開發(fā)者可以客制化音調(diào)、語速以及音量增益,并且能轉(zhuǎn)存為MP3或是WAV等各式音訊格式。