Google發(fā)表最新將人工智慧應用在音頻解編碼器的研究,釋出端到端神經(jīng)解編碼器SoundStream,這是一個應用神經(jīng)網(wǎng)絡 的音頻解編碼器,可以提供高音質(zhì)的音頻,并且支援清楚的語音、有雜音和回聲的語音,甚至是混雜音樂、語音和環(huán)境音的音頻,Google提到,SoundStream是第一個可以處理語音和音樂的神經(jīng)網(wǎng)絡 解編碼器,可以在智慧型手機上即時執(zhí)行。

音頻解編碼器用于有效率地壓縮音頻,以減少儲存和網(wǎng)絡頻寬需求,而理想的情況,音頻解編碼器的存在,應該要讓使用者無感,包括無法察覺解碼後的音頻,與原始音頻間存在差異,而且解編碼的過程,也不能產(chǎn)生可察覺的延遲。
市面上以及Google的各種影音服務,大量使用了音頻解編碼器,像是Opus和增強型語音服務(Enhanced Voice Services,EVS)。Opus是一種多功能語音和音頻解編碼器,支援從6 kbps到510 kbps的位元率,已經(jīng)被Google用于視頻會議平臺Meet,還有串流媒體服務YouTube等應用程式中。而EVS則是3GPP標準化機構所開發(fā),是針對行動電話所開發(fā)的解編碼器,和Opus相同,是能夠處理多種位元率的多功能解編碼器。
這兩種解編碼器雖然可以在中低位元率中表現(xiàn)出色,但是在極低位元率,像是小於等於3 kbps的情況,音質(zhì)就會急轉(zhuǎn)直下,Google提到,過去人類利用專業(yè)知識,以及增加壓縮演算法的效率,來最佳化音頻的處理,但最近研究人員開始使用機器學習來代替人工設計,以資料驅(qū)動的方法學習解編碼音頻。
Google發(fā)布最新的端到端神經(jīng)解編碼器SoundStream,其主要技術便是使用神經(jīng)網(wǎng)絡 ,由編碼器、解碼器和量化器組合而成,所有這些都經(jīng)過端到端訓練。編碼器會將輸入的音頻,串流為編碼訊號,接著使用量化器對其進行壓縮,并且使用解碼器將信號轉(zhuǎn)換回音頻。
研究人員提到,SoundStream使用了神經(jīng)音頻合成領域中,目前最先進的解決方案,透過訓練判別器(Discriminator),計算對抗性和重建損失函式的組合,讓重建的音頻聽起來就像是未壓縮的原始音頻,進而提供高品質(zhì)音頻輸出。
經(jīng)過訓練後,解碼器和編碼器可以分別在單獨的客戶端運作,以提高網(wǎng)絡傳輸高品質(zhì)音頻的效率。SoundStream處理音頻的效率非常好,特別是在低位元率的情況,研究人員解釋,SoundStream使用3 kbps位元率所提供的音頻品質(zhì),超過使用12 kbps位元率的Opus,以及9.6 kbps的EVS,位元率是這些解編碼器的三分之一到四分之一,這代表SoundStream可以使用更小的頻寬,提供類似的音頻品質(zhì)。
在早前,Google發(fā)表了基于回歸網(wǎng)絡 的Lyra音頻解編碼器,而與SoundStream比起來,SoundStream仍然優(yōu)于Lyra當前的版本,研究人員也提到,在傳統(tǒng)音頻處理工作管線中,壓縮和增強使用不同模組進行,但這樣的方法會增加系統(tǒng)延遲。而Google采取不同的策略,將壓縮和增強功能綜合在同一個模型中,能夠同時進行壓縮和背景降噪,但又不增加延遲。
Google表示,SoundStream是將機器學習技術,應用在音頻解編碼器中重要的一步,比目前最先進的解編碼器Opus和EVS效果更好,而且只需要部署一個可擴展的模型。SoundStream會與下一版本的Lyra一起發(fā)布,藉由整合SoundStream與Lyra,開發(fā)人員可以利用現(xiàn)有的Lyra API和工具,來提供更好的音質(zhì)。