VoIP技術(shù)之語音編碼器__CTI論壇

首頁 >> 新聞

VoIP技術(shù)之語音編碼器

2004/09/14

　　本章綜述在IP語音技術(shù)（VOIP）中常用的編碼解碼器（codess）。它們常被稱為編碼解器、語音編碼器或者簡稱為編碼器。有關這方面的知識很多。

　　本章首先簡要介紹編碼器的主要功能、編碼器的分類，然后闡述以及用于VOIP的三種編碼器：IUT-T G.723語音編者按碼器、ITU-T G.729語音編碼器。

　　一、語音編碼器的功能語音編碼器的主要功能就是把用戶語音的PCM（脈沖編碼調(diào)制）樣值編碼成少量的比特（幀）。這種方法使得語音在連路產(chǎn)生誤碼、網(wǎng)絡抖動和突發(fā)傳輸時具有健壯性（Robustness）。在接收端，語音幀先被誤碼為PCM語音樣值，然后再轉(zhuǎn)換成語音波形。

　　二、語音編器的分類語音編碼器分為三種類形：（a）波形編器；（b）聲碼器；（c）混合編碼器。波形編碼器會盡可能構(gòu)出包括背景噪單在內(nèi)的模擬波形。由于波形編碼器作用于所有輸入信號，因此會產(chǎn)生高質(zhì)量的樣值。然而，波形編碼器工作在高比特率。例如：ITU-G.711規(guī)范（PCM）用的比特率為64Kbps。

　　聲碼器（vocoder）不會再生原始波形。這組編碼器會提取一組參數(shù)，這組參數(shù)被送到接收端，用來導出語音產(chǎn)生模形。線性預測編碼（LPC）用來獲取一時變數(shù)字濾波器的參數(shù)。這個濾波器用來模擬說話人的聲道輸出[WEST96]。在電話系統(tǒng)中使用聲碼器，語音質(zhì)量不夠好。

合成分析操作(點擊看大圖）

低比特率編碼器的MOS得分--比特率關系曲線（WEST96）

　　在VOIP中常用的語音編碼器是混合編碼器，它融入了波形編碼器和聲器的長處，它的另一特點是它工作在非常低的比特率（4-6Kbps）�；旌暇幋a器采用合成分析（AbS）。

　　為了說明問題，考慮人的聲道產(chǎn)生的一個語音模式：當人說話產(chǎn)生語音信號時就會發(fā)出濁音（如音素pa、da等）和清音（如音素sh、th）。激勵信號就是由輸入的語音信號導出的，其方法是使合成語音與輸入語音的差別非常小。LPC的用法、激勵的產(chǎn)生以及對合成分析（AbS）系統(tǒng)的誤差檢查均如圖4-1所示。長話質(zhì)量編碼器在比特率高于8Kbps時容易實現(xiàn)，如圖4-2所示。長話質(zhì)量的語音平均意見得分（MOS）必須在分或許分以上。傳統(tǒng)的PCN語音在比特率小于32 Kbps，語音質(zhì)量會嚴重惡化，在這里就不討論PCN了�；旌暇幋a和聲碼器在比特率相當?shù)偷腗OS上的得分是可接受的。在現(xiàn)階段，大多數(shù)基于VOIP的編碼器的工作范圍在5.2~8kbps。研究表明，標準的編碼器在比特率為4 Kbps時能提供可接受的NOS得分，一些分用系統(tǒng)在4.8 Kbps的MOS上的得分為3.8。

　　矢量量化和碼激勵線性預測一種較好的方法就是用預測存儲的最優(yōu)參數(shù)（碼元矢量）的碼本對輸入語音信號的表示矢量進行編碼，這種技術(shù)稱為矢量量化（VQ，vector quantization）。將VQ和AbS技術(shù)結(jié)合在一起會進一步提高編碼性能。AbS VQ是技術(shù)構(gòu)成CELP的基礎。VQ和AbS VQ的主要區(qū)別在于進行矢量量化碼簿搜索時采用的量化失真測量定義的不同。

　　三、線性預測合成分析編碼器最常用的比特率在4.8kbps~16 kbps之間的語音編碼器是基于模型編碼器的，這些編碼器都是線性預測合成分析（LPAS）方法。為了隨著時間的變化模擬語音信號，線性預測語音產(chǎn)生模型必須用適當?shù)男盘杹砑�。每隔一段固定時間（如每隔20ms），語音模型參數(shù)和激勵參數(shù)都必須做一次估計和更新，并用來控制語音模型。下面將介紹兩種LPAS編碼器：前向至應LPAS編碼器和后向自適應LPAS編碼器。 3.1 前向自適應LPAS編碼器：8kbps G.729編碼器和6.3kbps 與5.3kbps G.723.1編碼器在前向自適應的AbS編碼器中，預測濾波器的系數(shù)和增益是顯示傳送的。為了提供長話質(zhì)量的語音性能，這兩種編碼器都依賴于信源模型。激勵信號（以語音基調(diào)周期的信息形式表示）也要傳送。這種編碼器所提供的模型對語音信號來說是比較好的，但對于一些噪音或者多數(shù)器來說并不合適。因此，在背景噪音和音樂環(huán)境下，LPAS編碼器的質(zhì)量比7.726和7.727的編碼器的質(zhì)量要差一些。

　　① G.723.1 ITU-T G.723.1編碼器在6.4kbps提供長話質(zhì)量語音。同時 G.723.1還包括一個工作在5.3kbps的低質(zhì)量語音編碼器。G.723.1是為低比特率可視電話而設計的。在這種適應中，由于視頻編碼時延通常大于語音編碼時延，因此對時延的要求不是很嚴格。G.723.1編碼器的幀長為30ms，還有7.5ms的前視。再加上編碼器的處理時延，編碼器的單向總時延為67.5ms。其它時延是由系統(tǒng)緩沖區(qū)和網(wǎng)絡造成的。

　　G.723.1編碼器首先對語音信號進行傳統(tǒng)電話帶寬的波濾（基于G.712），再對語音信號用傳統(tǒng)的8000Hz速率進行抽樣（基于G.711），并變換成位的線性PCM碼作作為該編碼器的輸入。在編碼器中對輸出進行逆操作來重構(gòu)語音信號。 G.723.1系統(tǒng)用LPAS編碼方法將語音信號編碼成幀。編碼器能夠產(chǎn)生兩種速率的語音流量：（a）用于高速率的6.3kbps；

　　(b)用于低速率的5.3kbps。主速率編碼器使用多脈沖最大自然量化（MP-MLQ），低速率編碼器使用代數(shù)碼激勵線性預測（ACELP，Algebraic-Code-Excited Linear-Prediction）方法。編碼器和解碼器都必須支持兩種速率，并通能夠在幀間對兩種速度進行轉(zhuǎn)換，此系統(tǒng)同樣能夠?qū)σ魳泛推渌纛l信號進行壓縮和解壓縮，但它對語音信號來說是最優(yōu)的。

　　編碼器對幀進行操作，每幀包括240個樣點，采用速率為8000Hz。在進一步的處理（高通濾波器去直流分量）后把每幀分成4個子幀，每個子幀包括60個樣點，其它的各種操作包括LPC濾波器以及LSP濾波器非量化系數(shù)的計算等，將會導致30ms的分組時延。對每個子幀，用未經(jīng)處理的輸入信號計算LPC濾波器。最后一個子幀的濾波器系數(shù)用來預測分裂矢量量化器（PSVQ，Predictive split Vector quantizer）進行量化。正如前面所介紹的，前視占有7.5ms，所以整個編碼時延為37.5ms。這個時延在評介編碼器，尤其是通過數(shù)據(jù)網(wǎng)絡傳輸語音時是個很重要的因素，因為如果編碼及解碼時延比較小的話，就意味著處理互聯(lián)網(wǎng)中的時延及其抖動時具有更大的自由度。解碼器的處理也是基于幀的，解碼過程如下（G.723.1算法摘要）：

　　·對LPC的量化索引號進行解碼。

　　·對構(gòu)造LPC合成濾波器。

　　·對每個子幀，先對自適應碼本激勵和固定碼本激勵解碼，然后再輸入合成濾波器。

　　·激勵信號經(jīng)基音后置濾波器處理后，再送入合成濾波器。

　　·合成信號被輸入到共振峰后置濾波器，該濾波器采用增益標度單元以使其輸出能量維持在糨的輸入水平。

　　靜音壓縮已運用多年，它運用了在總會話時間中靜音時間占大約50%這一事實。其基本思路是在靜音期間減少傳送的比特數(shù)，從而節(jié)省了所需傳輸?shù)目偙忍財?shù)。在電話網(wǎng)中，多年來對模擬語音信號都是用時間分配語音插值（TASI，Time-Assigned Speech Interpolation）主法進行處理。這一技術(shù)也就是將其它語音信號或者數(shù)據(jù)信號放置在談話的靜音期間內(nèi)，從而為多信道鏈路提供附加容量�，F(xiàn)今，TASI已運用數(shù)字信號中并被賦予新名稱--其中的一個例子就是時分多址（TDMA，Time Division Multiple Access）。簡要地講，DTMA是將通常的信號劃分成很小的、數(shù)字化片段（slots即時隙）。這些時隙和其它時隙一起在一個信道中進行時分復用。

　　G.723.1采用了執(zhí)行不連續(xù)傳輸?shù)撵o音壓縮，這就意味著在靜音期間的比特流中加入了人為的噪聲。除了預留帶寬之外，這種技術(shù)使發(fā)信機的調(diào)制解調(diào)器保持邊續(xù)工作，并且避免了載波信號的時通時斷。

　�、� G.729 G.729編碼器是為低時延應用設計的，它的幀長只有10ms，處理時延也是10ms，再加上5ms的前視，這就使得G.729產(chǎn)生的點到點的時延為25ms，比特率為8 kbps。這些時延性能在互聯(lián)網(wǎng)中很重要，因為我們知道任何能減少時延的因素都是非常重要的。

　　G.729有兩個版本：G.729和G.729A。G.729比G.723.1簡單。這兩個版本互相兼容但它們的性能有些不同，復雜性低的版本（G.729A）性能較差。兩種編碼器都提供了對幀丟失和分組丟失的隱藏處理機制，因此在因特網(wǎng)上傳輸語音時，這兩種編碼器都是很好的選擇。Cox等[COX98]認為G.729在處理隨機比特錯誤方面性能不好。建議在有隨機比特錯誤的信道上不使用此編碼器，除非利用信道編碼（前向糾錯碼和卷積碼，將在無線部份討論）保護最敏感的比特。

　　3.2 后向自適應LPAS編碼：16 kbps G.728低時延碼激勵線性預測 G.728是低比特線性預測合成分析編碼器（G.729和G.723.1）和后向ADPCM編碼器的混合體。G.728是LD-CELP編碼器，它一次只處理5個樣點。

　　CELP是上種語音編碼技術(shù)，它的激勵信號是從一個可能的激勵信號集合中通過全搜索方法選出的。低速率語音編碼呂器對樣值預測濾波器采用前向自適應方案。而LD-CELP采用后向自適應濾波器并每隔2.5ms做一次更新。CELP中共有1024個可能的激勵矢量。這些矢量可進一步分析為4種可能的增益，兩種符號（+和-）與128種形狀矢量。

　　對于低速率（56~128 kbps）的綜合業(yè)務數(shù)字網(wǎng)（ISDN）可視電話，G.728是一種建議采用的語音編碼器。由于其后向自適應特性，因此G.728是一種低時延編碼器，但它比其它的編碼器都復雜，這是因為在編碼器中必須重復做50階LPC分析。G.728還采用了自適應后置濾波器來提高其性能。

　四、參數(shù)語音編碼器：2.4 kbps混合激勵線性預測編碼參數(shù)編碼器采用簡化激勵信號的語音模型，因而能工作在最低比特率。前而討論的所有語音編碼器都可描述為波形跟蹤，它們輸出信號的波形和相位與輸入信號很相似。

　　參數(shù)語音編碼器卻不同，它不呈現(xiàn)為波形跟蹤。這類編碼器是基于分析合成模型的，可用相當少的參數(shù)表示語音信號。這些參數(shù)通常是每隔20ms~40ms就會從語音信號中提取和量化。在接收端，這些參數(shù)用來生成合成語音信號。在理想條件下，合成語音聽起來和原始語音相似。在背景噪音較大的情況下，由于輸入的語音信號不能根據(jù)其內(nèi)在的語音模型很好的建模，所以任何參數(shù)編碼器都將失敗。美國政府選擇了2.4 kbps MELP用于保密電話。

　　對于我媒體應用，[COX98]的研究指出：當需要低比特率時，參數(shù)編碼器是一種好的選擇。例如，簡單的用戶游戲中經(jīng)常用參數(shù)編碼器。這會降低所需的存儲空間。出于同樣的原因，參數(shù)編碼器對某些多媒體消息型業(yè)務也是一種好的選擇。對所有類型的語音環(huán)境來說，參數(shù)編碼器的絕對語音質(zhì)量都較低，尤其是在噪聲環(huán)境下。如果事先能對語音文件做仔細的編輯，那么這個缺點是能克服的。目前，多媒體應用中的大多數(shù)參數(shù)編碼器都不是標準的。而是適用于這類專用編碼器。

　　用于無線通信的G.723.1可變速率編碼 G.723.1的附件C規(guī)定了一個信道編碼規(guī)范，此規(guī)范可以和三倍速率的語音編碼器一起使用。這個信道編碼器的比特率的可變的，它作為整個H.324標準系列的一部份，是為移動多媒體應用設計的。

　　這個信道編碼器支持的比特率范圍從0.7 kbps到4.3 kbps。它也支持G.723.1的三個操作模式的編解碼器，即高速率模式、低速率模式和不連續(xù)傳送模式。這個信道編碼器采用截短卷積碼，根據(jù)每一類型信息比特主觀重要性的不同，信道編碼器的比特率可對不同的比特類型分進行優(yōu)化。這種分配算法對編碼器和解碼器都是已知的。每次的系統(tǒng)控制信號無論是改變G.723.1的速率還是改變信道編碼器的比特率，這個算法都會使信道編碼器適應于新的語音業(yè)務配置。

　　如果信道編碼器的可用速率較低，那么首先要保護主觀上最敏感的比特位。當信道編碼器的比特率增加時，多余的信道比特首先用來保護更多的信息比特位，然后再對已保護過的比特類型增強保護。在運用信道編碼之前，語音參數(shù)要在信道適配層作部份的變化以提高對傳輸錯誤的健壯性。

　　五、編碼器評價評估編碼器的性能時要考慮幾個重要因素。這些因素如下提示：

　　·幀大�。簬拇笮”硎菊Z音流量的時間長度，也稱為幀時延。幀是語音信號的分立部件，且每幀是根據(jù)語音樣點更新的。本介紹的編碼器都是一次處理一幀。每幀信息各放在各語音分組中，并傳送給接收端。

　　·處理時延：它表示在編碼器中對一幀語音做編碼算法處理所需時間。它通常簡單計入幀時延。處理時延好稱為算法時延。

　　·前視時延：編碼器為了對當前幀的編碼提供幫助而檢查下一幀的一定長度，此長度就稱為前視時延。前視的想法是為了利用相鄰語音幀之間的密切相關性。幀長度：這個值表示經(jīng)編碼處理后的字節(jié)數(shù)（不包括幀頭）。

　　·語音比特率：當編解碼器的輸入是標準脈沖編碼調(diào)制的語音碼流（比特率為64 kbit/s）時，編解碼器的輸出速率。

　　·DSP MIPS：此值是指支持特定編碼器的DSP處理器的最低速度。值提注意的是DSP MISP與其它處理器的MISP速率無關。與用在工作站和個人計算機上通用處理器不同，這些DSP 是為特定任務而專門設計的。因此，為實現(xiàn)上述的編解碼器處理所需求MISP，通用處理器要比專用DSP處理器大。

　　·RAM需求：它描述了支持特定的編碼過程所需要RAM的大小。

　　評價編碼器性能的關鍵因素是編碼器工作所需時間。這個時間是指編碼器的緩存及處理時間，稱為單向系統(tǒng)時延。其值等于：幀大小+處理時延+前視時延。顯然，解碼時延也非常重要。實際上，解碼時延大約是編碼時延的一半。

　　六、語音編碼器的比較為了標準編碼器的討論作個總結(jié)，表4-1[RUDK97]對幾種編碼器的比特率、MOS、復雜性（以G .711為基準）和時延（幀大小及前視時間）作為比較。

標準編碼類型比特率 MOS 復雜性時延（kbps） (ms) G.711 PCM 64 4.3 1 0.125 G.726 ADPCM 32 4.0 10 0.125 G.728 LD-CELP 16 4.0 50 0.625 GSM RAE_LPT 13 3.7 5 20 G.729 CSA-CELP 8 4.0 30 15 G.729A 15 G.723.1 ACELP 6.3 3.8 25 37.5 MP-MLQ 6.3 US Dod LPC-10 2.4 合成語音 10 22.5 FS1015

　　七、小結(jié) 語音編碼器是建立和處理VOIP分組的發(fā)動機的。它由DSP驅(qū)動。原來的DS0、TMD G.711 64kbps編碼器最終會被工業(yè)淘汰，并由低比特率編碼器所替代。

IT168辦公通信

分類信息: 文摘