分組語音技術(shù)的實現(xiàn)與應(yīng)用_

分組語音技術(shù)的實現(xiàn)與應(yīng)用

盧飛王黎偉丁曉明

摘要：隨著與互聯(lián)網(wǎng)的接觸愈來愈多，人們會嘗試各種各樣的應(yīng)用，其中一個非常有前途的應(yīng)用就是分組語音技術(shù)。分組語音技術(shù)是指將語音信號轉(zhuǎn)化為一定長度的數(shù)字化語音包，采用存儲轉(zhuǎn)發(fā)的方法以包的形式進行交換和傳輸?shù)募夹g(shù)。文章介紹了分組語音技術(shù)的基本概念，包括原理、結(jié)構(gòu)和性能，以及分組語音技術(shù)的一些具體應(yīng)用。文章強調(diào)，分組語音技術(shù)不僅僅為降低成本而用于IP電話，結(jié)合計算機處理和互聯(lián)網(wǎng)技術(shù)的優(yōu)勢實現(xiàn)各種增值業(yè)務(wù)才是它真正價值所在。

關(guān)鍵詞：分組語音語音壓縮語音網(wǎng)關(guān)

——分組語音技術(shù)是指將語音信號轉(zhuǎn)化為一定長度的數(shù)字化語音包，采用存儲轉(zhuǎn)發(fā)的方法以包的形式進行交換和傳輸?shù)募夹g(shù)。圖1所示是兩個站點之間傳輸分組語音的網(wǎng)絡(luò)示意。每個站點由以下幾個部分組成：PC機、話音的輸入和輸出設(shè)備（如話筒和揚聲器）、對模擬信號進行數(shù)字化的設(shè)備（如語聲卡），最后要與分組交換網(wǎng)連接（一般指互聯(lián)網(wǎng)）。從圖1可以看出分組語音在傳輸中不需任何電路交換設(shè)備，這是和傳統(tǒng)電話不同的地方。

——由于互聯(lián)網(wǎng)不能對傳輸帶寬提供保證，因此語音包在其傳輸過程中就會產(chǎn)生延遲、抖動、包丟失等影響語音質(zhì)量的因素。直到近年來由于低速率編解碼算法的出現(xiàn)和軟硬件性能的提高，人們才注意到分組語音技術(shù)的商業(yè)價值。

——目前我國已經(jīng)開始試驗IP電話，但這還遠遠不夠，筆者認(rèn)為互聯(lián)網(wǎng)上的分組語音技術(shù)不僅為用于降低電信成本而出現(xiàn)在IP電話上，而且應(yīng)該充分利用分組語音技術(shù)與傳統(tǒng)電信技術(shù)的差別，結(jié)合計算機處理和互聯(lián)網(wǎng)技術(shù)的優(yōu)勢，形成強有力的電信增值服務(wù)業(yè)務(wù)。如語音郵件服務(wù)、語音主頁導(dǎo)向服務(wù)、IP信息咨詢服務(wù)及呼叫中心，等等。

——一、分綢語音技術(shù)的概念

——1．實現(xiàn)分組語音技術(shù)的網(wǎng)絡(luò)結(jié)構(gòu)

——無論對于實時的應(yīng)用（如IP電話）還是非實時的應(yīng)用（如語音郵件），發(fā)送端語音都要經(jīng)過模擬信號—數(shù)字信號—語音包的處理過程，并在接收端對語音包進行相反的處理，從而得到與輸入端相同的語音信號。由圖2可見，每個語音流從信源（話筒）到信宿（揚聲器）就像通過一條管道，這條管道包括許多級，每一級代表一些特有的語音包處理過程。

——如圖2所示，模擬語音信號在發(fā)送端要經(jīng)過三級處理。

——①模擬語音到數(shù)字樣點的轉(zhuǎn)換和進入緩沖器前量化數(shù)據(jù)的打包處理。聲卡和音頻設(shè)備首先對模擬語音信號進行8位或16位量化，然后順序送入緩沖器。緩沖器的大小可根據(jù)延遲和編碼的要求選擇。許多低比特率的編碼器是對被稱作幀的語音塊進行編碼。典型幀為10～30 ms�？紤]到傳輸過程中的代價，語音包通常由60，120或240 ms的語音數(shù)據(jù)組成。

——②對語音包以特定的幀長進行編碼。大部分的編碼器都有特定的幀尺寸，若一個編碼器使用15 ms的幀，則把從第一級來的60 ms的包分成4幀，并按順序進行編碼。每個幀合120個語音樣點（抽樣率為8kHz）。編碼后，將4個壓縮的幀合成一個壓縮的語音包送入網(wǎng)絡(luò)處理器。

——③網(wǎng)絡(luò)處理器為語音包添加包頭、時標(biāo)和其他信息后通過網(wǎng)絡(luò)傳送到另一端點。

——在這個通道中，全部網(wǎng)絡(luò)被看成一個整體，持續(xù)不斷地從輸入端接收語音包，然后在一定時間（t)內(nèi)將其傳送到網(wǎng)絡(luò)輸出端。t可以在某個范圍內(nèi)變化，反映了網(wǎng)絡(luò)傳輸中的抖動。

——當(dāng)語音包經(jīng)網(wǎng)絡(luò)傳送到另一端被計算機接收時又要經(jīng)過下述三次處理。

——首先，網(wǎng)絡(luò)級提供一個可變長度的緩沖器，用來調(diào)節(jié)網(wǎng)絡(luò)產(chǎn)生的抖動。該緩沖器可容納許多語音包，用戶可選擇緩沖器的大小。小的緩沖器產(chǎn)生延遲較小，但不能調(diào)節(jié)大的抖動。

——其次，解碼器將經(jīng)編碼的語音包解壓縮后產(chǎn)生新的語音包，這個模塊也可按幀進行操作，完全和編碼器的長度相同。若幀長度為15 ms，則60 ms的語音包被分成4幀，然后它們被解碼還原成60 ms的語音數(shù)據(jù)流送入解碼緩沖器。

——再次，播放驅(qū)動器將緩沖器中語音樣點（480個）取出送入聲卡，通過揚聲器按預(yù)定的頻率（例如8kHz）播出。

——傳輸是依靠每一端三級的同步有效操作。如圖3所示，在像IP電話這樣的全雙工通信中，每一端的六級都是連續(xù)工作的。因此在具體應(yīng)用時為了減少分離處理的數(shù)量，這六級被合成同時工作的三個處理過程。

——2．分組語音中的一些關(guān)鍵技術(shù)

——（1）語音壓縮算法

——語音壓縮是分組語音系統(tǒng)中的重要組成部分。目前，通過調(diào)制解調(diào)器接入網(wǎng)絡(luò)的最大速率為56 kbit／s，遠遠不能適應(yīng)多媒體通信的要求，而且互聯(lián)網(wǎng)不能對傳輸帶寬提供保證，因此必須采用低速率的語音壓縮算法來處理語音，這對實時語音應(yīng)用尤為重要。

——現(xiàn)有的語音壓縮算法提供顯著低于64kbit／s但音質(zhì)接近于長話質(zhì)量的多種方案。表1列出了國際電聯(lián)標(biāo)準(zhǔn)編碼器性能比較。

表1 ITU標(biāo)準(zhǔn)編碼算法

語音編碼算法	長話質(zhì)量	比特率(kbit/s)	復(fù)雜程度	延遲(ms)	用途
G.729	優(yōu) 于	8	較高	35	普通網(wǎng)絡(luò)
G.729A	等于	8	較低	35	公眾電話網(wǎng)上的語音、數(shù)據(jù)同步傳輸系統(tǒng)
G.723.1	約等于	5.3,6.3	適中	97.5	公眾電話網(wǎng)上的可視電話編碼器

——（2）音頻回聲消除技術(shù)

——在IP電話的應(yīng)用中，人們?nèi)羰褂脫P聲器和麥克風(fēng)就可能出現(xiàn)回聲現(xiàn)象。如圖4所示。

——本地?fù)P聲器輸出的模擬語音信號可能又被話筒接收，當(dāng)信號被傳回到源端時，就會產(chǎn)生不必要的回聲。在互聯(lián)網(wǎng)中，呼叫必須經(jīng)過多個路由器和網(wǎng)關(guān)，其相當(dāng)長的延遲又會造成回聲問題的進一步惡化。在系統(tǒng)中使用回聲消除技術(shù)可以解決這個問題。目前，回聲消除技術(shù)主要有回聲抑制和回聲抵消兩種。

——（3）網(wǎng)絡(luò)呼叫技術(shù)

——IP電話采用分布式的呼叫模式。因為不需要通過電路交換完成呼叫，所以每個終端都使用了呼叫處理器。單工呼叫模式僅支持一個終端的呼叫，且需要本地呼叫驅(qū)動的支持。通過觸發(fā)本地呼叫驅(qū)動軟件建立一次呼叫，而呼叫驅(qū)動利用傳輸控制協(xié)議（TCP）的套接字（Socket）與另一端的呼叫驅(qū)動建立信令連接，從而觸發(fā)另一端的單工呼叫。這兩個單工呼叫被觸發(fā)后按照Q.931信令協(xié)議完成呼叫過程的建立。根據(jù)信令的引導(dǎo)，呼叫驅(qū)動程序啟動語音信息流接入網(wǎng)絡(luò)和對端的接收設(shè)備，建立一個完整的呼叫過程（圖5）。圖5中的呼叫對象指明本次呼叫的域名、兩端的終端識別碼（ID）或電話號碼、呼叫類型（如單純語音、語音和數(shù)據(jù)）等信息。

——（4）語音網(wǎng)關(guān)技術(shù)

——語音網(wǎng)關(guān)（Gateway）除了完成傳統(tǒng)電話網(wǎng)與互聯(lián)網(wǎng)的硬件接口以外，還承擔(dān)著信令轉(zhuǎn)換、語音處理、呼叫應(yīng)答與提示、路由尋址等功能。通過語音網(wǎng)關(guān)，真正實現(xiàn)了公眾電話網(wǎng)與互聯(lián)網(wǎng)的有機結(jié)合，在計算機到普通電話或普通電話到普通電話的IP電話應(yīng)用中尤為重要。

——圖6為計算機到普通電話的通信方式。語音網(wǎng)關(guān)的一側(cè)與公眾電話網(wǎng)或用戶小交換機相連。在主叫方，它接收電話信令，將其數(shù)字化、壓縮、打包（語音包）并送到互聯(lián)網(wǎng)上；在被叫方，它從互聯(lián)網(wǎng)上接收語音包，解包、解壓并將其發(fā)送到公眾電話網(wǎng)或用戶小交換機上。

——語音網(wǎng)關(guān)的另一側(cè)與互聯(lián)網(wǎng)相連，在互聯(lián)網(wǎng)上對被叫進行路由查詢和完成IP地址的自動轉(zhuǎn)換。語音網(wǎng)關(guān)很好地解決了IP電話的尋址問題。在傳統(tǒng)的IP電話系統(tǒng)中，要確定一個多媒體PC機就必須知道其IP地址。若用語音網(wǎng)關(guān)來確定一個遠端的用戶，則只需知道其電話號碼就可以了。
語音網(wǎng)關(guān)采用高速的分組交換技術(shù)對語音信號進行編碼、壓縮并打包，經(jīng)路由器在互聯(lián)網(wǎng)上傳輸。接收方路由器接到數(shù)據(jù)包后，根據(jù)IP地址將數(shù)據(jù)傳送給接收方網(wǎng)關(guān)，該網(wǎng)關(guān)將數(shù)據(jù)拆包、解碼、解壓縮，隨后傳送給公眾電話網(wǎng)或用戶小交換機。

——除了語音壓縮編解碼和打包外，語音網(wǎng)關(guān)還應(yīng)完成語音活動檢測、靜音壓縮、舒適噪音生成、回聲消除和雙音多頻信令處理功能。隨著網(wǎng)關(guān)應(yīng)用的普及，今后的語音網(wǎng)關(guān)還將擔(dān)負(fù)有關(guān)服務(wù)質(zhì)量協(xié)議監(jiān)測和IP計費管理等處理功能。

——二、分組語音技術(shù)的實現(xiàn)

——早期分組語音技術(shù)的應(yīng)用大都采用軟件實現(xiàn)。近年來，隨著大規(guī)模集成電路的飛速發(fā)展，硬件價格大幅度下降，從而出現(xiàn)了許多用硬件實現(xiàn)分組語音的產(chǎn)品。硬件具有對數(shù)據(jù)處理的速度快，可處理大量數(shù)據(jù)的特點，所以使用硬件實現(xiàn)分組語音可以很好地處理延遲。抖動、回聲抑制等問題，從而得到良好的音質(zhì)。采用硬件實現(xiàn)分組語音的另一個優(yōu)點是：在一個硬件電路中可以實現(xiàn)多種壓縮標(biāo)準(zhǔn)的分組語音，能很靈活地適應(yīng)不同網(wǎng)絡(luò)環(huán)境下的多個語音終端的互通。

——目前，筆者已經(jīng)實現(xiàn)了建立在PC機上的分組語音系統(tǒng)，它由硬件平臺和軟件平臺兩部分構(gòu)成。

——1．硬件平臺

——硬件平臺構(gòu)造于PC機上，采用ISA總線插卡方式，如圖7所示。該平臺采用了美國DSPG公司的專用數(shù)字信號處理器CT8020作為核心部件，利用先進的可編程邏輯器件開發(fā)了外圍控制電路和接口電路。它主要完成以下功能。

——（1）備有三種電路接口

——這三種接口是線路輸出接口、話筒輸入接口和話機輸入輸出接口。

——（2）完成話筒語音前置放大

——由于從話筒輸入的語音信號比較微弱（1～30mV），達不到編解碼器對信號強度的要求，因此必須進行前置放大。這里由專用前置放大芯片完成放大功能。

——（3）語音信號的轉(zhuǎn)換及編解碼

——語音信號的A／D，D／A轉(zhuǎn)換及編解碼功能是利用MC145480完成的，它的優(yōu)點是：①可將語音信號的A／D，D／A轉(zhuǎn)換及編解碼集成在一個芯片中，提高了系統(tǒng)穩(wěn)定性；②只需單電源供電，減少了雙電源供電所帶來的電源干擾問題，提高了語聲質(zhì)量；③可提供A律及μ律兩種編碼格式，提供符合ITU-T G.711建議的語音數(shù)據(jù)流。

——（4）語音數(shù)據(jù)的壓縮和解壓縮

——該功能主要由專用語音芯片CT8020完成。它實現(xiàn)了ITU-T G.723.1所規(guī)定的5.3和6.3 kbit／s兩種比特率語音。這兩種比特率是H.324建議所規(guī)定的國際標(biāo)準(zhǔn)語音速率，適用于線路帶寬較小的多媒體通信。此外在線路情況十分惡劣條件下，它可提供4.1和4.8kbit／S，語音。當(dāng)線路情況良好時，CT8020還可提供非標(biāo)準(zhǔn)的8.5 kbit／s壓縮語音和未壓縮的64與128 kbit／s這兩種純數(shù)字語音。該芯片處理速度快，可實現(xiàn)語音的實時處理。

——（5）語音的回聲抑制功能

——該功能由CT8020完成。

——（6）可與公眾電話網(wǎng)相連

——為電話接口提供和檢測雙音多頻信號（DTMF），能和公眾電話網(wǎng)相連。

——（7）控制電路

——控制電路主要是將主機發(fā)出的命令送入CT8020，并將狀態(tài)信息返回給主機；按上層軟件的要求，定時將由CT8020處理的語音數(shù)據(jù)提供給上層軟件。該控制電路利用Altera公司的可編程邏輯器件EPM7128S實現(xiàn)，通過Altera的MAXPLUSII軟件編解原理圖后下載到芯片中。這種控制電路的實現(xiàn)方式降低了電路板布線密度，只需對軟件進行修改即可完成電路調(diào)試和技術(shù)升級，不需要重新制板。

——為便于在Windows95環(huán)境下使用該平臺，開發(fā)了虛擬設(shè)備驅(qū)動程序。該程序為上層軟件提供了豐富的接口函數(shù)，用于實現(xiàn)對語音板的操作。軟件平臺與硬件平臺的關(guān)系如圖8所示。

——2．軟件平臺

——建立在Windows95操作環(huán)境之上的軟件平臺采用了H.323建議作為總體框架結(jié)構(gòu)，利用Windows套接字函數(shù)進行網(wǎng)絡(luò)傳輸。它主要完成以下功能。

——（1）終端建鏈

——應(yīng)用軟件按照建議H.245和H.225的規(guī)定與遠端機通信，設(shè)定邏輯通道。

——（2）語音采集

——采集語音線程將底層語音板的語音數(shù)據(jù)采集上來，送給H.225.0打包線程。

——（3）語音數(shù)據(jù)打包

——根據(jù)網(wǎng)絡(luò)的帶寬等確定語音包的大小，然后打包線程按H.225的規(guī)定將語音數(shù)據(jù)加上靜荷標(biāo)識符、序列號、時標(biāo)及同步源標(biāo)識（SSRC）等信息。語音包用UDP格式，以盡可能保證語音包在網(wǎng)絡(luò)傳輸中的實時性。

——（4）發(fā)送語音包

——發(fā)送線程調(diào)用Windows套接字函數(shù)，將來自打包線程的語音包送入網(wǎng)絡(luò)進行傳輸。

——（5）接收語音包

——接收線程調(diào)用Windows套接字函數(shù)接收來自對端的語音包。為防止語音包在網(wǎng)絡(luò)傳輸中受到延遲、擁塞等的影響（如后發(fā)包先到、語音包丟失等），接收線程先將接收到的語音包送入拆包線程的緩沖區(qū)中。

——（6）拆包線程

——拆包線程將緩沖區(qū)中的語音包按序列號進行排隊，并還原語音數(shù)據(jù)。

——（7）播放語音

——播放語音線程從接收線程的緩沖區(qū)中讀入數(shù)據(jù)，送入底層語音板進行播放。其框圖如圖9所示。

——在上述的分組語音平臺基礎(chǔ)上，可以實現(xiàn)多種應(yīng)用。被視為現(xiàn)代通信行業(yè)一次革命的IP電話只是分組語音技術(shù)應(yīng)用的初端。分組語音的應(yīng)用范圍不僅限于此，在會議系統(tǒng)、遠程教學(xué)、遠程醫(yī)療、信息服務(wù)呼叫中心、網(wǎng)絡(luò)廣播、預(yù)售票系統(tǒng)、專家熱線、存款余額查詢等諸多方面都大有用武之地。

——在許多分組語音的應(yīng)用中（如會議系統(tǒng)等）都需要使用分組語音混合技術(shù)。實現(xiàn)語音混合的方法傳統(tǒng)上是通過二次編解碼，首先將輸入的各路語音解碼，恢復(fù)到壓縮以前的狀態(tài)，然后，進行線性疊加和自適應(yīng)增益調(diào)整。疊加后的信號經(jīng)過二次編碼后，再輸出到音箱。這樣做的結(jié)果將使語音信號的單向系統(tǒng)延遲增加一倍以上，降低了語音信號的實時性，音質(zhì)也因此變差了。由于在分組語音應(yīng)用中傳輸?shù)氖菈嚎s率很高的語音信號，因而二次編解碼對實時性的影響更為明顯。例如，原G.723.1聲碼器的算法延遲為37.5 ms，但經(jīng)過“橋接”其單向系統(tǒng)延遲遠大于75 ms。如此高的延遲使得音質(zhì)和舒適度急劇下降。鑒于此，筆者以語音幀中增益為比較對象，采用“能量選大”的算法，并配合以語音靜默檢測，實現(xiàn)語音混合。用它取代現(xiàn)有的二次編解碼方案，可以大幅度降低算法復(fù)雜度和延遲，有效地提高混合后的語音質(zhì)量。

——三、分組語音技術(shù)的應(yīng)用

——目前，大家對于IP電話的認(rèn)識僅局限于通過網(wǎng)絡(luò)打電話，花費比普通電話便宜。其實，這只是IP語音網(wǎng)關(guān)的一部分功能。IP語音網(wǎng)關(guān)是公眾電話網(wǎng)與IP網(wǎng)絡(luò)的轉(zhuǎn)換接口，它將龐大的電信網(wǎng)與Internet網(wǎng)相連。如何利用計算機的功能和Internet網(wǎng)絡(luò)的資源在電話業(yè)務(wù)的基礎(chǔ)之實現(xiàn)各種增值業(yè)務(wù)，才是它的真正價值所在。

——例如，通過電話提供語音郵件服務(wù)，網(wǎng)關(guān)處的PC機可以接收存儲電子語音郵件，用戶可以通過電話來收聽自己的語音郵件；此外，用戶可以預(yù)先在計算機上設(shè)定自己常用的一些電子郵件地址，以后就可以通過電話完成語音郵件的錄制和發(fā)送。這極大地方便了對計算機操作不熟悉的用戶。如果再通過專線將PC機和尋呼臺相連，那么每當(dāng)用戶有新郵件到達時，通過尋呼機通知用戶，或者直接與手機的基站控制臺相連，通過手機直接播放電子語音郵件。

——再如，呼叫中心服務(wù)系統(tǒng)包括了呼叫處理、路由選擇、自動應(yīng)答、座席話務(wù)員管理，以及咨詢與數(shù)據(jù)庫集成等多種技術(shù)，可使中心向用戶提供多種不同服務(wù)。如果采用分組語音技術(shù)與網(wǎng)絡(luò)及數(shù)據(jù)庫技術(shù)相結(jié)合，那么一般話務(wù)員就可以提供專家級的服務(wù)：當(dāng)用戶與話務(wù)員交流時不僅可獲取其最感興趣的信息，而且還可通過IP網(wǎng)及數(shù)據(jù)庫查到或取出專業(yè)信息（而不是要求隨時有專家服務(wù)）。這種高質(zhì)量的服務(wù)和較低的運營成本，在激烈的市場競爭中將會對公司有幫助。

——各行各業(yè)都有大量的信息需要發(fā)布，用戶也需要查詢信息，如電信部門的電話號碼查詢、電話業(yè)務(wù)宣傳，運輸部門有關(guān)貨物到達后的自動告知，健康保險部門的藥物查詢、門診預(yù)約，旅游娛樂部門的訂票系統(tǒng)、景點介紹，等等。如何將這些信息簡潔、快速地傳遞給用戶已經(jīng)成為未來企業(yè)生存和發(fā)展的一個決定因素。因而可以斷言，目前分組語音技術(shù)的應(yīng)用只是一個開端，它將會取代現(xiàn)有的大部分傳統(tǒng)電信業(yè)務(wù)，成為未來通信的一種主流模式。

——鑒于上述構(gòu)想，筆者開發(fā)了基于分組語音技術(shù)的3個方面應(yīng)用：①IP語音網(wǎng)關(guān)。結(jié)合自行開發(fā)的電話接口卡實現(xiàn)了從普通電話到計算機、計算機到計算機的網(wǎng)絡(luò)電話功能，這種IP電話的實現(xiàn)方案可用于公司內(nèi)部與遠端客戶或子公司的聯(lián)絡(luò)，也可用于個人與親友的聯(lián)絡(luò)。②結(jié)合應(yīng)用①再配合分組語音的混合算法，實際上已經(jīng)構(gòu)成了一個網(wǎng)上可視會議系統(tǒng)的語音子系統(tǒng)，可實現(xiàn)IP網(wǎng)上多方語音會議。③開發(fā)成功了利用電話查詢電子郵件的系統(tǒng)。

——目前電信部門正在由電信服務(wù)向信息服務(wù)轉(zhuǎn)變。但傳統(tǒng)網(wǎng)絡(luò)信息以文本方式為主，不利于信息傳遞。隨著語音壓縮技術(shù)的發(fā)展而成熟起來的分組語音技術(shù)是建筑在互聯(lián)網(wǎng)上的通信手段，便于信息傳遞，在今后三網(wǎng)合一的大趨勢中有廣泛的應(yīng)用。

盧飛 北方交通大學(xué)信息科學(xué)研究所研究生

王黎煒 北方交通大學(xué)信息科學(xué)研究所研究生

丁曉明 北方交通大學(xué)信息科學(xué)研究所副教授

相關(guān)鏈接:

校園電話的實現(xiàn)及前景預(yù)測 2004-11-30

朗訊科技新一代SONATA話音增強系統(tǒng) 2004-11-30

有線電視網(wǎng)增值業(yè)務(wù)方案 2004-11-30

準(zhǔn)備的迎接Voice Over DSL 2003-05-21

主叫號碼顯示業(yè)務(wù) 2003-05-21

分類信息:

分組語音技術(shù)的實現(xiàn)與應(yīng)用

盧 飛 王黎偉 丁曉明

盧飛王黎偉丁曉明