分組語音技術(shù)的實現(xiàn)與應(yīng)用

盧   飛  王黎偉  丁曉明

摘  要:隨著與互聯(lián)網(wǎng)的接觸愈來愈多,人們會嘗試各種各樣的應(yīng)用,其中一個非常有前途的應(yīng)用就是分組語音技術(shù)。分組語音技術(shù)是指將語音信號轉(zhuǎn)化為一定長度的數(shù)字化語音包,采用存儲轉(zhuǎn)發(fā)的方法以包的形式進行交換和傳輸?shù)募夹g(shù)。文章介紹了分組語音技術(shù)的基本概念,包括原理、結(jié)構(gòu)和性能,以及分組語音技術(shù)的一些具體應(yīng)用。文章強調(diào),分組語音技術(shù)不僅僅為降低成本而用于IP電話,結(jié)合計算機處理和互聯(lián)網(wǎng)技術(shù)的優(yōu)勢實現(xiàn)各種增值業(yè)務(wù)才是它真正價值所在。

關(guān)鍵詞:分組語音  語音壓縮  語音網(wǎng)關(guān)

——分組語音技術(shù)是指將語音信號轉(zhuǎn)化為一定長度的數(shù)字化語音包,采用存儲轉(zhuǎn)發(fā)的方法以包的形式進行交換和傳輸?shù)募夹g(shù)。圖1所示是兩個站點之間傳輸分組語音的網(wǎng)絡(luò)示意。每個站點由以下幾個部分組成:PC機、話音的輸入和輸出設(shè)備(如話筒和揚聲器)、對模擬信號進行數(shù)字化的設(shè)備(如語聲卡),最后要與分組交換網(wǎng)連接(一般指互聯(lián)網(wǎng))。從圖1可以看出分組語音在傳輸中不需任何電路交換設(shè)備,這是和傳統(tǒng)電話不同的地方。

——由于互聯(lián)網(wǎng)不能對傳輸帶寬提供保證,因此語音包在其傳輸過程中就會產(chǎn)生延遲、抖動、包丟失等影響語音質(zhì)量的因素。直到近年來由于低速率編解碼算法的出現(xiàn)和軟硬件性能的提高,人們才注意到分組語音技術(shù)的商業(yè)價值。

——目前我國已經(jīng)開始試驗IP電話,但這還遠遠不夠,筆者認(rèn)為互聯(lián)網(wǎng)上的分組語音技術(shù)不僅為用于降低電信成本而出現(xiàn)在IP電話上,而且應(yīng)該充分利用分組語音技術(shù)與傳統(tǒng)電信技術(shù)的差別,結(jié)合計算機處理和互聯(lián)網(wǎng)技術(shù)的優(yōu)勢,形成強有力的電信增值服務(wù)業(yè)務(wù)。如語音郵件服務(wù)、語音主頁導(dǎo)向服務(wù)、IP信息咨詢服務(wù)及呼叫中心,等等。

——一、分綢語音技術(shù)的概念

——1.實現(xiàn)分組語音技術(shù)的網(wǎng)絡(luò)結(jié)構(gòu)

——無論對于實時的應(yīng)用(如IP電話)還是非實時的應(yīng)用(如語音郵件),發(fā)送端語音都要經(jīng)過模擬信號—數(shù)字信號—語音包的處理過程,并在接收端對語音包進行相反的處理,從而得到與輸入端相同的語音信號。由圖2可見,每個語音流從信源(話筒)到信宿(揚聲器)就像通過一條管道,這條管道包括許多級,每一級代表一些特有的語音包處理過程。

——如圖2所示,模擬語音信號在發(fā)送端要經(jīng)過三級處理。

——①模擬語音到數(shù)字樣點的轉(zhuǎn)換和進入緩沖器前量化數(shù)據(jù)的打包處理。聲卡和音頻設(shè)備首先對模擬語音信號進行8位或16位量化,然后順序送入緩沖器。緩沖器的大小可根據(jù)延遲和編碼的要求選擇。許多低比特率的編碼器是對被稱作幀的語音塊進行編碼。典型幀為10~30 ms?紤]到傳輸過程中的代價,語音包通常由60,120或240 ms的語音數(shù)據(jù)組成。

——②對語音包以特定的幀長進行編碼。大部分的編碼器都有特定的幀尺寸,若一個編碼器使用15 ms的幀,則把從第一級來的60 ms的包分成4幀,并按順序進行編碼。每個幀合120個語音樣點(抽樣率為8kHz)。編碼后,將4個壓縮的幀合成一個壓縮的語音包送入網(wǎng)絡(luò)處理器。

——③網(wǎng)絡(luò)處理器為語音包添加包頭、時標(biāo)和其他信息后通過網(wǎng)絡(luò)傳送到另一端點。

——在這個通道中,全部網(wǎng)絡(luò)被看成一個整體,持續(xù)不斷地從輸入端接收語音包,然后在一定時間(t)內(nèi)將其傳送到網(wǎng)絡(luò)輸出端。t可以在某個范圍內(nèi)變化,反映了網(wǎng)絡(luò)傳輸中的抖動。

——當(dāng)語音包經(jīng)網(wǎng)絡(luò)傳送到另一端被計算機接收時又要經(jīng)過下述三次處理。

——首先,網(wǎng)絡(luò)級提供一個可變長度的緩沖器,用來調(diào)節(jié)網(wǎng)絡(luò)產(chǎn)生的抖動。該緩沖器可容納許多語音包,用戶可選擇緩沖器的大小。小的緩沖器產(chǎn)生延遲較小,但不能調(diào)節(jié)大的抖動。

——其次,解碼器將經(jīng)編碼的語音包解壓縮后產(chǎn)生新的語音包,這個模塊也可按幀進行操作,完全和編碼器的長度相同。若幀長度為15 ms,則60 ms的語音包被分成4幀,然后它們被解碼還原成60 ms的語音數(shù)據(jù)流送入解碼緩沖器。

——再次,播放驅(qū)動器將緩沖器中語音樣點(480個)取出送入聲卡,通過揚聲器按預(yù)定的頻率(例如8kHz)播出。

——傳輸是依靠每一端三級的同步有效操作。如圖3所示,在像IP電話這樣的全雙工通信中,每一端的六級都是連續(xù)工作的。因此在具體應(yīng)用時為了減少分離處理的數(shù)量,這六級被合成同時工作的三個處理過程。

——2.分組語音中的一些關(guān)鍵技術(shù)

——(1)語音壓縮算法

——語音壓縮是分組語音系統(tǒng)中的重要組成部分。目前,通過調(diào)制解調(diào)器接入網(wǎng)絡(luò)的最大速率為56 kbit/s,遠遠不能適應(yīng)多媒體通信的要求,而且互聯(lián)網(wǎng)不能對傳輸帶寬提供保證,因此必須采用低速率的語音壓縮算法來處理語音,這對實時語音應(yīng)用尤為重要。

——現(xiàn)有的語音壓縮算法提供顯著低于64kbit/s但音質(zhì)接近于長話質(zhì)量的多種方案。表1列出了國際電聯(lián)標(biāo)準(zhǔn)編碼器性能比較。

表1  ITU標(biāo)準(zhǔn)編碼算法
 
語音編碼算法 長話質(zhì)量 比特率(kbit/s) 復(fù)雜程度 延遲(ms) 用   途
G.729 優(yōu)  于 8 較高 35 普通網(wǎng)絡(luò)
G.729A 等  于 8 較低 35 公眾電話網(wǎng)上的語音、數(shù)據(jù)同步傳輸系統(tǒng)
G.723.1 約等于 5.3,6.3 適中 97.5 公眾電話網(wǎng)上的可視電話編碼器
——(2)音頻回聲消除技術(shù)

——在IP電話的應(yīng)用中,人們?nèi)羰褂脫P聲器和麥克風(fēng)就可能出現(xiàn)回聲現(xiàn)象。如圖4所示。

——本地?fù)P聲器輸出的模擬語音信號可能又被話筒接收,當(dāng)信號被傳回到源端時,就會產(chǎn)生不必要的回聲。在互聯(lián)網(wǎng)中,呼叫必須經(jīng)過多個路由器和網(wǎng)關(guān),其相當(dāng)長的延遲又會造成回聲問題的進一步惡化。在系統(tǒng)中使用回聲消除技術(shù)可以解決這個問題。目前,回聲消除技術(shù)主要有回聲抑制和回聲抵消兩種。

——(3)網(wǎng)絡(luò)呼叫技術(shù)

——IP電話采用分布式的呼叫模式。因為不需要通過電路交換完成呼叫,所以每個終端都使用了呼叫處理器。單工呼叫模式僅支持一個終端的呼叫,且需要本地呼叫驅(qū)動的支持。通過觸發(fā)本地呼叫驅(qū)動軟件建立一次呼叫,而呼叫驅(qū)動利用傳輸控制協(xié)議(TCP)的套接字(Socket)與另一端的呼叫驅(qū)動建立信令連接,從而觸發(fā)另一端的單工呼叫。這兩個單工呼叫被觸發(fā)后按照Q.931信令協(xié)議完成呼叫過程的建立。根據(jù)信令的引導(dǎo),呼叫驅(qū)動程序啟動語音信息流接入網(wǎng)絡(luò)和對端的接收設(shè)備,建立一個完整的呼叫過程(圖5)。圖5中的呼叫對象指明本次呼叫的域名、兩端的終端識別碼(ID)或電話號碼、呼叫類型(如單純語音、語音和數(shù)據(jù))等信息。

——(4)語音網(wǎng)關(guān)技術(shù)

——語音網(wǎng)關(guān)(Gateway)除了完成傳統(tǒng)電話網(wǎng)與互聯(lián)網(wǎng)的硬件接口以外,還承擔(dān)著信令轉(zhuǎn)換、語音處理、呼叫應(yīng)答與提示、路由尋址等功能。通過語音網(wǎng)關(guān),真正實現(xiàn)了公眾電話網(wǎng)與互聯(lián)網(wǎng)的有機結(jié)合,在計算機到普通電話或普通電話到普通電話的IP電話應(yīng)用中尤為重要。

——圖6為計算機到普通電話的通信方式。語音網(wǎng)關(guān)的一側(cè)與公眾電話網(wǎng)或用戶小交換機相連。在主叫方,它接收電話信令,將其數(shù)字化、壓縮、打包(語音包)并送到互聯(lián)網(wǎng)上;在被叫方,它從互聯(lián)網(wǎng)上接收語音包,解包、解壓并將其發(fā)送到公眾電話網(wǎng)或用戶小交換機上。

——語音網(wǎng)關(guān)的另一側(cè)與互聯(lián)網(wǎng)相連,在互聯(lián)網(wǎng)上對被叫進行路由查詢和完成IP地址的自動轉(zhuǎn)換。語音網(wǎng)關(guān)很好地解決了IP電話的尋址問題。在傳統(tǒng)的IP電話系統(tǒng)中,要確定一個多媒體PC機就必須知道其IP地址。若用語音網(wǎng)關(guān)來確定一個遠端的用戶,則只需知道其電話號碼就可以了。
語音網(wǎng)關(guān)采用高速的分組交換技術(shù)對語音信號進行編碼、壓縮并打包,經(jīng)路由器在互聯(lián)網(wǎng)上傳輸。接收方路由器接到數(shù)據(jù)包后,根據(jù)IP地址將數(shù)據(jù)傳送給接收方網(wǎng)關(guān),該網(wǎng)關(guān)將數(shù)據(jù)拆包、解碼、解壓縮,隨后傳送給公眾電話網(wǎng)或用戶小交換機。

——除了語音壓縮編解碼和打包外,語音網(wǎng)關(guān)還應(yīng)完成語音活動檢測、靜音壓縮、舒適噪音生成、回聲消除和雙音多頻信令處理功能。隨著網(wǎng)關(guān)應(yīng)用的普及,今后的語音網(wǎng)關(guān)還將擔(dān)負(fù)有關(guān)服務(wù)質(zhì)量協(xié)議監(jiān)測和IP計費管理等處理功能。

——二、分組語音技術(shù)的實現(xiàn)

——早期分組語音技術(shù)的應(yīng)用大都采用軟件實現(xiàn)。近年來,隨著大規(guī)模集成電路的飛速發(fā)展,硬件價格大幅度下降,從而出現(xiàn)了許多用硬件實現(xiàn)分組語音的產(chǎn)品。硬件具有對數(shù)據(jù)處理的速度快,可處理大量數(shù)據(jù)的特點,所以使用硬件實現(xiàn)分組語音可以很好地處理延遲。抖動、回聲抑制等問題,從而得到良好的音質(zhì)。采用硬件實現(xiàn)分組語音的另一個優(yōu)點是:在一個硬件電路中可以實現(xiàn)多種壓縮標(biāo)準(zhǔn)的分組語音,能很靈活地適應(yīng)不同網(wǎng)絡(luò)環(huán)境下的多個語音終端的互通。

——目前,筆者已經(jīng)實現(xiàn)了建立在PC機上的分組語音系統(tǒng),它由硬件平臺和軟件平臺兩部分構(gòu)成。

——1.硬件平臺

——硬件平臺構(gòu)造于PC機上,采用ISA總線插卡方式,如圖7所示。該平臺采用了美國DSPG公司的專用數(shù)字信號處理器CT8020作為核心部件,利用先進的可編程邏輯器件開發(fā)了外圍控制電路和接口電路。它主要完成以下功能。

——(1)備有三種電路接口

——這三種接口是線路輸出接口、話筒輸入接口和話機輸入輸出接口。

——(2)完成話筒語音前置放大

——由于從話筒輸入的語音信號比較微弱(1~30mV),達不到編解碼器對信號強度的要求,因此必須進行前置放大。這里由專用前置放大芯片完成放大功能。

——(3)語音信號的轉(zhuǎn)換及編解碼

——語音信號的A/D,D/A轉(zhuǎn)換及編解碼功能是利用MC145480完成的,它的優(yōu)點是:①可將語音信號的A/D,D/A轉(zhuǎn)換及編解碼集成在一個芯片中,提高了系統(tǒng)穩(wěn)定性;②只需單電源供電,減少了雙電源供電所帶來的電源干擾問題,提高了語聲質(zhì)量;③可提供A律及μ律兩種編碼格式,提供符合ITU-T G.711建議的語音數(shù)據(jù)流。

——(4)語音數(shù)據(jù)的壓縮和解壓縮

——該功能主要由專用語音芯片CT8020完成。它實現(xiàn)了ITU-T G.723.1所規(guī)定的5.3和6.3 kbit/s兩種比特率語音。這兩種比特率是H.324建議所規(guī)定的國際標(biāo)準(zhǔn)語音速率,適用于線路帶寬較小的多媒體通信。此外在線路情況十分惡劣條件下,它可提供4.1和4.8kbit/S,語音。當(dāng)線路情況良好時,CT8020還可提供非標(biāo)準(zhǔn)的8.5 kbit/s壓縮語音和未壓縮的64與128 kbit/s這兩種純數(shù)字語音。該芯片處理速度快,可實現(xiàn)語音的實時處理。

——(5)語音的回聲抑制功能

——該功能由CT8020完成。

——(6)可與公眾電話網(wǎng)相連

——為電話接口提供和檢測雙音多頻信號(DTMF),能和公眾電話網(wǎng)相連。

——(7)控制電路

——控制電路主要是將主機發(fā)出的命令送入CT8020,并將狀態(tài)信息返回給主機;按上層軟件的要求,定時將由CT8020處理的語音數(shù)據(jù)提供給上層軟件。該控制電路利用Altera公司的可編程邏輯器件EPM7128S實現(xiàn),通過Altera的MAXPLUSII軟件編解原理圖后下載到芯片中。這種控制電路的實現(xiàn)方式降低了電路板布線密度,只需對軟件進行修改即可完成電路調(diào)試和技術(shù)升級,不需要重新制板。

——為便于在Windows95環(huán)境下使用該平臺,開發(fā)了虛擬設(shè)備驅(qū)動程序。該程序為上層軟件提供了豐富的接口函數(shù),用于實現(xiàn)對語音板的操作。軟件平臺與硬件平臺的關(guān)系如圖8所示。

——2.軟件平臺

——建立在Windows95操作環(huán)境之上的軟件平臺采用了H.323建議作為總體框架結(jié)構(gòu),利用Windows套接字函數(shù)進行網(wǎng)絡(luò)傳輸。它主要完成以下功能。

——(1)終端建鏈

——應(yīng)用軟件按照建議H.245和H.225的規(guī)定與遠端機通信,設(shè)定邏輯通道。

——(2)語音采集

——采集語音線程將底層語音板的語音數(shù)據(jù)采集上來,送給H.225.0打包線程。

——(3)語音數(shù)據(jù)打包

——根據(jù)網(wǎng)絡(luò)的帶寬等確定語音包的大小,然后打包線程按H.225的規(guī)定將語音數(shù)據(jù)加上靜荷標(biāo)識符、序列號、時標(biāo)及同步源標(biāo)識(SSRC)等信息。語音包用UDP格式,以盡可能保證語音包在網(wǎng)絡(luò)傳輸中的實時性。

——(4)發(fā)送語音包

——發(fā)送線程調(diào)用Windows套接字函數(shù),將來自打包線程的語音包送入網(wǎng)絡(luò)進行傳輸。

——(5)接收語音包

——接收線程調(diào)用Windows套接字函數(shù)接收來自對端的語音包。為防止語音包在網(wǎng)絡(luò)傳輸中受到延遲、擁塞等的影響(如后發(fā)包先到、語音包丟失等),接收線程先將接收到的語音包送入拆包線程的緩沖區(qū)中。

——(6)拆包線程

——拆包線程將緩沖區(qū)中的語音包按序列號進行排隊,并還原語音數(shù)據(jù)。

——(7)播放語音

——播放語音線程從接收線程的緩沖區(qū)中讀入數(shù)據(jù),送入底層語音板進行播放。其框圖如圖9所示。

——在上述的分組語音平臺基礎(chǔ)上,可以實現(xiàn)多種應(yīng)用。被視為現(xiàn)代通信行業(yè)一次革命的IP電話只是分組語音技術(shù)應(yīng)用的初端。分組語音的應(yīng)用范圍不僅限于此,在會議系統(tǒng)、遠程教學(xué)、遠程醫(yī)療、信息服務(wù)呼叫中心、網(wǎng)絡(luò)廣播、預(yù)售票系統(tǒng)、專家熱線、存款余額查詢等諸多方面都大有用武之地。

——在許多分組語音的應(yīng)用中(如會議系統(tǒng)等)都需要使用分組語音混合技術(shù)。實現(xiàn)語音混合的方法傳統(tǒng)上是通過二次編解碼,首先將輸入的各路語音解碼,恢復(fù)到壓縮以前的狀態(tài),然后,進行線性疊加和自適應(yīng)增益調(diào)整。疊加后的信號經(jīng)過二次編碼后,再輸出到音箱。這樣做的結(jié)果將使語音信號的單向系統(tǒng)延遲增加一倍以上,降低了語音信號的實時性,音質(zhì)也因此變差了。由于在分組語音應(yīng)用中傳輸?shù)氖菈嚎s率很高的語音信號,因而二次編解碼對實時性的影響更為明顯。例如,原G.723.1聲碼器的算法延遲為37.5 ms,但經(jīng)過“橋接”其單向系統(tǒng)延遲遠大于75 ms。如此高的延遲使得音質(zhì)和舒適度急劇下降。鑒于此,筆者以語音幀中增益為比較對象,采用“能量選大”的算法,并配合以語音靜默檢測,實現(xiàn)語音混合。用它取代現(xiàn)有的二次編解碼方案,可以大幅度降低算法復(fù)雜度和延遲,有效地提高混合后的語音質(zhì)量。

——三、分組語音技術(shù)的應(yīng)用

——目前,大家對于IP電話的認(rèn)識僅局限于通過網(wǎng)絡(luò)打電話,花費比普通電話便宜。其實,這只是IP語音網(wǎng)關(guān)的一部分功能。IP語音網(wǎng)關(guān)是公眾電話網(wǎng)與IP網(wǎng)絡(luò)的轉(zhuǎn)換接口,它將龐大的電信網(wǎng)與Internet網(wǎng)相連。如何利用計算機的功能和Internet網(wǎng)絡(luò)的資源在電話業(yè)務(wù)的基礎(chǔ)之實現(xiàn)各種增值業(yè)務(wù),才是它的真正價值所在。

——例如,通過電話提供語音郵件服務(wù),網(wǎng)關(guān)處的PC機可以接收存儲電子語音郵件,用戶可以通過電話來收聽自己的語音郵件;此外,用戶可以預(yù)先在計算機上設(shè)定自己常用的一些電子郵件地址,以后就可以通過電話完成語音郵件的錄制和發(fā)送。這極大地方便了對計算機操作不熟悉的用戶。如果再通過專線將PC機和尋呼臺相連,那么每當(dāng)用戶有新郵件到達時,通過尋呼機通知用戶,或者直接與手機的基站控制臺相連,通過手機直接播放電子語音郵件。

——再如,呼叫中心服務(wù)系統(tǒng)包括了呼叫處理、路由選擇、自動應(yīng)答、座席話務(wù)員管理,以及咨詢與數(shù)據(jù)庫集成等多種技術(shù),可使中心向用戶提供多種不同服務(wù)。如果采用分組語音技術(shù)與網(wǎng)絡(luò)及數(shù)據(jù)庫技術(shù)相結(jié)合,那么一般話務(wù)員就可以提供專家級的服務(wù):當(dāng)用戶與話務(wù)員交流時不僅可獲取其最感興趣的信息,而且還可通過IP網(wǎng)及數(shù)據(jù)庫查到或取出專業(yè)信息(而不是要求隨時有專家服務(wù))。這種高質(zhì)量的服務(wù)和較低的運營成本,在激烈的市場競爭中將會對公司有幫助。

——各行各業(yè)都有大量的信息需要發(fā)布,用戶也需要查詢信息,如電信部門的電話號碼查詢、電話業(yè)務(wù)宣傳,運輸部門有關(guān)貨物到達后的自動告知,健康保險部門的藥物查詢、門診預(yù)約,旅游娛樂部門的訂票系統(tǒng)、景點介紹,等等。如何將這些信息簡潔、快速地傳遞給用戶已經(jīng)成為未來企業(yè)生存和發(fā)展的一個決定因素。因而可以斷言,目前分組語音技術(shù)的應(yīng)用只是一個開端,它將會取代現(xiàn)有的大部分傳統(tǒng)電信業(yè)務(wù),成為未來通信的一種主流模式。

——鑒于上述構(gòu)想,筆者開發(fā)了基于分組語音技術(shù)的3個方面應(yīng)用:①IP語音網(wǎng)關(guān)。結(jié)合自行開發(fā)的電話接口卡實現(xiàn)了從普通電話到計算機、計算機到計算機的網(wǎng)絡(luò)電話功能,這種IP電話的實現(xiàn)方案可用于公司內(nèi)部與遠端客戶或子公司的聯(lián)絡(luò),也可用于個人與親友的聯(lián)絡(luò)。②結(jié)合應(yīng)用①再配合分組語音的混合算法,實際上已經(jīng)構(gòu)成了一個網(wǎng)上可視會議系統(tǒng)的語音子系統(tǒng),可實現(xiàn)IP網(wǎng)上多方語音會議。③開發(fā)成功了利用電話查詢電子郵件的系統(tǒng)。

——目前電信部門正在由電信服務(wù)向信息服務(wù)轉(zhuǎn)變。但傳統(tǒng)網(wǎng)絡(luò)信息以文本方式為主,不利于信息傳遞。隨著語音壓縮技術(shù)的發(fā)展而成熟起來的分組語音技術(shù)是建筑在互聯(lián)網(wǎng)上的通信手段,便于信息傳遞,在今后三網(wǎng)合一的大趨勢中有廣泛的應(yīng)用。

盧  飛  北方交通大學(xué)信息科學(xué)研究所研究生

王黎煒  北方交通大學(xué)信息科學(xué)研究所研究生

丁曉明 北方交通大學(xué)信息科學(xué)研究所副教授

 


相關(guān)鏈接:
校園電話的實現(xiàn)及前景預(yù)測 2004-11-30
朗訊科技新一代SONATA話音增強系統(tǒng) 2004-11-30
有線電視網(wǎng)增值業(yè)務(wù)方案 2004-11-30
準(zhǔn)備的迎接Voice Over DSL 2003-05-21
主叫號碼顯示業(yè)務(wù) 2003-05-21

分類信息: