聲紋識(shí)別聽聲辨人_語(yǔ)音識(shí)別_CTI論壇

首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)　　語(yǔ)音識(shí)別產(chǎn)品

聲紋識(shí)別聽聲辨人

北京大學(xué)信息科學(xué)中心視覺與聽覺信息處理國(guó)家重點(diǎn)實(shí)驗(yàn)室吳璽宏

2001/08/23

　　近年來(lái)，在生物識(shí)別技術(shù)領(lǐng)域中，聲紋識(shí)別技術(shù)以其獨(dú)特的方便性、經(jīng)濟(jì)性和準(zhǔn)確性等優(yōu)勢(shì)受到世人矚目，并日益成為人們?nèi)粘Ｉ詈凸ぷ髦兄匾移占暗陌踩?yàn)證方式。

　　聲紋識(shí)別屬于生物識(shí)別技術(shù)的一種，是一項(xiàng)根據(jù)語(yǔ)音波形中反映說(shuō)話人生理和行為特征的語(yǔ)音參數(shù)，自動(dòng)識(shí)別說(shuō)話人身份的技術(shù)。與語(yǔ)音識(shí)別不同的是，聲紋識(shí)別利用的是語(yǔ)音信號(hào)中的說(shuō)話人信息，而不考慮語(yǔ)音中的字詞意思，它強(qiáng)調(diào)說(shuō)話人的個(gè)性;而語(yǔ)音識(shí)別的目的是識(shí)別出語(yǔ)音信號(hào)中的言語(yǔ)內(nèi)容，并不考慮說(shuō)話人是誰(shuí)，它強(qiáng)調(diào)共性。

歷史與現(xiàn)狀

　　對(duì)聲紋識(shí)別的研究始于20世紀(jì)30年代。早期的工作主要集中在人耳聽辨實(shí)驗(yàn)和探討聽音識(shí)別的可能性方面。隨著研究手段和工具的改進(jìn)，研究工作逐漸脫離了單純的人耳聽辨。Bell實(shí)驗(yàn)室的L.G. Kesta目視觀察語(yǔ)譜圖進(jìn)行識(shí)別，提出了“聲紋(voiceprint)”的概念。之后，電子技術(shù)和計(jì)算機(jī)技術(shù)的發(fā)展，使通過(guò)機(jī)器自動(dòng)識(shí)別人的聲音成為可能。Bell實(shí)驗(yàn)室的S. Pruzansky提出了基于模式匹配和概率統(tǒng)計(jì)方差分析的聲紋識(shí)別方法，而引起信號(hào)處理領(lǐng)域許多學(xué)者的注意，形成了聲紋識(shí)別研究的一個(gè)高潮，其間的工作主要集中在各種識(shí)別參數(shù)的提取、選擇和實(shí)驗(yàn)上，并將倒譜和線性預(yù)測(cè)分析等方法應(yīng)用于聲紋識(shí)別。

　　70年代末至今，聲紋識(shí)別的研究重點(diǎn)轉(zhuǎn)向?qū)Ω鞣N聲學(xué)參數(shù)的線性或非線性處理以及新的模式匹配方法上，如動(dòng)態(tài)時(shí)間規(guī)整、主成分分析、隱馬爾可夫模型、神經(jīng)網(wǎng)絡(luò)和多特征組合等技術(shù)。如今，聲紋識(shí)別技術(shù)已逐漸走入實(shí)際應(yīng)用，AT&T應(yīng)用聲紋識(shí)別技術(shù)研制出了智慧卡(smart card)，已應(yīng)用于自動(dòng)提款機(jī)。歐洲電信聯(lián)盟在電信與金融結(jié)合領(lǐng)域應(yīng)用聲紋識(shí)別技術(shù)，于1998年完成了CAVE (Caller Verification in Banking and Telecommunication) 計(jì)劃，并于同年又啟動(dòng)了PICASSO(Pioneering Call Authentication for Secure Service Operation) 計(jì)劃，在電信網(wǎng)上完成了聲紋識(shí)別。同時(shí)，Motorola和Visa等公司成立了V-commerce聯(lián)盟，希望實(shí)現(xiàn)電子交易的自助化，其中通過(guò)聲音確定人的身份是此項(xiàng)目的重要組成部分。其他的一些商用系統(tǒng)還包括：ITT公司的SpeakerKey、Keyware公司的VoiceGuardian、T-NETIX公司的SpeakEZ等。

　　國(guó)內(nèi)開展聲紋識(shí)別研究比較早的機(jī)構(gòu)有北京大學(xué)、中科院聲學(xué)所、中科院自動(dòng)化所、清華大學(xué)等，并先后得到了國(guó)家自然科學(xué)基金重大和重點(diǎn)項(xiàng)目、攀登計(jì)劃等基金的支持，取得了豐碩的研究成果。

說(shuō)話人識(shí)別系統(tǒng)的典型結(jié)構(gòu)圖

物理基礎(chǔ)

　　語(yǔ)音是由發(fā)聲器官運(yùn)動(dòng)產(chǎn)生的。發(fā)聲器官包括喉、聲道和嘴。氣流通過(guò)喉中的聲門，引起聲帶的周期性振動(dòng)，形成周期性的脈沖串并進(jìn)入聲道，周期性脈沖的周期稱為基音周期。氣流從喉向上經(jīng)過(guò)口腔或鼻腔后從嘴或鼻孔向外輻射，其間的傳輸通道稱為聲道。聲道是具有某種諧振特性的腔體，當(dāng)氣流通過(guò)時(shí)，輸出的氣流頻率特性，即聲門脈沖串的特性，取決于聲道的特性。嘴的作用是完成氣流的向外輻射，嘴張開時(shí)的形狀對(duì)語(yǔ)音頻譜有影響，但較聲道次之。

　　發(fā)聲的器官和過(guò)程確定了語(yǔ)音中特定說(shuō)話人信息的形式，其中聲道的形狀是最重要的生理因素。另外，發(fā)聲的習(xí)慣，包括發(fā)聲速度、韻律和口音構(gòu)成了語(yǔ)音中特定說(shuō)話人信息的后天行為因素。語(yǔ)音中的特定說(shuō)話人信息構(gòu)成了聲紋識(shí)別的物理基礎(chǔ)。

技術(shù)原理

　　基于不同的應(yīng)用環(huán)境，聲紋識(shí)別分為說(shuō)話人辨識(shí)和說(shuō)話人確認(rèn)。說(shuō)話人辨識(shí)是指識(shí)別說(shuō)話人是否已經(jīng)注冊(cè)，是哪一個(gè)注冊(cè)人；說(shuō)話人確認(rèn)是指識(shí)別說(shuō)話人的身份與其聲明的是否一致。

　　用戶在使用聲紋識(shí)別系統(tǒng)時(shí)，需要向系統(tǒng)提供一段語(yǔ)音，根據(jù)發(fā)音材料，可分為文本有關(guān)(text-dependent)和文本無(wú)關(guān)(text-independent)兩種。與文本有關(guān)的識(shí)別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音，并根據(jù)特定的發(fā)音內(nèi)容建立精確的模型，從而達(dá)到較好的識(shí)別效果，但系統(tǒng)需要用戶配合，如果用戶的發(fā)音與規(guī)定的內(nèi)容不符合，則無(wú)法正確識(shí)別該用戶。而與文本無(wú)關(guān)的識(shí)別系統(tǒng)則不規(guī)定說(shuō)話人的發(fā)音內(nèi)容，因而要建立精確的模型較為困難，識(shí)別效果較差。另外，與其他生物識(shí)別技術(shù)類似，若考慮待識(shí)別的說(shuō)話人是否在注冊(cè)的說(shuō)話人集合內(nèi)，則說(shuō)話人辨識(shí)分為開集(open-set)辨識(shí)和閉集(close-set)辨識(shí)，顯而易見，閉集辨識(shí)的結(jié)果要好于開集辨識(shí)，但開集辨識(shí)與實(shí)際情況更為一致。

　　無(wú)論是與文本有關(guān)還是無(wú)關(guān)，系統(tǒng)都面臨一個(gè)共同的問題，即無(wú)法區(qū)分一個(gè)發(fā)音是現(xiàn)場(chǎng)發(fā)音還是錄音回放。但文本提示的說(shuō)話人識(shí)別系統(tǒng)可以有效地防止這種情況發(fā)生。具體實(shí)現(xiàn)時(shí)，可采用隨機(jī)或其他方法來(lái)生成提示文本，如隨機(jī)的數(shù)字串，以使假冒者無(wú)法事先錄音。

　　文本有關(guān)聲紋識(shí)別系統(tǒng)的一種典型結(jié)構(gòu)如圖所示，它包括訓(xùn)練和識(shí)別兩個(gè)階段。訓(xùn)練時(shí)，每個(gè)說(shuō)話人重復(fù)一定次數(shù)的發(fā)音，然后檢測(cè)并分析每次發(fā)聲的語(yǔ)音段，以提取特征，并利用動(dòng)態(tài)時(shí)間規(guī)整技術(shù)，在時(shí)間上對(duì)齊特征序列且多次平均，形成每個(gè)說(shuō)話人的參考模板。識(shí)別時(shí)，對(duì)語(yǔ)音信號(hào)進(jìn)行特征分析，然后計(jì)算與參考模板的距離，選取其中的最小值作為結(jié)果輸出。說(shuō)話人確認(rèn)系統(tǒng)則是計(jì)算待識(shí)特征與聲明說(shuō)話人模板的距離，并與設(shè)定的閾值比較，若高于閾值則拒絕判決，低于閾值則接受判決。

　　聲紋識(shí)別系統(tǒng)主要包括兩部分，即特征檢測(cè)和模式匹配。特征檢測(cè)的任務(wù)是選取唯一表現(xiàn)說(shuō)話人身份的有效且穩(wěn)定可靠的特征，模式匹配的任務(wù)是對(duì)訓(xùn)練和識(shí)別時(shí)的特征模式做相似性匹配。

1．特征提取

　　聲紋識(shí)別系統(tǒng)中的特征檢測(cè)即提取語(yǔ)音信號(hào)中表征人的基本特征，此特征應(yīng)能有效地區(qū)分不同的說(shuō)話人，且對(duì)同一說(shuō)話人的變化保持相對(duì)穩(wěn)定�？紤]到特征的可量化性、訓(xùn)練樣本的數(shù)量和系統(tǒng)性能的評(píng)價(jià)問題，目前的聲紋識(shí)別系統(tǒng)主要依靠較低層次的聲學(xué)特征進(jìn)行識(shí)別。說(shuō)話人特征大體可歸為下述幾類：

　　譜包絡(luò)參數(shù)語(yǔ)音信息通過(guò)濾波器組輸出，以合適的速率對(duì)濾波器輸出抽樣，并將它們作為聲紋識(shí)別特征。

　　基音輪廓、共振峰頻率帶寬及其軌跡這類特征是基于發(fā)聲器官如聲門、聲道和鼻腔的生理結(jié)構(gòu)而提取的參數(shù)。

　　線性預(yù)測(cè)系數(shù)使用線性預(yù)測(cè)系數(shù)是語(yǔ)音信號(hào)處理中的一次飛躍，以線性預(yù)測(cè)導(dǎo)出的各種參數(shù)，如線性預(yù)測(cè)系數(shù)、自相關(guān)系數(shù)、反射系數(shù)、對(duì)數(shù)面積比、線性預(yù)測(cè)殘差及其組合等參數(shù)，作為識(shí)別特征，可以得到較好的效果。主要原因是線性預(yù)測(cè)與聲道參數(shù)模型是相符合的。

　　反映聽覺特性的參數(shù)模擬人耳對(duì)聲音頻率感知的特性而提出了多種參數(shù)，如美倒譜系數(shù)、感知線性預(yù)測(cè)等。

　　此外，人們還通過(guò)對(duì)不同特征參量的組合來(lái)提高實(shí)際系統(tǒng)的性能，當(dāng)各組合參量間相關(guān)性不大時(shí)，會(huì)有較好的效果，因?yàn)樗鼈兎謩e反映了語(yǔ)音信號(hào)的不同特征。

2．模式匹配

　　目前針對(duì)各種特征而提出的模式匹配方法的研究越來(lái)越深入。這些方法大體可歸為下述幾類：

概率統(tǒng)計(jì)方法

語(yǔ)音中說(shuō)話人信息在短時(shí)內(nèi)較為平穩(wěn)，通過(guò)對(duì)穩(wěn)態(tài)特征如基音、聲門增益、低階反射系數(shù)的統(tǒng)計(jì)分析，可以利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類判決。其優(yōu)點(diǎn)是不用對(duì)特征參量在時(shí)域上進(jìn)行規(guī)整，比較適合文本無(wú)關(guān)的說(shuō)話人識(shí)別。

動(dòng)態(tài)時(shí)間規(guī)整方法

說(shuō)話人信息不僅有穩(wěn)定因素（發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習(xí)慣），而且有時(shí)變因素（語(yǔ)速、語(yǔ)調(diào)、重音和韻律）。將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比，按照某種距離測(cè)定得出兩模板間的相似程度。常用的方法是基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)整DTW。

矢量量化方法

矢量量化最早是基于聚類分析的數(shù)據(jù)壓縮編碼技術(shù)。Helms首次將其用于聲紋識(shí)別，把每個(gè)人的特定文本編成碼本，識(shí)別時(shí)將測(cè)試文本按此碼本進(jìn)行編碼，以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。Bell實(shí)驗(yàn)室的Rosenberg和Soong用VQ進(jìn)行了孤立數(shù)字文本的聲紋識(shí)別研究。這種方法的識(shí)別精度較高，且判斷速度快。

隱馬爾可夫模型方法

隱馬爾可夫模型是一種基于轉(zhuǎn)移概率和傳輸概率的隨機(jī)模型，最早在CMU和IBM被用于語(yǔ)音識(shí)別。它把語(yǔ)音看成由可觀察到的符號(hào)序列組成的隨機(jī)過(guò)程，符號(hào)序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。在使用HMM識(shí)別時(shí)，為每個(gè)說(shuō)話人建立發(fā)聲模型，通過(guò)訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號(hào)輸出概率矩陣。識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率，根據(jù)最大概率對(duì)應(yīng)的模型進(jìn)行判決。HMM不需要時(shí)間規(guī)整，可節(jié)約判決時(shí)的計(jì)算時(shí)間和存儲(chǔ)量，在目前被廣泛應(yīng)用。缺點(diǎn)是訓(xùn)練時(shí)計(jì)算量較大。

人工神經(jīng)網(wǎng)絡(luò)方法

人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬了生物的感知特性，它是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型，具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對(duì)不完全信息的魯棒性，其性能近似理想的分類器。其缺點(diǎn)是訓(xùn)練時(shí)間長(zhǎng)，動(dòng)態(tài)時(shí)間規(guī)整能力弱，網(wǎng)絡(luò)規(guī)模隨說(shuō)話人數(shù)目增加時(shí)可能大到難以訓(xùn)練的程度。

　　把以上分類方法與不同特征進(jìn)行有機(jī)組合可顯著提高聲紋識(shí)別的性能，如NTT實(shí)驗(yàn)室的T. Matsui和S. Furui使用倒譜、差分倒譜、基音和差分基音，采用VQ與HMM混和的方法得到99.3%的說(shuō)話人確認(rèn)率。

　　對(duì)于說(shuō)話人確認(rèn)系統(tǒng)，表征其性能的最重要的兩個(gè)參量是錯(cuò)誤拒絕率和錯(cuò)誤接受率。前者是拒絕真實(shí)的說(shuō)話人而造成的錯(cuò)誤，后者是接受假冒者而造成的錯(cuò)誤，二者與閾值的設(shè)定相關(guān)。說(shuō)話人確認(rèn)系統(tǒng)的錯(cuò)誤率與用戶數(shù)目無(wú)關(guān)，而說(shuō)話人辨認(rèn)系統(tǒng)的性能與用戶數(shù)目有關(guān)，并隨著用戶數(shù)目的增加，系統(tǒng)的性能會(huì)不斷下降。

　　總的說(shuō)來(lái)，一個(gè)成功的說(shuō)話人識(shí)別系統(tǒng)應(yīng)該做到以下幾點(diǎn)：

能夠有效地區(qū)分不同的說(shuō)話人，但又能在同一說(shuō)話人語(yǔ)音發(fā)生變化時(shí)保持相對(duì)的穩(wěn)定，如感冒等情況。
不易被他人模仿或能夠較好地解決被他人模仿問題。
在聲學(xué)環(huán)境變化時(shí)能夠保持一定的穩(wěn)定性，即抗噪聲性能要好

聲紋識(shí)別應(yīng)用前景

　　與其他生物識(shí)別技術(shù)，諸如指紋識(shí)別、掌形識(shí)別、虹膜識(shí)別等相比較，聲紋識(shí)別除具有不會(huì)遺失和忘記、不需記憶、使用方便等優(yōu)點(diǎn)外，還具有以下特性：

用戶接受程度高，由于不涉及隱私問題，用戶無(wú)任何心理障礙。
利用語(yǔ)音進(jìn)行身份識(shí)別可能是最自然和最經(jīng)濟(jì)的方法之一。聲音輸入設(shè)備造價(jià)低廉，甚至無(wú)費(fèi)用（電話），而其他生物識(shí)別技術(shù)的輸入設(shè)備往往造價(jià)昂貴。
在基于電信網(wǎng)絡(luò)的身份識(shí)別應(yīng)用中，如電話銀行、電話炒股、電子購(gòu)物等，與其他生物識(shí)別技術(shù)相比，聲紋識(shí)別更為擅長(zhǎng)，得天獨(dú)厚。

　　由于與其他生物識(shí)別技術(shù)相比，聲紋識(shí)別具有更為簡(jiǎn)便、準(zhǔn)確、經(jīng)濟(jì)及可擴(kuò)展性良好等眾多優(yōu)勢(shì)，可廣泛應(yīng)用于安全驗(yàn)證、控制等各方面，特別是基于電信網(wǎng)絡(luò)的身份識(shí)別。

　　比爾·蓋茨認(rèn)為：“以人類生物特征（指紋、語(yǔ)音、臉像等）進(jìn)行身份驗(yàn)證的生物識(shí)別技術(shù)，在今后數(shù)年內(nèi)將成為IT產(chǎn)業(yè)最為重要的技術(shù)革命�！�

　　在世界范圍內(nèi)，聲紋識(shí)別技術(shù)正廣泛應(yīng)用于諸多領(lǐng)域。截止到去年初，聲紋識(shí)別產(chǎn)品的市場(chǎng)占有率為15.8%，僅次于指紋識(shí)別和掌形識(shí)別。目前，我國(guó)市場(chǎng)尚屬啟動(dòng)階段，其發(fā)展空間更為廣闊，在金融、證券、社保、公安、軍隊(duì)及其他民用安全認(rèn)證等行業(yè)和部門有著廣泛的需求。

1．用于銀行、證券系統(tǒng)

　　隨著電話銀行、遠(yuǎn)程炒股等業(yè)務(wù)的不斷增加，這些業(yè)務(wù)對(duì)用戶所做的身份認(rèn)證只是采用密碼方式，其安全性令人擔(dān)憂。如果采用說(shuō)話人確認(rèn)技術(shù)并結(jié)合原來(lái)的密碼，可安全有效地實(shí)現(xiàn)用戶身份的確認(rèn)，這對(duì)用戶來(lái)說(shuō)并沒有增加任何負(fù)擔(dān)。

2．為網(wǎng)絡(luò)安全出力

　　現(xiàn)在人們?cè)絹?lái)越多地依賴于口令和密碼，隨著不同場(chǎng)合的頻繁應(yīng)用其缺陷越發(fā)明顯。在聲紋識(shí)別過(guò)程中，每次發(fā)音都由隨機(jī)產(chǎn)生的提示文本來(lái)控制，可有效地防止復(fù)制和剽竊，可以說(shuō)，聲紋識(shí)別技術(shù)與其他生物識(shí)別技術(shù)相比有著明顯的優(yōu)勢(shì)，可以為日益發(fā)展的電子購(gòu)物、電子商務(wù)、國(guó)際貿(mào)易保駕護(hù)航，且操作方便、簡(jiǎn)潔，很容易為廣大計(jì)算機(jī)使用者接受。

3．為破案立功

　　對(duì)于各種電話勒索、綁架、電話人身攻擊等案件，聲紋識(shí)別技術(shù)可以在一段錄音中查找出嫌疑人，幫助對(duì)嫌疑人的查證。在美國(guó)，有關(guān)機(jī)構(gòu)還利用這一技術(shù)來(lái)判斷監(jiān)外執(zhí)行人員是否在其寓所中。

4．在軍隊(duì)安全系統(tǒng)中的應(yīng)用

　　聲紋識(shí)別技術(shù)可以辨認(rèn)出電話交談過(guò)程中是否有關(guān)鍵說(shuō)話人出現(xiàn)，繼而對(duì)交談的內(nèi)容進(jìn)行處理。另外，在通過(guò)電話發(fā)出軍事指令時(shí)，可以對(duì)發(fā)出命令的人的身份進(jìn)行確認(rèn)。

《計(jì)算機(jī)世界》2001/08/23

相關(guān)鏈接:

高端人聲識(shí)別技術(shù)的研究與應(yīng)用 2001-08-02

用你的聲音來(lái)激活信息 2001-07-23

無(wú)限商機(jī)的VoiceXML解決方案 2001-07-19

利用聲音在網(wǎng)上檢索信息 2001-07-19

全新體驗(yàn)Office XP中的語(yǔ)音識(shí)別和手寫識(shí)別功能 2001-07-17