聲紋識別的模式識別方法_語音識別_CTI論壇

首頁>>>技術(shù)>>>語音應用>>>語音識別(ASR)　　語音識別產(chǎn)品

聲紋識別的模式識別方法

2011/01/05

對于模式識別，有以下幾大類方法：

模板匹配方法：利用動態(tài)時間彎折(DTW)以對準訓練和測試特征序列，主要用于固定詞組的應用(通常為文本相關(guān)任務(wù))；
最近鄰方法：訓練時保留所有特征矢量，識別時對每個矢量都找到訓練矢量中最近的K個，據(jù)此進行識別，通常模型存儲和相似計算的量都很大；
神經(jīng)網(wǎng)絡(luò)方法：有很多種形式，如多層感知、徑向基函數(shù)(RBF)等，可以顯式訓練以區(qū)分說話人和其背景說話人，其訓練量很大，且模型的可推廣性不好；
隱式馬爾可夫模型(HMM)方法：通常使用單狀態(tài)的HMM，或高斯混合模型(GMM)，是比較流行的方法，效果比較好；
VQ聚類方法(如LBG)：效果比較好，算法復雜度也不高，和HMM方法配合起來更可以收到更好的效果；
多項式分類器方法：有較高的精度，但模型存儲和計算量都比較大；

　　聲紋識別需要解決的關(guān)鍵問題還有很多，諸如：短話音問題，能否用很短的語音進行模型訓練，而且用很短的時間進行識別，這主要是聲音不易獲取的應用所需求的；聲音模仿(或放錄音)問題，要有效地區(qū)分開模仿聲音(錄音)和真正的聲音；多說話人情況下目標說話人的有效檢出；消除或減弱聲音變化(不同語言、內(nèi)容、方式、身體狀況、時間、年齡等)帶來的影響；消除信道差異和背景噪音帶來的影響；……此時需要用到其他一些技術(shù)來輔助完成，如去噪、自適應等技術(shù)。

　　對說話人確認，還面臨一個兩難選擇問題。通常，表征說話人確認系統(tǒng)性能的兩個重要參數(shù)是錯誤拒絕率和錯誤接受率，前者是拒絕真正說話人而造成的錯誤，后者是接受集外說話人而造成的錯誤，二者與閾值的設(shè)定相關(guān)。在現(xiàn)有的技術(shù)水平下，兩者無法同時達到最小，需要調(diào)整閾值來滿足不同應用的需求，比如在需要“易用性”的情況下，可以讓錯誤拒絕率低一些，此時錯誤接受率會增加，從而安全性降低；在對“安全性”要求高的情況下，可以讓錯誤接受率低一些，此時錯誤拒絕率會增加，從而易用性降低。前者可以概括為“寧錯勿漏”，而后者可以“寧漏勿錯”。我們把真正閾值的調(diào)整稱為“操作點”調(diào)整。好的系統(tǒng)應該允許對操作點的自由調(diào)整。

CTI論壇報道

相關(guān)閱讀:

聲紋識別技術(shù)：利用人體生物特征進行身份認證 2011-01-05

聲紋識別的原理及其應用 2011-01-05

聲紋識別的分類 2011-01-05

聲紋識別的關(guān)鍵問題 2011-01-05

Nuance：車載信息平臺邁入語音時代 2010-12-27

熱點專題: 語音合成TTS 語音識別ASR
相關(guān)頻道: 聲紋識別