中科信利語種識別引擎能夠在連續(xù)語音中自動提取語音的語種信息。
中科信利的語種識別技術(shù)將從聲學(xué)層特征和音子序列特征的提取,分別采用了聲學(xué)建模和語法建模的方法,來描述這些特征的空間分布情況,并且以此來構(gòu)建高層的得分向量空間,通過分類器對得分向量進(jìn)行劃分,以達(dá)到自動分類判決的目的,以使得語種識別技術(shù)能滿足實際的應(yīng)用需求。
工作原理:

功能模塊:
預(yù)處理:將語音分段,盡可能的保證每段語音只包含同一個說話人或者同一類非語音,此外,也要保證檢測出的說話人或者同一類非語音的虛轉(zhuǎn)折點少;噪聲檢測,檢測出電話語音數(shù)據(jù)中包含的傳真音、震鈴、音樂彩鈴等非有效說話人語音。
特征提取:在語種識別技術(shù)中,選取能夠表征語種類別特征的有效而可靠的特征參量,是保證識別性能的重要因素之一。語音信號的長時差分頻譜特征,包含了語音信號中的語義信息、說話人信息、語種信息。分析語音信號的頻譜特性可以用來確認(rèn)各個目標(biāo)語種。
模式匹配:指的是通過建立統(tǒng)計模型,將低層聲學(xué)特征轉(zhuǎn)換為高層的得分向量特征。中科信利的語種識別系統(tǒng)中,目標(biāo)是對各個待識語種建立可靠模型,保證語種識別系統(tǒng)的性能。
判決規(guī)則:語種識別系統(tǒng)的輸出一般都是對各個目標(biāo)語種有個打分,這些得分都是通過將測試語音同模型庫進(jìn)行似然概率計算或者進(jìn)行距離度量所得到。
技術(shù)特點:
- 與發(fā)音人無關(guān),與傳輸信道無關(guān)。系統(tǒng)對用戶的輸入聲音進(jìn)行鑒別和確認(rèn),可以來源不同的信道。
- 對語音長度有一定的要求。待識別的測試語音有效長度不小于3秒。
- 識別速度快,能確保實時識別。說話人識別引擎每次一對一比對,在普通PC上具有0.01倍以上的實時率,并且支持多路并發(fā)識別。
- 操作點調(diào)整方便:可按不同的應(yīng)用需求調(diào)整操作點閾值,可以調(diào)整虛警率和漏警率,使最終準(zhǔn)確率達(dá)到最高或使錯誤率降到最低。
- 操作點調(diào)整方便,可按不同的應(yīng)用需求調(diào)整操作點閾值,使系統(tǒng)性能根據(jù)應(yīng)用需求達(dá)到最優(yōu)。
- 支持自動添加新語種的訓(xùn)練,滿足用戶擴(kuò)充。
性能指標(biāo):
