亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

您當(dāng)前的位置是:  首頁(yè) > 資訊 > 國(guó)內(nèi) >
 首頁(yè) > 資訊 > 國(guó)內(nèi) >

壹鴿科技:全雙工語音交互技術(shù),幫你告別套娃語音導(dǎo)航服務(wù)

2019-06-19 15:53:45   作者:   來源:中國(guó)信息產(chǎn)業(yè)網(wǎng)   評(píng)論:0  點(diǎn)擊:


  1.應(yīng)用場(chǎng)景
  智能語音客服行業(yè)作為人工智能技術(shù)較早實(shí)現(xiàn)商業(yè)化落地的領(lǐng)域,吸引了眾多企業(yè)爭(zhēng)相布局。目前,隨著智能語音客服機(jī)器人大規(guī)模應(yīng)用到實(shí)際生產(chǎn)環(huán)境中,語音通話數(shù)據(jù)生成快速,體量浩大,模態(tài)繁多,且由于ASR識(shí)別魯棒性不夠,導(dǎo)致智能語音客服機(jī)器人表現(xiàn)還不盡如人意,分析主要原因,有以下幾方面:
 。1)音頻采集環(huán)境復(fù)雜
  音頻采集環(huán)境復(fù)雜,主要包括了,背景包含多種噪聲,性噪比SNR過低;音頻采集通道性能不合格,不能過濾掉不相干的信號(hào),使得有效信息丟失或者不足。
 。2)測(cè)試數(shù)據(jù)和訓(xùn)練模型的數(shù)據(jù)不匹配
  測(cè)試數(shù)據(jù)和訓(xùn)練模型的數(shù)據(jù)不匹配,主要有性別,年齡,說話人情緒,口音影響等因素為音頻的識(shí)別帶來了很大的困惑性,導(dǎo)致不能正確解碼。
 。3)說話人非標(biāo)準(zhǔn)表達(dá)
  說話人非標(biāo)準(zhǔn)表達(dá),即自發(fā)性口語識(shí)別問題,由于在實(shí)際生活中,說話人在表達(dá)時(shí),會(huì)存在遲疑,重復(fù),停頓等多種自發(fā)性口語現(xiàn)在,同時(shí),還可能在說話時(shí)夾雜著外語詞匯或者不常見的獨(dú)有詞匯。
  ASR系統(tǒng)要應(yīng)用于實(shí)際生產(chǎn)環(huán)境中,不僅要適應(yīng)各類緩變?cè)肼暎冶仨氃谠肼晱?qiáng)度和種類多變的情況下保持穩(wěn)定性能;除聲學(xué)環(huán)境噪聲因素外,還需面對(duì)說話人存在的口音和方言以及說話人說話方式的隨意性等因素。
  2.模型
  智能語音客服應(yīng)用于通信系統(tǒng),典型的會(huì)話信道大約只有40%的時(shí)間真正用于傳輸語音,其余的時(shí)間傳輸?shù)亩际庆o默和背景噪聲。因此,需要在ASR前端采用一個(gè)語音端點(diǎn)檢測(cè)器VAD來區(qū)分語音和靜默以及背景噪聲,通過提高ASR系統(tǒng)資源的利用率擴(kuò)大ASR系統(tǒng)的并發(fā)識(shí)別容量。
  同時(shí),由于處理的數(shù)據(jù)量越來越大,需要處理的規(guī)模越來越大,從工程實(shí)現(xiàn)以及部署成本而言,還需綜合考慮多路并行處理、實(shí)時(shí)性、易實(shí)現(xiàn)、資源占用情況以及大規(guī)模實(shí)現(xiàn)等諸多關(guān)鍵因素,設(shè)計(jì)實(shí)現(xiàn)大規(guī)模電話語音識(shí)別前端實(shí)時(shí)處理系統(tǒng),完成對(duì)多路實(shí)際電話信道語音的實(shí)時(shí)處理,滿足在大規(guī)模電信網(wǎng)中的應(yīng)用需求。
  除實(shí)現(xiàn)大規(guī)模電話語音識(shí)別前端實(shí)時(shí)處理系統(tǒng)外,還需使系統(tǒng)具備一定的容錯(cuò)性,確保在語音信號(hào)段判決錯(cuò)誤的情況下通過聲學(xué)拒識(shí)決定是否接受ASR識(shí)別后文本,并且要通過句間停頓時(shí)間自適應(yīng)調(diào)整清晰定義句子邊界,從而大大降低ASR的計(jì)算量和處理時(shí)間,提高系統(tǒng)的識(shí)別精度。
  通過對(duì)大量電話系統(tǒng)語音進(jìn)行統(tǒng)計(jì)分析得出90%以上話路的語音信噪比大于10dB,個(gè)別話路信噪比相對(duì)較低,存在各式各樣的噪聲,甚至有些環(huán)境下信噪比為0dB左右;诖,本方案分兩級(jí)對(duì)電話信道語音進(jìn)行檢測(cè)。首先在時(shí)域進(jìn)行一級(jí)處理,判決出疑似語音幀和非語音幀,將疑似語音的幀交由二級(jí)進(jìn)行頻域處理。因?yàn)槎?jí)判決是在一級(jí)判決的基礎(chǔ)上完成,只用對(duì)一級(jí)處理后疑似語音的幀進(jìn)行判決,對(duì)同一目標(biāo)話路的檢測(cè),相對(duì)只通過一級(jí)檢測(cè)所需的計(jì)算數(shù)據(jù)量明顯減少,為整個(gè)系統(tǒng)的其他處理模塊提供更多的可支配時(shí)間,提高系統(tǒng)實(shí)時(shí)性。
  二級(jí)VAD檢測(cè)實(shí)現(xiàn)對(duì)電話語音流標(biāo)識(shí)通話狀態(tài),分為會(huì)話靜默、會(huì)話開始、會(huì)話進(jìn)行中以及會(huì)話結(jié)束4類。并且,在二級(jí)VAD檢測(cè)實(shí)現(xiàn)時(shí)增加幀特征參數(shù)提取模塊、且在進(jìn)行特征計(jì)算時(shí)調(diào)用特征參數(shù)提取部分中間運(yùn)算模塊(如FFT運(yùn)算模塊),以此減少整個(gè)語音處理系統(tǒng)的資源消耗。
  3.數(shù)據(jù)處理及分析
  目前,正在收集標(biāo)注這樣一個(gè)數(shù)據(jù)集。數(shù)據(jù)集分為干凈語料、聲學(xué)環(huán)境噪聲語料、口音方言語料以及雙聲道通話語料,其中干凈語料、聲學(xué)環(huán)境噪聲語料和口音方言語料需要通過人工標(biāo)注收集。
 。1)聲學(xué)拒識(shí)
  首先,基于特征規(guī)則來輔助人工收集聲學(xué)拒識(shí)語料庫(kù)(干凈語料、聲學(xué)環(huán)境噪聲語料、口音方言語料),減少人工標(biāo)注的工作量,并構(gòu)造一個(gè)語音大數(shù)據(jù)信息處理工具,應(yīng)對(duì)機(jī)器學(xué)習(xí)的不確定性,通過多試快速迭代出語音大數(shù)據(jù)信息處理工具,便于通過該工具方便地添加新數(shù)據(jù)、新特征,并快速訓(xùn)練出一個(gè)新模型通過海量的拒識(shí)語料來進(jìn)行性能指標(biāo)測(cè)試;然后,基于高斯混合模型GMM算法和支持向量機(jī)SVM算法等機(jī)器學(xué)習(xí)算法,并結(jié)合語音大數(shù)據(jù)信息處理工具提取出來的多種語音特征值,在語音識(shí)別前端,開發(fā)實(shí)現(xiàn)一種復(fù)雜環(huán)境下準(zhǔn)確性和穩(wěn)定性較高的聲學(xué)拒識(shí)算法。
  采取的方案以及方案要適用多類條件識(shí)別情況,不僅適用于口音方言的語音識(shí)別問題,還需適用于復(fù)雜背景噪聲環(huán)境識(shí)別問題等。
  (2)句間停頓時(shí)間自適應(yīng)
  基于電話庫(kù)中的自然口語對(duì)話中存在各種各種各樣的話輪轉(zhuǎn)換形式,并且有大量的疊接現(xiàn)象(搶話)。通過基于雙聲道通話語料進(jìn)行智能客服交互場(chǎng)景下的疊接現(xiàn)象分析,研發(fā)一種可根據(jù)預(yù)估思考時(shí)間、話輪意圖、環(huán)境音感知的句間停頓自適應(yīng)調(diào)整機(jī)制,實(shí)現(xiàn)智能語音客服通過和人類一樣的非對(duì)稱對(duì)話模式協(xié)調(diào)與人類進(jìn)行全雙工語音交互,減少用戶感知的等待時(shí)間,及時(shí)響應(yīng)話者意圖。
 
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)