亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

黃鸝智能劉志:智能化背景下語音前端技術(shù)的新挑戰(zhàn)

2021-04-16 09:49:03   作者:   來源:CTI論壇   評論:0  點(diǎn)擊:


  由CTI論壇(m.suckhoeday.com)主辦的2021中國呼叫中心及企業(yè)通信大會[http://m.suckhoeday.com/expo/2021/ccec2021spring/index.html]于4月15日在北京遼寧大廈成功召開。本次會議以“5G時(shí)代 共筑企業(yè)通信云生態(tài)”為主題。深圳黃鸝智能科技有限公司CEO 劉志應(yīng)邀出席此次會議并發(fā)表題為《智能化背景下語音前端技術(shù)的新挑戰(zhàn)》的主題演講。隨著5G、人工智能和物聯(lián)網(wǎng)的發(fā)展,疊加疫情對人類生產(chǎn)生活方式的影響,聲音通信和交互的重要性不斷凸顯。但復(fù)雜噪聲環(huán)境會大大降低聲音通信的質(zhì)量和體驗(yàn),同時(shí)會導(dǎo)致語音識別的準(zhǔn)確率嚴(yán)重下降。因此,聲音采集的是否清晰,是聲音通信和語音交互的關(guān)鍵點(diǎn)同時(shí)也是技術(shù)難點(diǎn)。如何應(yīng)對這一挑戰(zhàn)?黃鸝智能總經(jīng)理劉志先生將分享他的觀點(diǎn)。

圖:深圳黃鸝智能科技有限公司CEO 劉志
演講PPT下載,pdf格式
  (以下為演講實(shí)錄,略有刪減)
  劉志:大家下午好!感謝CTI論壇提供這樣一個(gè)機(jī)會給大家講講我們在做的事情,以及為什么要做這件事,我的演講題目是“智能化背景下語音前端技術(shù)的新挑戰(zhàn)”,這個(gè)題目大家看著可能會比較疑惑,希望隨著我的演講和大家一起來探討和交流這個(gè)課題。
  說到語音識別相信大家都不陌生,現(xiàn)場做個(gè)調(diào)查,家里有語音識別設(shè)備的希望舉一下手,基本上都舉手了,覺得好用的請舉手,這就少了很多啊。我本人2000年就開始做語音識別,是國內(nèi)比較早做語音識別的一批,07年我們轉(zhuǎn)到其他的方向了,當(dāng)時(shí)發(fā)現(xiàn)語音識別領(lǐng)域坑太多了,但今天我還在做和語音相關(guān)的方向,還有很多和我一起的人在看好這個(gè)行業(yè),在不斷的投入,為什么?因?yàn)槁曇粽娴奶匾!心理學(xué)研究表明,聲音傳遞的信息和視覺傳遞的信息是可比的,很大程度上它們二者是交融在一起的,在人類感知世界當(dāng)中,單純由聲音傳遞的信息占了25%,而和圖像加在一起相結(jié)合的又有40%,可以說聲音傳遞的信息是感知世界獲取信息非常重要的手段,但是今天聲音的價(jià)值遠(yuǎn)遠(yuǎn)沒有發(fā)揮出來。
  今天,在呼叫中心和企業(yè)辦公領(lǐng)域,智能語音技術(shù)對企業(yè)開始帶來很多新的價(jià)值,它可以幫助消除繁重的電話量、幫助企業(yè)保持品牌輸出一致性,一旦員工在打電話的時(shí)候沒有傳遞出品牌所需要的信息,可以及時(shí)提醒他,還可以幫助企業(yè)管理合規(guī)性問題,幫助企業(yè)有效利用數(shù)據(jù)資產(chǎn),以前很多企業(yè)掌握了大量的聲音數(shù)據(jù),但是卻不知道如何應(yīng)用,客戶在這些聲音當(dāng)中到底表達(dá)了什么、他們想傳遞什么信息、想獲得什么等等,過往的信息無法用,今天語音分析都可以幫助企業(yè)創(chuàng)造這些價(jià)值。而語音分析對于客戶價(jià)值更大,它可以幫助客戶更好的解決問題,任何一個(gè)人都不是萬能的,我們能夠記住的問題是有限的,企業(yè)厚厚的FAQ一個(gè)人都想背下來是不可能的,但是AI可以做得更好;語音分析還可以創(chuàng)造價(jià)值,從用戶聲音信息當(dāng)中傳遞了用戶面臨的問題,通過虛擬客服可以發(fā)掘這些問題背后的價(jià)值,最終對于客戶來說語音分析可以幫助提升體驗(yàn),客戶最終看重的是我被服務(wù)的感受好不好、體驗(yàn)好不好、是不是解決問題了,今天我們很多服務(wù)系統(tǒng)會讓用戶選擇:十分滿意請按1、不滿意請按2,但通過語音分析,我們可以在整個(gè)服務(wù)過程中就自然的得出結(jié)論,用戶是否真的滿意。
  這些都是我們認(rèn)為語音智能可以帶來的價(jià)值,我們也堅(jiān)信未來這些都是可以做到的,但是今天的實(shí)際場景中會是怎么樣呢?
  我們播放一些噪聲場景中錄制的真實(shí)語音,有多少人可以聽出里面說了什么呢?這段錄音中分別有四段噪聲,第一段是白噪聲,第二段是工廠噪聲、第三段是多人說話場景噪聲、第四段是音樂噪聲。在這樣的噪聲場景中,語音識別的準(zhǔn)確率會怎樣,可以請大家看看。這是一個(gè)語音識別系統(tǒng)對上面語音識別后的結(jié)果,我們說的是“現(xiàn)在是白噪聲,現(xiàn)在是工廠噪聲,現(xiàn)在是babble噪聲、黃鸝智能,用聲音智能改善人類生活與工作品質(zhì)”,但識別的結(jié)果就如圖所示了,可以看到,有噪聲之后語音識別的準(zhǔn)確率直線下降。
  這個(gè)場景雖然是一個(gè)模擬的場景,但是實(shí)際上我們?nèi)粘9ぷ骱蜕钪羞@樣的場景無時(shí)無處不在。我跑過很多高峰期的職場,實(shí)際觀察了人們工作的環(huán)境,發(fā)現(xiàn)大家坐在一起都在給客戶通話,這種多人說話場景,大家相互干擾的情況很普遍;在公交車、地鐵上、路過廣場大街的時(shí)候,這些場景其實(shí)在身邊每天都存在著。我們想從這樣的聲音中把想要的內(nèi)容提取出來,是不是面臨著很大的困難?這就需要聲音前端處理的技術(shù)。什么是聲音前端處理技術(shù),我們說平時(shí)我們接觸到的聲音價(jià)值發(fā)揮大部分是后端的部分,比如語音識別、聲紋識別、通過聲音識別情感,聲音通信也可以看做聲音的后端應(yīng)用,但是很少會關(guān)注前端的部分,前端通俗來說就是降噪,但實(shí)際上遠(yuǎn)遠(yuǎn)不止降噪,因?yàn)槌私翟脒要做信息的增強(qiáng);而噪聲種類非常多,包括廣義上的回聲、混響都可以看成是噪聲,對于前端的工作而言,最核心的就是兩點(diǎn),一是把不想要的噪聲清除掉,二是保留原來聲音當(dāng)中的有用信息,保證有用的聲音盡可能不失真,這是兩個(gè)最核心的目的。
  噪聲背景下怎么樣把有用的聲音提取出來,這是前端所要處理的最核心的功能。那么復(fù)雜噪聲場景怎么把聲音提取出來,面臨著怎樣的挑戰(zhàn)?首先第一個(gè)挑戰(zhàn),也是做聲音前端處理工作中我感受到的最大的挑戰(zhàn),就是要解決強(qiáng)降噪和低失真之間的矛盾。一方面要把噪聲降下來、要強(qiáng)降噪,很多噪聲場景,性噪比達(dá)到了負(fù)的分貝,噪聲能量和我說話的聲音能量是相當(dāng)?shù)、甚至更高,這種情況下如何降噪,但更重要的是,降噪的同時(shí)也要保證聲音的低失真,因?yàn)榻翟肴菀讓δ繕?biāo)信號造成影響,很多噪聲降得非常好、但是失真也很嚴(yán)重,這樣在通信和人機(jī)交互場景是遠(yuǎn)遠(yuǎn)不行的,這是前端處理的第一個(gè)挑戰(zhàn),在我看來也是最大的一個(gè)挑戰(zhàn)。
  第二個(gè)挑戰(zhàn)是噪聲的種類帶來的挑戰(zhàn),處理噪聲的很多方法對于某一種或某幾種類型的噪聲是管用的,但是對于其他的噪聲就束手無策了。尤其困難的是人聲干擾的問題,因?yàn)楹驼f話人聲音是同樣的頻段如何消除人聲,這是第二個(gè)挑戰(zhàn),在各種場景下都要適用的話,要求提升了不止一個(gè)量級。
  第三個(gè)挑戰(zhàn),處理速度與通信交互實(shí)時(shí)性的矛盾。今天很多新的方法出現(xiàn),但是效果比較好的同時(shí)也面臨著處理速度的挑戰(zhàn),用聲音來傳遞聲音傳遞價(jià)值都有實(shí)時(shí)性要求,說完一句話之后過五分鐘機(jī)器才有反應(yīng),這是實(shí)際應(yīng)用無法接受的。
  接下來我播放一下今天主流的前端技術(shù)對剛才同樣場景的處理結(jié)果(播放音頻),這是處理后的效果:第一確實(shí)降噪了,各種噪聲都有一定程度上能量的降低;第二不同噪聲也有不同的效果,前面兩種噪聲降得比較好,后面兩種噪聲殘留比較多一些;第三是強(qiáng)噪聲的地方聲音有失真。這是人的感受,那么看看機(jī)器的感受(也就是機(jī)器的識別結(jié)果),我們看到,前兩種噪聲環(huán)境處理后識別準(zhǔn)確率提升了,但是對于后面兩種噪聲,前端處理還產(chǎn)生了反作用,識別出來的內(nèi)容已經(jīng)和原來說話的含義完全無關(guān)了。
  這是今天聲音前端處理中非常常見的情況,也就是說,降噪的同時(shí)引入了失真,會導(dǎo)致機(jī)器的識別甚至比不降噪效果更差,還是達(dá)不到我們想要的結(jié)果。
  那么黃鸝智能的解決方案是什么?我們瞄準(zhǔn)最核心的點(diǎn)是在強(qiáng)降噪的同時(shí)保證聲音低失真。我在做語音識別的時(shí)候就身受噪聲的困擾,我們在實(shí)驗(yàn)室環(huán)境做得非常好,拿到實(shí)際應(yīng)用場景中識別率就慘不忍睹,從那時(shí)候開始我們團(tuán)隊(duì)一直在研究怎么樣能夠把降噪和聲音保真這兩件事同時(shí)處理好。我們自己總結(jié)出了一套行之有效的方法,發(fā)現(xiàn)傳統(tǒng)的信號處理的方法更多模擬人耳的特性,深度學(xué)習(xí)更多的模擬大腦的特性,實(shí)際上它們各自有優(yōu)勢、也各自有缺點(diǎn),需要有一套方法把二者整合在一起,這也是我們一直以來研究的方向。
  把里面關(guān)鍵環(huán)節(jié)打通后,我們確實(shí)發(fā)現(xiàn)得到了不一樣的結(jié)果,幾個(gè)核心特點(diǎn):
  一是高降噪的同時(shí)保證低失真。
  二是高可靠的同時(shí)保證低延時(shí)。
  三是高性能同時(shí)保證是可以普及的方案。
  這是我們的技術(shù)和其他技術(shù)測試對比的結(jié)果,我們關(guān)注的是兩個(gè)關(guān)鍵指標(biāo):一是降噪能力、二是失真程度。降噪用什么來衡量呢?用ANR指標(biāo)衡量(環(huán)境噪聲抑制指標(biāo)衡量),低失真衡量用“MOS分”衡量。我們的技術(shù)可以做到降噪達(dá)到40分貝的同時(shí),保證不同噪聲環(huán)境下聲音的質(zhì)量分能夠保持在4分左右,5分是滿分,MOS分在4到5分是優(yōu)秀。這個(gè)數(shù)字大家可能沒什么真實(shí)的感受,我們來聽一下我們技術(shù)采集的聲音效果(播放聲音)。這個(gè)聲音有幾個(gè)特點(diǎn),第一是噪聲降得很干凈、第二失真雖然有,但是失真足夠低,讓人聽得很清楚,那機(jī)器能不能聽清楚呢?。我們看到僅有的錯(cuò)誤在于把babble識別成了babu,所有其他部分的識別都是準(zhǔn)確的。
  所以說真正想要把聲音前端處理這個(gè)點(diǎn)做好,我們就必須同時(shí)關(guān)注噪聲降低以及聲音的保真這兩點(diǎn),因?yàn)楝F(xiàn)在更多的應(yīng)用不僅是人與人間的通信,也更多的在關(guān)注人機(jī)交互,而只有把  這兩點(diǎn)同時(shí)做好,才能同時(shí)保障人與人之間的通信是清晰傳達(dá)的,對于機(jī)器而言也可以保證更好的識別。
  我們做了更多數(shù)據(jù)集上的測試,從圖中可以看到,今天典型的語音識別系統(tǒng),安靜環(huán)境下識別率在90%以上,但性噪比在0分貝的時(shí)候,如果不做降噪處理的話,語音識別率就下降到70%左右,而使用了我們的技術(shù)進(jìn)行聲音采集后,在0分貝的情況下識別準(zhǔn)確率可以回到90%的水準(zhǔn)上。這樣可以有效提升噪聲環(huán)境下語音識別的識別率,同時(shí)保證客戶只聽到提供服務(wù)人員清晰的聲音,提升客戶的體驗(yàn)。
  今天用語音識別設(shè)備的人很多,但滿意的有多少?我自己是語音領(lǐng)域深度的用戶,我家里面的智能音箱有七八個(gè),但我的孩子都說這不是人工智能,這可能是人工智障(笑)!但我作為一個(gè)智能語音行業(yè)的從業(yè)者,知道語音智能系統(tǒng)中的難點(diǎn),其中的每一點(diǎn)進(jìn)步都需要大量的科研人員在各種不同場景下做各種各樣的測試,從而取得一點(diǎn)一點(diǎn)的進(jìn)步,今天我們也能夠看到語音行業(yè)從業(yè)者這么多年依然在堅(jiān)持不懈的努力,因?yàn)槲覀儓?jiān)信聲音的價(jià)值。今天我們的技術(shù)也不是所有的噪聲場景都可以很好的解決,但是我們正在一個(gè)一個(gè)場景下取得突破和進(jìn)步。
  這就是我們,黃鸝智能!2019年8月份剛剛成立公司,很不幸就趕上了疫情,去年4月份才推出首款產(chǎn)品,但去年一年時(shí)間里,我們已經(jīng)讓很多不同行業(yè)的客戶認(rèn)識了我們、也認(rèn)可了我們!去年我們推出了幾款有線耳機(jī)產(chǎn)品,今年我們會推出藍(lán)牙耳機(jī),未來我們將繼續(xù)拓展拾音降噪的應(yīng)用場景,也希望今后論壇當(dāng)中可以不斷和大家分享我們的進(jìn)展和新的收獲。
  我們企業(yè)的小伙伴們都堅(jiān)信聲音智能是能夠有效的改善人類生活和工作品質(zhì)的,它真的是一項(xiàng)非常有前景、非常有價(jià)值的技術(shù),也是非常好的發(fā)展方向,需要更多的人來投入、有更多人提意見、有更多人對這樣一項(xiàng)技術(shù)敢于嘗試。我們的愿望是和行業(yè)里面所有合作伙伴一起,讓聲音的智能化場景越來越落地、越來越多的被應(yīng)用起來,因?yàn)橹挥袘?yīng)用才能發(fā)現(xiàn)問題、只有應(yīng)用才能解決問題。
  我們永不止步因?yàn)樵胍魺o處不在!謝謝大家!
 

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點(diǎn)判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題

CTI論壇會員企業(yè)

双峰县| 类乌齐县| 张家川| 东平县| 桦甸市| 尼木县| 西乡县| 思南县| 阳山县| 仪陇县| 通山县| 咸丰县| 闽侯县| 娄烦县| 神池县| 天镇县| 驻马店市| 嵊泗县| 洛川县| 光泽县| 格尔木市| 衡阳县| 荣成市| 郯城县| 普安县| 东至县| 延吉市| 饶平县| 韶山市| 新兴县| 满洲里市| 霍林郭勒市| 吉水县| 收藏| 连州市| 巴塘县| 遂平县| 邮箱| 延津县| 怀集县| 延寿县|