亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

您當(dāng)前的位置是：首頁 > 資訊 > 文章精選 >

首頁|資訊|文章精選|商城|黃頁|會展|訪談|人才|資源|專家團(tuán)隊|周刊|呼叫中心|企業(yè)通信|通信業(yè)務(wù)

首頁 > 資訊 > 文章精選 >

黃鸝智能劉志：智能化背景下語音前端技術(shù)的新挑戰(zhàn)

2021-04-16 09:49:03 作者：來源：CTI論壇評論：0 　點擊：

　　由CTI論壇(m.suckhoeday.com)主辦的2021中國呼叫中心及企業(yè)通信大會[http://m.suckhoeday.com/expo/2021/ccec2021spring/index.html]于4月15日在北京遼寧大廈成功召開。本次會議以“5G時代共筑企業(yè)通信云生態(tài)”為主題。深圳黃鸝智能科技有限公司CEO 劉志應(yīng)邀出席此次會議并發(fā)表題為《智能化背景下語音前端技術(shù)的新挑戰(zhàn)》的主題演講。隨著5G、人工智能和物聯(lián)網(wǎng)的發(fā)展，疊加疫情對人類生產(chǎn)生活方式的影響，聲音通信和交互的重要性不斷凸顯。但復(fù)雜噪聲環(huán)境會大大降低聲音通信的質(zhì)量和體驗，同時會導(dǎo)致語音識別的準(zhǔn)確率嚴(yán)重下降。因此，聲音采集的是否清晰，是聲音通信和語音交互的關(guān)鍵點同時也是技術(shù)難點。如何應(yīng)對這一挑戰(zhàn)？黃鸝智能總經(jīng)理劉志先生將分享他的觀點。

圖：深圳黃鸝智能科技有限公司CEO 劉志
▲演講PPT下載，pdf格式

　　(以下為演講實錄，略有刪減)

　　劉志：大家下午好！感謝CTI論壇提供這樣一個機(jī)會給大家講講我們在做的事情，以及為什么要做這件事，我的演講題目是“智能化背景下語音前端技術(shù)的新挑戰(zhàn)”，這個題目大家看著可能會比較疑惑，希望隨著我的演講和大家一起來探討和交流這個課題。

　　說到語音識別相信大家都不陌生，現(xiàn)場做個調(diào)查，家里有語音識別設(shè)備的希望舉一下手，基本上都舉手了，覺得好用的請舉手，這就少了很多啊。我本人2000年就開始做語音識別，是國內(nèi)比較早做語音識別的一批，07年我們轉(zhuǎn)到其他的方向了，當(dāng)時發(fā)現(xiàn)語音識別領(lǐng)域坑太多了，但今天我還在做和語音相關(guān)的方向，還有很多和我一起的人在看好這個行業(yè)，在不斷的投入，為什么？因為聲音真的太重要了！心理學(xué)研究表明，聲音傳遞的信息和視覺傳遞的信息是可比的，很大程度上它們二者是交融在一起的，在人類感知世界當(dāng)中，單純由聲音傳遞的信息占了25%，而和圖像加在一起相結(jié)合的又有40%，可以說聲音傳遞的信息是感知世界獲取信息非常重要的手段，但是今天聲音的價值遠(yuǎn)遠(yuǎn)沒有發(fā)揮出來。

　　今天，在呼叫中心和企業(yè)辦公領(lǐng)域，智能語音技術(shù)對企業(yè)開始帶來很多新的價值，它可以幫助消除繁重的電話量、幫助企業(yè)保持品牌輸出一致性，一旦員工在打電話的時候沒有傳遞出品牌所需要的信息，可以及時提醒他，還可以幫助企業(yè)管理合規(guī)性問題，幫助企業(yè)有效利用數(shù)據(jù)資產(chǎn)，以前很多企業(yè)掌握了大量的聲音數(shù)據(jù)，但是卻不知道如何應(yīng)用，客戶在這些聲音當(dāng)中到底表達(dá)了什么、他們想傳遞什么信息、想獲得什么等等，過往的信息無法用，今天語音分析都可以幫助企業(yè)創(chuàng)造這些價值。而語音分析對于客戶價值更大，它可以幫助客戶更好的解決問題，任何一個人都不是萬能的，我們能夠記住的問題是有限的，企業(yè)厚厚的FAQ一個人都想背下來是不可能的，但是AI可以做得更好；語音分析還可以創(chuàng)造價值，從用戶聲音信息當(dāng)中傳遞了用戶面臨的問題，通過虛擬客服可以發(fā)掘這些問題背后的價值，最終對于客戶來說語音分析可以幫助提升體驗，客戶最終看重的是我被服務(wù)的感受好不好、體驗好不好、是不是解決問題了，今天我們很多服務(wù)系統(tǒng)會讓用戶選擇：十分滿意請按1、不滿意請按2，但通過語音分析，我們可以在整個服務(wù)過程中就自然的得出結(jié)論，用戶是否真的滿意。

　　這些都是我們認(rèn)為語音智能可以帶來的價值，我們也堅信未來這些都是可以做到的，但是今天的實際場景中會是怎么樣呢？

　　我們播放一些噪聲場景中錄制的真實語音，有多少人可以聽出里面說了什么呢？這段錄音中分別有四段噪聲，第一段是白噪聲，第二段是工廠噪聲、第三段是多人說話場景噪聲、第四段是音樂噪聲。在這樣的噪聲場景中，語音識別的準(zhǔn)確率會怎樣，可以請大家看看。這是一個語音識別系統(tǒng)對上面語音識別后的結(jié)果，我們說的是“現(xiàn)在是白噪聲，現(xiàn)在是工廠噪聲，現(xiàn)在是babble噪聲、黃鸝智能，用聲音智能改善人類生活與工作品質(zhì)”，但識別的結(jié)果就如圖所示了，可以看到，有噪聲之后語音識別的準(zhǔn)確率直線下降。

　　這個場景雖然是一個模擬的場景，但是實際上我們?nèi)粘９ぷ骱蜕钪羞@樣的場景無時無處不在。我跑過很多高峰期的職場，實際觀察了人們工作的環(huán)境，發(fā)現(xiàn)大家坐在一起都在給客戶通話，這種多人說話場景，大家相互干擾的情況很普遍；在公交車、地鐵上、路過廣場大街的時候，這些場景其實在身邊每天都存在著。我們想從這樣的聲音中把想要的內(nèi)容提取出來，是不是面臨著很大的困難？這就需要聲音前端處理的技術(shù)。什么是聲音前端處理技術(shù)，我們說平時我們接觸到的聲音價值發(fā)揮大部分是后端的部分，比如語音識別、聲紋識別、通過聲音識別情感，聲音通信也可以看做聲音的后端應(yīng)用，但是很少會關(guān)注前端的部分，前端通俗來說就是降噪，但實際上遠(yuǎn)遠(yuǎn)不止降噪，因為除了降噪還要做信息的增強(qiáng)；而噪聲種類非常多，包括廣義上的回聲、混響都可以看成是噪聲，對于前端的工作而言，最核心的就是兩點，一是把不想要的噪聲清除掉，二是保留原來聲音當(dāng)中的有用信息，保證有用的聲音盡可能不失真，這是兩個最核心的目的。

　　噪聲背景下怎么樣把有用的聲音提取出來，這是前端所要處理的最核心的功能。那么復(fù)雜噪聲場景怎么把聲音提取出來，面臨著怎樣的挑戰(zhàn)？首先第一個挑戰(zhàn)，也是做聲音前端處理工作中我感受到的最大的挑戰(zhàn)，就是要解決強(qiáng)降噪和低失真之間的矛盾。一方面要把噪聲降下來、要強(qiáng)降噪，很多噪聲場景，性噪比達(dá)到了負(fù)的分貝，噪聲能量和我說話的聲音能量是相當(dāng)?shù)�、甚至更高，這種情況下如何降噪，但更重要的是，降噪的同時也要保證聲音的低失真，因為降噪容易對目標(biāo)信號造成影響，很多噪聲降得非常好、但是失真也很嚴(yán)重，這樣在通信和人機(jī)交互場景是遠(yuǎn)遠(yuǎn)不行的，這是前端處理的第一個挑戰(zhàn)，在我看來也是最大的一個挑戰(zhàn)。

　　第二個挑戰(zhàn)是噪聲的種類帶來的挑戰(zhàn)，處理噪聲的很多方法對于某一種或某幾種類型的噪聲是管用的，但是對于其他的噪聲就束手無策了。尤其困難的是人聲干擾的問題，因為和說話人聲音是同樣的頻段如何消除人聲，這是第二個挑戰(zhàn)，在各種場景下都要適用的話，要求提升了不止一個量級。

　　第三個挑戰(zhàn)，處理速度與通信交互實時性的矛盾。今天很多新的方法出現(xiàn)，但是效果比較好的同時也面臨著處理速度的挑戰(zhàn)，用聲音來傳遞聲音傳遞價值都有實時性要求，說完一句話之后過五分鐘機(jī)器才有反應(yīng)，這是實際應(yīng)用無法接受的。

　　接下來我播放一下今天主流的前端技術(shù)對剛才同樣場景的處理結(jié)果（播放音頻），這是處理后的效果：第一確實降噪了，各種噪聲都有一定程度上能量的降低；第二不同噪聲也有不同的效果，前面兩種噪聲降得比較好，后面兩種噪聲殘留比較多一些；第三是強(qiáng)噪聲的地方聲音有失真。這是人的感受，那么看看機(jī)器的感受（也就是機(jī)器的識別結(jié)果），我們看到，前兩種噪聲環(huán)境處理后識別準(zhǔn)確率提升了，但是對于后面兩種噪聲，前端處理還產(chǎn)生了反作用，識別出來的內(nèi)容已經(jīng)和原來說話的含義完全無關(guān)了。

　　這是今天聲音前端處理中非常常見的情況，也就是說，降噪的同時引入了失真，會導(dǎo)致機(jī)器的識別甚至比不降噪效果更差，還是達(dá)不到我們想要的結(jié)果。

　　那么黃鸝智能的解決方案是什么？我們瞄準(zhǔn)最核心的點是在強(qiáng)降噪的同時保證聲音低失真。我在做語音識別的時候就身受噪聲的困擾，我們在實驗室環(huán)境做得非常好，拿到實際應(yīng)用場景中識別率就慘不忍睹，從那時候開始我們團(tuán)隊一直在研究怎么樣能夠把降噪和聲音保真這兩件事同時處理好。我們自己總結(jié)出了一套行之有效的方法，發(fā)現(xiàn)傳統(tǒng)的信號處理的方法更多模擬人耳的特性，深度學(xué)習(xí)更多的模擬大腦的特性，實際上它們各自有優(yōu)勢、也各自有缺點，需要有一套方法把二者整合在一起，這也是我們一直以來研究的方向。

　　把里面關(guān)鍵環(huán)節(jié)打通后，我們確實發(fā)現(xiàn)得到了不一樣的結(jié)果，幾個核心特點：

　　一是高降噪的同時保證低失真。

　　二是高可靠的同時保證低延時。

　　三是高性能同時保證是可以普及的方案。

　　這是我們的技術(shù)和其他技術(shù)測試對比的結(jié)果，我們關(guān)注的是兩個關(guān)鍵指標(biāo)：一是降噪能力、二是失真程度。降噪用什么來衡量呢？用ANR指標(biāo)衡量（環(huán)境噪聲抑制指標(biāo)衡量），低失真衡量用“MOS分”衡量。我們的技術(shù)可以做到降噪達(dá)到40分貝的同時，保證不同噪聲環(huán)境下聲音的質(zhì)量分能夠保持在4分左右，5分是滿分，MOS分在4到5分是優(yōu)秀。這個數(shù)字大家可能沒什么真實的感受，我們來聽一下我們技術(shù)采集的聲音效果（播放聲音）。這個聲音有幾個特點，第一是噪聲降得很干凈、第二失真雖然有，但是失真足夠低，讓人聽得很清楚，那機(jī)器能不能聽清楚呢？。我們看到僅有的錯誤在于把babble識別成了babu，所有其他部分的識別都是準(zhǔn)確的。

　　所以說真正想要把聲音前端處理這個點做好，我們就必須同時關(guān)注噪聲降低以及聲音的保真這兩點，因為現(xiàn)在更多的應(yīng)用不僅是人與人間的通信，也更多的在關(guān)注人機(jī)交互，而只有把　　這兩點同時做好，才能同時保障人與人之間的通信是清晰傳達(dá)的，對于機(jī)器而言也可以保證更好的識別。

　　我們做了更多數(shù)據(jù)集上的測試，從圖中可以看到，今天典型的語音識別系統(tǒng)，安靜環(huán)境下識別率在90%以上，但性噪比在0分貝的時候，如果不做降噪處理的話，語音識別率就下降到70%左右，而使用了我們的技術(shù)進(jìn)行聲音采集后，在0分貝的情況下識別準(zhǔn)確率可以回到90%的水準(zhǔn)上。這樣可以有效提升噪聲環(huán)境下語音識別的識別率，同時保證客戶只聽到提供服務(wù)人員清晰的聲音，提升客戶的體驗。

　　今天用語音識別設(shè)備的人很多，但滿意的有多少？我自己是語音領(lǐng)域深度的用戶，我家里面的智能音箱有七八個，但我的孩子都說這不是人工智能，這可能是人工智障（笑）！但我作為一個智能語音行業(yè)的從業(yè)者，知道語音智能系統(tǒng)中的難點，其中的每一點進(jìn)步都需要大量的科研人員在各種不同場景下做各種各樣的測試，從而取得一點一點的進(jìn)步，今天我們也能夠看到語音行業(yè)從業(yè)者這么多年依然在堅持不懈的努力，因為我們堅信聲音的價值。今天我們的技術(shù)也不是所有的噪聲場景都可以很好的解決，但是我們正在一個一個場景下取得突破和進(jìn)步。

　　這就是我們，黃鸝智能！2019年8月份剛剛成立公司，很不幸就趕上了疫情，去年4月份才推出首款產(chǎn)品，但去年一年時間里，我們已經(jīng)讓很多不同行業(yè)的客戶認(rèn)識了我們、也認(rèn)可了我們！去年我們推出了幾款有線耳機(jī)產(chǎn)品，今年我們會推出藍(lán)牙耳機(jī)，未來我們將繼續(xù)拓展拾音降噪的應(yīng)用場景，也希望今后論壇當(dāng)中可以不斷和大家分享我們的進(jìn)展和新的收獲。

　　我們企業(yè)的小伙伴們都堅信聲音智能是能夠有效的改善人類生活和工作品質(zhì)的，它真的是一項非常有前景、非常有價值的技術(shù)，也是非常好的發(fā)展方向，需要更多的人來投入、有更多人提意見、有更多人對這樣一項技術(shù)敢于嘗試。我們的愿望是和行業(yè)里面所有合作伙伴一起，讓聲音的智能化場景越來越落地、越來越多的被應(yīng)用起來，因為只有應(yīng)用才能發(fā)現(xiàn)問題、只有應(yīng)用才能解決問題。

　　我們永不止步因為噪音無處不在！謝謝大家！

【免責(zé)聲明】本文僅代表作者本人觀點，與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立，不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考，并請自行承擔(dān)全部責(zé)任。

相關(guān)熱詞搜索：黃鸝劉志

上一篇:Genesys駱麗娟：體驗即服務(wù)，讓每一次交互充滿溫情

下一篇:Unify安壽男：工匠精神

相關(guān)閱讀：

·專訪深圳黃鸝智能科技有限公司CEO劉志2021-04-19 17:38:21
·深圳黃鸝智能科技有限公司總經(jīng)理劉志：機(jī)遇2020-12-21 11:36:57
·專訪深圳黃鸝智能科技有限公司CEO劉志2020-09-21 14:10:16
·黃鸝智聲CEO劉志：后疫情時代語音降噪對于客戶體驗的重要性2020-09-21 10:35:18
·深圳黃鸝智能科技劉志：極致2019-12-24 09:16:24

評論排行

推薦閱讀

專題

變革時代聯(lián)絡(luò)中心...: 　　該系列文章探討了推動變革的趨勢，回顧了當(dāng)今聯(lián)絡(luò)中...[詳細(xì)]

2021中國呼叫中心...: 2021中國呼叫中心及企業(yè)通信大會 4月15日中國·北京 ...[詳細(xì)]

華為全聯(lián)接2020: 華為第五屆HUAWEI CONNECT大會在上海舉辦。[詳細(xì)]

2020中國呼叫中心...: 業(yè)界矚目的2020中國呼叫中心及企業(yè)通信大會將于7月9日在...[詳細(xì)]

大家都在看

點擊排行
周排行
月排行

CTI論壇會員企業(yè)

Copyright(C) 1999-2019 CTI論壇北京網(wǎng)際星河信息技術(shù)有限責(zé)任公司版權(quán)所有

電話：+86-10-82012787，+86-10-82079688
傳真：+86-10-62041062
投稿：ctiforum@ctiforum.com
地址：北京市西城區(qū)新德街20號513室（100088）

網(wǎng)站首頁 | 公司簡介 | 聯(lián)系方式 | 工作機(jī)會 | 廣告服務(wù) | 會員服務(wù) | 服務(wù)項目 | 專家團(tuán)隊 | 版權(quán)聲明 | 投稿方法

Copyright(C) 1999-2019 CTI論壇北京網(wǎng)際星河信息技術(shù)有限責(zé)任公司版權(quán)所有

電話：+86-10-82012787，+86-10-82079688 投稿：ctiforum@ctiforum.com

經(jīng)營性網(wǎng)站備案信息

京ICP證030771號

網(wǎng)絡(luò)110報警服務(wù)

京公網(wǎng)安備110102000104-1號

乌兰浩特市| 诏安县| 平凉市| 乌拉特后旗| 繁峙县| 商都县| 双辽市| 新沂市| 巴彦淖尔市| 金乡县| 泗阳县| 绥德县| 宁国市| 遂平县| 略阳县| 嘉峪关市| 册亨县| 桃园市| 阳城县| 井研县| 邢台县| 孝义市| 吴江市| 绥宁县| 西峡县| 乡城县| 察雅县| 通化市| 定南县| 沁水县| 佛学| 中阳县| 比如县| 龙口市| 邢台县| 鄢陵县| 奈曼旗| 永德县| 罗平县| 美姑县| 潮州市|