亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

 首頁 > 新聞 > 專家觀點 >

如何搶灘智能語音字號 打造人機智能語音交互時代

2014-06-18 09:46:14   作者:   來源:中國計算機報   評論:0  點擊:


  磨一根針 破一片天

  “做語音是需要慢慢熬的。”這句話記者不止聽一個被采訪人說過。

  1989年從清華大學(xué)畢業(yè)任職紫光推進OCR(圖像掃描識別),中間赴美,2000年與中國科學(xué)院聲學(xué)所研究員呂士楠共同創(chuàng)辦捷通華聲的張連毅稱自己是語音乃至整個智能交互行業(yè)的老兵。在他看來,從“入口說”、“門檻說”到“血統(tǒng)說”再到“技術(shù)說”,這兩年來的語音熱其實更多是一種炒作,而這種炒作對行業(yè)本身未必有多大好處。“我只認可"技術(shù)說"。因為語音只是交互的方式之一,智能語音就是一門技術(shù),它與應(yīng)用結(jié)合,這項技術(shù)就能創(chuàng)造出巨大價值。而這門技術(shù)的特點是厚積薄發(fā),需要慢慢積累,所以這就決定智能語音產(chǎn)業(yè)是要用一根針刺破天的專業(yè)領(lǐng)域,而不是用一個鐵錘砸出一片聲勢的產(chǎn)業(yè),必須專注、專業(yè),精耕細作,深耕久釀。”

  而所謂的積累,在云知聲CEO黃偉看來,就是算法、數(shù)據(jù)和團隊經(jīng)驗的積累。他告訴記者,作為創(chuàng)業(yè)型公司,“云知聲的優(yōu)勢不在于數(shù)據(jù)積累,而在于算法。從云知聲成立第一天起,我們就用了比對手少一個數(shù)量級的數(shù)據(jù)來訓(xùn)練算法模型,最終達到甚至超越對手產(chǎn)品性能,這個過程我們也積累了豐富而寶貴的團隊經(jīng)驗。而現(xiàn)在開放的語音云平臺已經(jīng)讓我們有了很多用戶數(shù)據(jù),我們的數(shù)據(jù)短板已經(jīng)得到了彌補。”

  黃偉畢業(yè)于中國科學(xué)技術(shù)大學(xué),后加入摩托羅拉并帶隊研發(fā)出世界上首個手機聲紋認證系統(tǒng)。國際金融危機期間,摩托羅拉將整個語音識別團隊出售給Nuance。黃偉拒絕被Nuance收編,于2009年7月加入盛大網(wǎng)絡(luò)旗下的創(chuàng)新院,2010年10月創(chuàng)建了語音分院,2013年年底正式出任公司CEO。黃偉告訴記者,在技術(shù)方面云知聲先后四次升級語音識別內(nèi)核,目前識別準確率達96.26%,技術(shù)領(lǐng)先,并且可提供中、英、粵多語言識別;在商業(yè)化方面,云知聲單月簽約額突破千萬元,合作伙伴超過3200家,云知聲智能語音已廣泛應(yīng)用在移動互聯(lián)網(wǎng)、智能家電、車載、可穿戴設(shè)備、呼叫中心、教育、醫(yī)療等領(lǐng)域。

  無獨有偶,科大訊飛副總裁江濤也同樣是語音界的老人。畢業(yè)于中國科技大學(xué)自動化與計算機專業(yè)的他是科大訊飛的元老,作為科大訊飛創(chuàng)業(yè)團隊成員,一直在從事語音技術(shù)在通信和互聯(lián)網(wǎng)方向的應(yīng)用推廣。在江濤看來,語音技術(shù)和其他技術(shù)一樣,都在沿技術(shù)成熟曲線不斷發(fā)展。幾年前蘋果Siri帶動語音走進向上發(fā)展階段,那時整個產(chǎn)業(yè)被看好,很多資本投入進來至一個高潮,而現(xiàn)在是高潮過后走入技術(shù)成熟曲線下行階段,很多人開始悲觀,資本撤離,只有堅持下來的公司能做成。他判斷,帶語音走入下一波上行曲線的動力很可能是可穿戴設(shè)備、智能家居、智能汽車等。

  江濤向記者回憶,在上世紀90年代,當時公認語音做得最好是南北二“王”,南“王”就是中國科技大學(xué)的王仁華老師,他也是科大訊飛第一任董事長,也是他支持科大訊飛現(xiàn)任董事長劉慶峰創(chuàng)業(yè)的;北“王”指的就是清華大學(xué)的王作英老師,語音識別和語音合成做得都很不錯。在江濤看來,語音成為人機交互的主要信息入口這是大勢所趨,毋庸置疑,只是語音真正價值的實現(xiàn)還有賴于技術(shù)的成熟和應(yīng)用的普及。應(yīng)用的普及需要慢慢來,引導(dǎo)、教育市場,培養(yǎng)人們的使用習慣要一點點推進,但要全面推廣、普及還是需要過程的。“幾年前要是有人在電梯里對著自己手機喃喃自語大家都會覺得奇怪,不知道這人干嘛呢,但現(xiàn)在因為微信的普及,這種行為習慣已經(jīng)被接受認可。”

  而對于技術(shù)的成熟,江濤同樣認為是需要專注投入、不斷積累的。江濤向記者介紹目前的語音識別技術(shù)現(xiàn)狀,他以環(huán)境從嘈雜到安靜的程度為橫軸,以人說話的清晰程度為縱軸,劃分四個象限。在第一象限,也就是環(huán)境也安靜、人說話也清楚的情況下,目前各家語音廠商技術(shù)實力差距不大,語音識別率都很高。在第二象限,也就是環(huán)境嘈雜、網(wǎng)絡(luò)不好的情況下,目前科大訊飛做得很不錯。噪音大、網(wǎng)絡(luò)信號時斷時續(xù)非常影響語音識別效果。“車載語音識別最大的對手就是噪音。2013年8月,奔馳在全球?qū)υ萍夹g(shù)提供商進行選型發(fā)布的報告中分別按不同時速(每小時60、100、140公里)測噪,科大訊飛是唯一在100公里時速上識別率超過90%的廠商。”江濤自豪地介紹。在第三象限,也就是環(huán)境不錯、人發(fā)音不太配合(最典型的各種口音)的情況下,看的就是對語言種類,尤其是方言的支持程度。云知聲實現(xiàn)對粵語、英語的識別支持?拼笥嶏w除了實現(xiàn)對粵語、英語的識別支持,2014年以來陸續(xù)支持對河南話、四川話、東北話等方言的識別。江濤透露今年還會陸續(xù)支持湖南話、山東話、武漢話、合肥話、閩南話的方言識別。除了口音之外,語速、講話模式等也會對語音識別帶來不同挑戰(zhàn),比如演講與開會的語音識別的識別算法和模型都不一樣。“今年年底科大訊飛將推出一個產(chǎn)品實現(xiàn)普通話開會過程中,將語音轉(zhuǎn)變?yōu)槲淖,識別率很高。”江濤透露。而在第四象限,即環(huán)境又不好、發(fā)音又不好的情況是世界性的難題,很難有誰能攻克。



分享到: 收藏

專題