亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

 首頁 > 新聞 > 專家觀點 >

語音識別——車機革命從這里興起

2013-10-09 16:57:33   作者:   來源:車音網(wǎng)    評論:0  點擊:


  “語音識別”作為一場解放雙手的革命,幾十年來一直備受推崇,但這場革命總是處在不溫不火的狀態(tài),從電腦到手機,再到如今的車機,“語言識別”一直是叫好不叫座。這樣“溫水煮青蛙”的狀態(tài)什么時候才能改變?“語音識別”將是下一個互聯(lián)網(wǎng)的入口?它會掀起車機領(lǐng)域的變革嗎?帶著這些疑問,筆者采訪了專注人機交互語音識別的企業(yè)——車音網(wǎng)首席執(zhí)行官王力劭。


語音識別——車機革命從這里興起

  數(shù)據(jù)采集 提高用戶感受度

  “沒有任何一種引擎可以說把方言語音識別處理好,這是由人們采集的語音量來決定的。”

  車音網(wǎng)一直致力于人機交互的語音識別系統(tǒng)的研發(fā)和推廣,而車音網(wǎng)提出的自然語言識別概念一直為外界所津津樂道。何為自然語言識別?通俗的來說就是可以識別人們的日常語言習(xí)慣,你講普通話也好,講方言也好,系統(tǒng)都能識別出你要表達的意思,這就是在最自然的狀態(tài)下達到了人機交互的目的。

  方言的語音識別到底準(zhǔn)還是不準(zhǔn)呢?如何提升用戶體驗度?王力劭解釋說,語音識別還是機器學(xué)習(xí)技術(shù)的一種,因為計算機沒有聯(lián)想能力,它只能按你告訴它的規(guī)則去做。所以識別不是完全靠程序來實現(xiàn)的,還要靠采集到的大量同一句話的不同波形,建立龐大的語音信息資源庫來實現(xiàn)。在普通話語系里有各種各樣的樣本,當(dāng)采集的某一個樣本跟之前的聲音很像,可能落在之前采集的樣本里,系統(tǒng)就能識別這句話。當(dāng)采集到十萬、百萬、千萬個人說話的樣本后,覆蓋面就非常廣了。作為這方面的先行者,王總又補充道,采集的樣本必須分布合理,根據(jù)地域、年齡段、性別將其區(qū)分。所以采集的樣本越多,機器識別的就越準(zhǔn)確。

  在方言識別方面,車音網(wǎng)把方言按語系來劃分,如廣東話、上海話、閩南話等。但是同一語系不同地區(qū)的人方言也會有很大的區(qū)別,為此王總打了一個比方,就像同樣講英語,北美地區(qū)的、非洲地區(qū)的和亞洲地區(qū)的講起來的感覺也是不盡相同,所以在采集數(shù)據(jù)時就要求覆蓋面廣,一個語系內(nèi)不同地區(qū)的方言都要采集到。而車音網(wǎng)在英語識別方面也采集了很多地區(qū)英語口音的樣本,這些樣本主要來自于東南亞地區(qū)。所以王總不無感慨的說:“沒有一種引擎可以說自己的方言語音識別處理的好,更多的還要依賴于研究團隊采集的語音量。”

  十年磨一劍 成就技術(shù)壁壘

  “這三輪數(shù)據(jù)的采集就是現(xiàn)在車音網(wǎng)的核心,一個公司低下頭一直這樣踏踏實實地干不是件容易的事。”

  上千萬的語音樣本采集聽起來就是一項持久而艱辛的工作,在這個過程中車音網(wǎng)花費了多少時間、多少精力,這些都是他人不知道的。王力劭說,國外最早出現(xiàn)的語音識別是IBM ViaVoice ,就是一個人對著機器不停地說話,訓(xùn)練機器的次數(shù)越多,機器的識別率越高。但是這種方式只針對特定的人,換一個人就不行了。特定的人不需要采集語樣,只需要不停地訓(xùn)練就可以了,機器運算相對來說也簡單多了?梢哉f,IBM ViaVoice所帶來的不用雙手的輸入方式,是一場解放雙手的革命。車音網(wǎng)做語音識別是從99年開始的,是中國最早一批研究非特定人語音識別技術(shù)的企業(yè),那時他們在做模擬推演時發(fā)現(xiàn),即使能夠采集來數(shù)據(jù),機器也沒有那么大的計算能力,服務(wù)器性能低下,根本無法進行系統(tǒng)開發(fā),所以決定投入大量的精力進行語音采集。

  語音的采集也不是一件容易的事,當(dāng)時車音網(wǎng)想到的就是最原始的方法——雇人,全國各地找代表收集語音樣本。他們制定了一套采集標(biāo)準(zhǔn),有明確的區(qū)間劃分,然后整理了一份大約50句話的腳本。這50句話也是經(jīng)過了一番研究確定的,正常人在讀這50句話時,可以把聲音的鏈接方式、發(fā)聲規(guī)律、特征點概括出來。這個苦力活一直干到2004年,從今天的眼光來看,當(dāng)年做這件事是一個非常明智的決定。這項工作依靠融資和風(fēng)投耗費了幾千萬的資金,但是獲得的語音量是非常廣的,并且都是按照車音網(wǎng)自己的規(guī)范來的。而這一點,如今的多數(shù)創(chuàng)業(yè)公司已經(jīng)很難做到了,資金消耗動輒上億,風(fēng)投也會更加謹(jǐn)慎評估了。所以說采集的數(shù)據(jù)也成為車音網(wǎng)語音識別的一個壁壘。

  2001年,車音網(wǎng)開始跟多家電信運營商合作,負責(zé)語音點歌、語音查詢等,并且上線了一系列電子系統(tǒng),和一些城市的114也展開了合作,這樣他們就可以收集到大量的8K信道的數(shù)據(jù),8K數(shù)據(jù)是最基本電話通道的數(shù)據(jù),F(xiàn)在人們很容易收集到16K的聲音,如微信等軟件,但16k的聲音和電話里的不同,所以現(xiàn)在一些公司缺乏8K數(shù)據(jù)采集的機會, 8K的數(shù)據(jù)是稀缺的。

分享到: 收藏

專題