首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)  語(yǔ)音識(shí)別產(chǎn)品

聲音的力量:對(duì)話谷歌語(yǔ)音技術(shù)負(fù)責(zé)人

2011/02/17

  北京時(shí)間2月16日消息,據(jù)國(guó)外媒體報(bào)道,知名科技博客TechCrunch作者賈森·金凱德(Jason Kincaid)發(fā)表文章,講述了他與谷歌語(yǔ)音技術(shù)負(fù)責(zé)人邁克·科恩(Mike Cohen)最近進(jìn)行的一次談話,內(nèi)容涉及谷歌大力投入語(yǔ)音技術(shù)的原因及發(fā)展前景。
谷歌語(yǔ)音技術(shù)負(fù)責(zé)人邁克·科恩(Mike Cohen)

谷歌語(yǔ)音技術(shù)負(fù)責(zé)人邁克·科恩(Mike Cohen)

  以下為全文摘要:

  盡管智能手機(jī)應(yīng)用程序花樣翻新,層出不窮,但是如果你拿出手機(jī),說(shuō)一聲“尋找到科技館的道路”,谷歌就會(huì)立即照做的話,你仍然會(huì)感到這個(gè)情景有點(diǎn)不太尋常。語(yǔ)音技術(shù)通過(guò)iPhone應(yīng)用程序,以及與Android的深度整合,正在變得日益普遍,而這實(shí)際上僅僅是一個(gè)開(kāi)始。

  回顧過(guò)去

  在討論現(xiàn)在的狀況之前,我們先來(lái)回顧一下科恩過(guò)去的經(jīng)歷,也可以說(shuō)這是在回顧語(yǔ)音技術(shù)的歷史,因?yàn)殡m然科恩從2004年開(kāi)始一直在谷歌工作,但他自80年代初在斯坦福研究院做研究時(shí)起,就站在語(yǔ)音和技術(shù)的交匯之處,至今已經(jīng)幾十年了。

  科恩說(shuō),在20世紀(jì)70年代語(yǔ)音工作有兩大陣營(yíng):語(yǔ)言學(xué)家和工程師。語(yǔ)言學(xué)家強(qiáng)調(diào)規(guī)則——他們會(huì)找出語(yǔ)法和發(fā)音上的各種趨勢(shì),以及每一個(gè)音素如何與其他音素互動(dòng)。工程師們則采用了不同的方法:他們的目標(biāo)不是試圖以人工方式精心確定每個(gè)規(guī)則,而是構(gòu)建復(fù)雜的統(tǒng)計(jì)模型,當(dāng)有更多的語(yǔ)音數(shù)據(jù)輸入到這些模型中時(shí),它們就會(huì)得以改進(jìn)。

  到了70年代末和80年代初,當(dāng)科恩開(kāi)始在斯坦福研究院做研究時(shí),工程師們正處于領(lǐng)先位置,但是存在著這樣一個(gè)問(wèn)題:統(tǒng)計(jì)模型的改進(jìn)已經(jīng)開(kāi)始形成漸近線?贫鹘忉屨f(shuō),因?yàn)檫@些模型總是相同的,向它們輸入更多的數(shù)據(jù)終究會(huì)出現(xiàn)報(bào)酬遞減(例如他們的模型不善于識(shí)別發(fā)音在多大程度上取決于哪些詞被說(shuō)出,又在多大程度上取決于上下文是什么)。工程師們需要找到一種方式來(lái)建立更好的模型,所以他們終于開(kāi)始與語(yǔ)言學(xué)家們合作,造就了另一波研究熱潮。

  到90年代初,語(yǔ)音技術(shù)已經(jīng)獲得了長(zhǎng)足的發(fā)展,研究人員創(chuàng)建了航空旅游信息系統(tǒng)(ATIS,Air Travel Information System,用戶可以走到一個(gè)終端,說(shuō)“告訴我從波士頓出發(fā)的航班”,計(jì)算機(jī)就會(huì)顯示相關(guān)數(shù)據(jù)。該系統(tǒng)可以識(shí)別這些命令無(wú)數(shù)種的變化,因此你不必記住某些關(guān)鍵字)。在Windows 95面市時(shí)就有了ATIS這樣的系統(tǒng),這讓人覺(jué)得有些不可思議。

  在ATIS獲得成功的基礎(chǔ)上,科恩認(rèn)為這項(xiàng)技術(shù)已經(jīng)做好了商業(yè)應(yīng)用的準(zhǔn)備,所以他和三個(gè)聯(lián)合創(chuàng)始人創(chuàng)辦了Nuance公司,為需要處理大量呼入電話的大公司建立自動(dòng)電話系統(tǒng)(電話公司的客戶服務(wù)系統(tǒng)就是一個(gè)例子)。

  科恩繼續(xù)尋找改善Nuance語(yǔ)音識(shí)別軟件的方法(鑒于他曾是一位研究者,這也就不足為奇了)。而且事實(shí)證明,海量的呼入錄音比他在斯坦福研究院做研究時(shí)獲得的數(shù)據(jù)更加有用,因?yàn)橛行〇|西無(wú)法在實(shí)驗(yàn)室環(huán)境中重現(xiàn),比如背景中的狗叫聲,孩子的哭聲等等,而這些聲音會(huì)出現(xiàn)在呼入的電話中,所以Nuance面臨著語(yǔ)音分析的重大新挑戰(zhàn)。

  但這里有一個(gè)很大的問(wèn)題:盡管Nuance的技術(shù)正在處理大量數(shù)據(jù),Nuance公司還是必須向它的每個(gè)企業(yè)客戶提出請(qǐng)求,以便獲得這些數(shù)據(jù)用于研究目的。這樣做對(duì)企業(yè)有好處,因?yàn)樗鼈兡軓募夹g(shù)改進(jìn)中獲益,但一些企業(yè)仍然對(duì)此持謹(jǐn)慎態(tài)度。這最終導(dǎo)致科恩進(jìn)入了谷歌。

  GOOG-411項(xiàng)目

  在2004年前,谷歌基本上沒(méi)有語(yǔ)音技術(shù),但是科恩看到了機(jī)會(huì)。即使在那個(gè)時(shí)候,手機(jī)將對(duì)未來(lái)技術(shù)產(chǎn)生巨大影響的跡象就很明顯。而且,由于谷歌直接面對(duì)最終用戶,它收到的任何語(yǔ)音數(shù)據(jù)都可以方便地用于研究目的。于是科恩進(jìn)入谷歌,著手開(kāi)展GOOG-411項(xiàng)目,后來(lái)它成為谷歌的免費(fèi)411語(yǔ)音服務(wù)。

  這項(xiàng)服務(wù)在2007年推出,它提供了一個(gè)簡(jiǎn)單方便的功能集:你給它打電話詢問(wèn)一些基本信息,比如一個(gè)企業(yè)的電話號(hào)碼,它就會(huì)馬上為你提供相關(guān)信息,而且是免費(fèi)的?贫髡f(shuō),推出GOOG-411的主要原因就是“它有用”,但它還有一個(gè)重要的副作用:谷歌從此開(kāi)始建立一個(gè)龐大的語(yǔ)音數(shù)據(jù)庫(kù)。還記得前面討論過(guò)的數(shù)據(jù)模型嗎?谷歌語(yǔ)音系統(tǒng)在概念上與之類似,但是規(guī)模大得多。

  GOOG-411項(xiàng)目在十月份取消了,但這時(shí)谷歌已經(jīng)有了更多的語(yǔ)音數(shù)據(jù)輸入方式,包括在Android上到處可見(jiàn)的麥克風(fēng)按鈕,以及Google Mobile的iPhone應(yīng)用程序。而且谷歌可以查看基于文本的搜索查詢?cè)~條,確定一個(gè)詞后面出現(xiàn)得最頻繁的是哪個(gè)詞。這一切都意味著谷歌可以相對(duì)較快地改進(jìn)其語(yǔ)言模型。

  科恩說(shuō),如今谷歌使用2300億個(gè)搜索查詢?cè)~條來(lái)“培訓(xùn)”其語(yǔ)音識(shí)別功能所使用的語(yǔ)言模型。為了形象地說(shuō)明數(shù)據(jù)量有多大,科恩說(shuō),如果只用一個(gè)CPU,這個(gè)“培訓(xùn)”需要70年時(shí)間才能完成。

  這項(xiàng)技術(shù)現(xiàn)在已經(jīng)用在谷歌的多種產(chǎn)品中。YouTube自動(dòng)為數(shù)百萬(wàn)視頻添加了字幕。谷歌語(yǔ)音服務(wù)嘗試將呼入的語(yǔ)音郵件轉(zhuǎn)錄成文字(產(chǎn)生了一些非;慕Y(jié)果)。語(yǔ)音搜索將在移動(dòng)設(shè)備上發(fā)揮更大的作用,所以,如果在不太遙遠(yuǎn)的將來(lái),你看到配有媒體中心的車輛在運(yùn)行Android,請(qǐng)不要感到驚訝,它們肯定帶有語(yǔ)音功能。

  科恩很高興地談起谷歌在聲音技術(shù)上做出的努力,但他沒(méi)有透露統(tǒng)計(jì)數(shù)據(jù),即將發(fā)布的功能,也沒(méi)有做出預(yù)測(cè)?贫鞒姓J(rèn),谷歌語(yǔ)音搜索的量波動(dòng)很大,取決于是否有新的帶有語(yǔ)音功能的服務(wù)推出,以及是否報(bào)刊最近進(jìn)行了報(bào)道。

  當(dāng)我問(wèn)他,多久之后語(yǔ)音搜索將變得非常準(zhǔn)確,以至于我們可以將它視為理所當(dāng)然(指不需要再檢查文字的拼寫(xiě)錯(cuò)誤),雖然他說(shuō)了類似于“五年”這樣話(對(duì)于研究工作而言,這相當(dāng)于是說(shuō)“我不知道”),但他不愿意談及具體計(jì)劃。

  我也問(wèn)過(guò)他,對(duì)蘋果在語(yǔ)音技術(shù)方面采取的行動(dòng)有什么想法(蘋果去年收購(gòu)了以語(yǔ)音搜索技術(shù)為主的公司Siri,很明顯蘋果想把將語(yǔ)音技術(shù)納入到iOS中),科恩同樣也沒(méi)有這個(gè)問(wèn)題上說(shuō)多少(雖然這并不令人感到驚訝)。他只是說(shuō),谷歌已經(jīng)推出了一個(gè)產(chǎn)品,因此擁有數(shù)據(jù)量大的天然優(yōu)勢(shì),但這個(gè)問(wèn)題的答案最終將歸結(jié)于蘋果開(kāi)發(fā)了什么產(chǎn)品以及它與誰(shuí)合作。

  不過(guò),雖然科恩沒(méi)有談及具體細(xì)節(jié),他卻講到了谷歌語(yǔ)音技術(shù)的長(zhǎng)遠(yuǎn)目標(biāo):讓語(yǔ)音輸入變得無(wú)處不在。 “就像你可以在很多地方用鍵盤輸入文本,你也應(yīng)該可以在很多地方使用語(yǔ)音輸入!倍鴾(zhǔn)確性是其中的一個(gè)要點(diǎn) “它需要極為‘接近完美’,人們選擇使用語(yǔ)音輸入不在于它的表現(xiàn),而在于最終用戶的喜好!

騰訊科技



相關(guān)閱讀:
捷通華聲開(kāi)啟語(yǔ)音手寫(xiě)識(shí)別智能云服務(wù) 2011-02-16
三大電信運(yùn)營(yíng)商爭(zhēng)做語(yǔ)音微博 名人帶動(dòng)引關(guān)注 2011-02-16
DCI體系助運(yùn)營(yíng)商建立有效“防火墻” 2011-02-15
各大移動(dòng)公司相繼推WAC應(yīng)用程序 試圖搶占制高點(diǎn) 2011-02-15
移動(dòng)互聯(lián)網(wǎng)市場(chǎng)井噴 超越互聯(lián)網(wǎng)指日可待 2011-02-15

熱點(diǎn)專題:  語(yǔ)音合成TTS 語(yǔ)音識(shí)別ASR    移動(dòng)互聯(lián)網(wǎng)
分類信息:  移動(dòng)互聯(lián)網(wǎng)_與_語(yǔ)音應(yīng)用  移動(dòng)互聯(lián)網(wǎng)_與_移動(dòng)  移動(dòng)互聯(lián)網(wǎng)_與_移動(dòng)

义马市| 新津县| 梧州市| 濉溪县| 睢宁县| 商城县| 云阳县| 兴隆县| 和田市| 九江县| 赤城县| 鹰潭市| 奇台县| 漳州市| 泾川县| 芜湖市| 响水县| 岚皋县| 峨眉山市| 西城区| 盐边县| 嵊州市| 宜兰县| 怀来县| 淄博市| 盐源县| 正定县| 密云县| 芜湖市| 平顺县| 依安县| 西畴县| 金山区| 张家界市| 高碑店市| 三都| 莱州市| 新和县| 赤城县| 广德县| 台北县|