上世紀(jì)九十年代,羅杰·凱在一家名為ILA的小型計(jì)算機(jī)語(yǔ)言學(xué)公司工作。那時(shí)候,美國(guó)麻省理工學(xué)院語(yǔ)言學(xué)教授諾姆·喬姆斯基的“普遍語(yǔ)法”理論吸引了一批追隨者,他試圖將所有人類(lèi)語(yǔ)言借用同一個(gè)模型進(jìn)行演繹。一開(kāi)始,羅杰和他的同事也試著如此去設(shè)計(jì)語(yǔ)言模型,但他們很快發(fā)現(xiàn),真實(shí)的語(yǔ)言常常違背這個(gè)模型,有太多反例讓這一理論顯得充滿任意性。
一種語(yǔ)言障礙亟須彌合的想法隨即映射進(jìn)他們腦中,這同樣是許多科技業(yè)巨頭想要打開(kāi)的一扇大門(mén)。谷歌從2009年開(kāi)始就一直在采錄語(yǔ)音信箱的信息;微軟則將類(lèi)似技術(shù)置入Windows Vista操作系統(tǒng);蘋(píng)果的智能語(yǔ)音控制程序Siri則讓這種技術(shù)更趨商業(yè)。
附近有什么好吃的?我應(yīng)該在哪搭乘公共交通?今晚的電影是幾點(diǎn)的?語(yǔ)音助手幫忙實(shí)現(xiàn)日程管理及查詢,并回答常識(shí)問(wèn)題,令人著迷。而消費(fèi)電子產(chǎn)品、汽車(chē)甚至自動(dòng)呼叫中心“傾聽(tīng)”使用者的指令,已經(jīng)有數(shù)年時(shí)間。
一種能夠翻譯各種語(yǔ)言的“巴別魚(yú)”技術(shù)可能在不久的將來(lái)成為現(xiàn)實(shí),廣闊的產(chǎn)業(yè)應(yīng)用空間漸漸打開(kāi)。
《圣經(jīng)》里有一個(gè)著名的故事:人類(lèi)想上天堂,造巴別塔。上帝為阻止人類(lèi)登天,迫使人類(lèi)說(shuō)不同的語(yǔ)言。由于溝通不暢,巴別塔最終半途而廢。
有趣的是,英國(guó)作家道格拉斯·亞當(dāng)斯在其廣為流傳的科幻小說(shuō)《銀河系漫游指南》中,提及一種能聽(tīng)懂外星人語(yǔ)言的小魚(yú),名字就叫“巴別魚(yú)”(Babelfish)。
今天,智能語(yǔ)音技術(shù)的發(fā)展令“巴別魚(yú)”的出現(xiàn)變得不再科幻。
“由于大量可供實(shí)時(shí)語(yǔ)音翻譯信息資源的存在,"巴別魚(yú)"系統(tǒng)正在走進(jìn)現(xiàn)實(shí)。”人工智能專家、南安普頓大學(xué)教授奈杰爾·沙德博爾特稱,未來(lái)市場(chǎng)出現(xiàn)類(lèi)似藍(lán)牙耳機(jī)的實(shí)時(shí)翻譯工具,是“非常自然的事情”。
遠(yuǎn)不止于人與人之間,人類(lèi)和汽車(chē)、電視或者廚房電器“說(shuō)話”,也可能變得毫無(wú)障礙。智能語(yǔ)音技術(shù)正在改變我們發(fā)現(xiàn)信息的方法,相反的,它們也找到了進(jìn)入其他終端的途徑。
難怪英國(guó)媒體最近認(rèn)定:科技業(yè)下一件大事,就是智能語(yǔ)音翻譯。
⊙記者 王宙潔 ○編輯 龔維松
語(yǔ)音識(shí)別日趨精準(zhǔn)
現(xiàn)在,羅杰·凱已經(jīng)創(chuàng)辦了行業(yè)研究機(jī)構(gòu)——Endpoint技術(shù)協(xié)會(huì),但他仍然記得最初那段對(duì)機(jī)器語(yǔ)言的探索時(shí)光。
在近日的一篇專欄文章中,羅杰·凱回憶道:“喬姆斯基教授的理論依舊是我們中很多人的指路明燈。我們?cè)囍?shí)現(xiàn)語(yǔ)言模型,但僅僅發(fā)現(xiàn)這只是一個(gè)工具而已,諸多反例讓我們明白,要做的可不僅僅是模型。”
羅杰在ILA工作時(shí)的好友戴夫·巴戈特認(rèn)為,更高級(jí)的語(yǔ)言特征無(wú)法在模型里被描述,“音系學(xué)很容易理解,詞法學(xué)沒(méi)那么容易,句法就更難一點(diǎn),要理解語(yǔ)意,這幾乎沒(méi)成功過(guò)。”
事實(shí)上,對(duì)于語(yǔ)言識(shí)別的探索很早便已經(jīng)開(kāi)始。上世紀(jì)五十年代,貝爾實(shí)驗(yàn)室組裝了一套原始系統(tǒng),可以識(shí)別電話里報(bào)出的數(shù)字。盡管此后進(jìn)展算不上太快,但隨著計(jì)算技術(shù)的不斷強(qiáng)化,如今的系統(tǒng)已經(jīng)可以處理各種口音、方言和怪異的聲調(diào)。
最近幾年,這種探索在科技業(yè)熱度高升。蘋(píng)果推出的語(yǔ)音助手Siri讓iPhone 4S風(fēng)靡的同時(shí),也使得聲音識(shí)別技術(shù)為更多普通人所認(rèn)知并關(guān)注。
近日,蘋(píng)果公司又宣布推出車(chē)載iOS系統(tǒng)CarPlay,通過(guò)汽車(chē)與智能手機(jī)連接,再配合方向盤(pán)上的Siri按鈕,可實(shí)現(xiàn)電話、地圖、音樂(lè)或查看信息等功能。
而首批搭載CarPlay系統(tǒng)的汽車(chē),包括法拉利、奔馳和沃爾沃等汽車(chē)業(yè)巨頭。
外媒近日?qǐng)?bào)道稱,微軟正著力發(fā)展所謂自然交互科技,語(yǔ)音識(shí)別就是其中重要一環(huán)。
英特爾在今年1月份舉行的美國(guó)消費(fèi)電子展上就曾宣布,將在今年推出的超薄筆記本電腦Ultrabook上采用一種新的語(yǔ)音控制技術(shù)。
在這些科技業(yè)大佬的背后,有一個(gè)名字不得不提:Nuance。
不僅僅是蘋(píng)果和三星旗下的熱門(mén)智能手機(jī)產(chǎn)品,航空公司甚至是頂級(jí)銀行的自動(dòng)呼叫中心也有著它的身影。Nuance是一家語(yǔ)音識(shí)別技術(shù)公司。
研究機(jī)構(gòu)Research and Markets近期發(fā)布報(bào)告稱,語(yǔ)音識(shí)別市場(chǎng)的主流趨勢(shì)之一,是“聲音密碼”越來(lái)越廣泛地被使用。
“一般的密碼很容易被記住,但同時(shí)也容易被破解,這帶來(lái)了安全方面的威脅。”該報(bào)告說(shuō),因此各大組織開(kāi)始越來(lái)越頻繁地使用生物密碼——往常的符號(hào)被人們的聲音所代替,聲音變成密碼并作為身份認(rèn)證的依據(jù)。
更重要的是,聲音還擁有一個(gè)顯著優(yōu)點(diǎn)——無(wú)法被復(fù)制。
根據(jù)該公司的研究,這一市場(chǎng)的主要驅(qū)動(dòng)因素之一,是對(duì)基于語(yǔ)音的生物識(shí)別或身份鑒定技術(shù)的需求。但目前主要的挑戰(zhàn)就是缺乏系統(tǒng)準(zhǔn)確性。語(yǔ)音識(shí)別設(shè)備對(duì)嘈雜的環(huán)境極為敏感,這降低了準(zhǔn)確率。
不過(guò),愛(ài)爾蘭聯(lián)合銀行從2008年開(kāi)始就嘗試通過(guò)聲音來(lái)鑒定員工的身份。VoiceVault生物測(cè)定系統(tǒng)能夠捕捉“語(yǔ)音痕跡”,該系統(tǒng)能識(shí)別打電話者的聲音,而后,還可以幫助用戶進(jìn)行重置密碼等工作。
用途可不局限于幫助員工修改密碼,在此之后,越來(lái)越多的金融服務(wù)公司也開(kāi)始使用這種系統(tǒng)打擊欺詐行為。
語(yǔ)音也可以“計(jì)算”
自然輸入方法從一開(kāi)始便是個(gè)人電腦行業(yè)的一大圣杯。在創(chuàng)建公司不久后,微軟CEO比爾·蓋茨便開(kāi)始尋找除了鍵盤(pán)和鼠標(biāo)之外的,可以將數(shù)據(jù)輸入電腦的方法。
蓋茨認(rèn)為,一定有某些本質(zhì)上是“奇怪的”輸入設(shè)備,最終會(huì)被人們接受。
2010年,微軟Kinect來(lái)了,手勢(shì)輸入從此風(fēng)靡。
但是聲音難以捉摸。聲音同時(shí)可被用于控制或翻譯,不過(guò)人們對(duì)語(yǔ)音轉(zhuǎn)為文字的精確度要求極高。海外媒體稱,按照目前的技術(shù)水平,一頁(yè)有300個(gè)英文單詞的文件中,平均每頁(yè)有3個(gè)錯(cuò)誤,盡管正確率超過(guò)90%,但剩下的那小部分仍需長(zhǎng)途跋涉。
不過(guò),在羅杰·凱看來(lái),計(jì)算能力已經(jīng)變得更強(qiáng)大,語(yǔ)言數(shù)據(jù)庫(kù)也變得更加龐大。
依靠這些工具,類(lèi)似Nuance這樣的公司已經(jīng)幾乎轉(zhuǎn)向統(tǒng)計(jì)學(xué)方法。與其依靠語(yǔ)言模型這樣的老方法,商業(yè)性語(yǔ)音公司已經(jīng)開(kāi)始在他們的產(chǎn)品中采用關(guān)鍵字檢測(cè)以及基于規(guī)則的技術(shù)。
換句話說(shuō),基于資料庫(kù)和快速計(jì)算能力,它能夠確定一個(gè)單詞后面跟著某個(gè)特定單詞的幾率,而不在意語(yǔ)法聯(lián)系。
“你不必在意喬姆斯基教授語(yǔ)言和意思的結(jié)構(gòu)性,你可以用數(shù)學(xué)的方法來(lái)實(shí)現(xiàn)它。”羅杰·凱說(shuō)。
語(yǔ)音識(shí)別是第一步,之后,分析則是一項(xiàng)難度更大的工程。
盡管基于人工智能和語(yǔ)音識(shí)別的語(yǔ)音個(gè)人助手并不鮮見(jiàn),安卓平臺(tái)便同樣有類(lèi)似的程序如Voice Actions,但Siri的風(fēng)靡證明只是語(yǔ)音識(shí)別技術(shù)是不夠的,它還是一種人工智能形式,如今的系統(tǒng)還需要更強(qiáng)大的自學(xué)能力。
去年末,投資銀行Piper Jaffray的分析師設(shè)計(jì)了800道語(yǔ)音問(wèn)答題,考察蘋(píng)果Siri和谷歌Google Now的水平,結(jié)果后者獲得了進(jìn)步最快獎(jiǎng)。
不過(guò),Siri也取得了一定的進(jìn)步。就在一年前,Siri還有27%的答案來(lái)自谷歌搜索,如今這個(gè)數(shù)字已經(jīng)大幅下降到4%。
英國(guó)媒體近日發(fā)表文章指出,語(yǔ)音翻譯將成為科技業(yè)下一件大事!妒ソ(jīng)》有一個(gè)著名的故事:人類(lèi)想上天堂,造巴別塔。上帝為阻止人類(lèi)登天,所以迫使人類(lèi)說(shuō)不同的語(yǔ)言。由于溝通不暢,巴別塔最終半途而廢。但英國(guó)作家道格拉斯·亞當(dāng)斯曾在其小說(shuō)《銀河系漫游指南》中提及一種能夠聽(tīng)懂外星人語(yǔ)言的小魚(yú)“巴別魚(yú)”(Babelfish)。
如今,這種“小魚(yú)”科技的出現(xiàn)似乎變得有可能。人工智能專家、南安普頓大學(xué)教授奈杰爾·沙德博爾特稱,由于大量可供實(shí)時(shí)語(yǔ)音翻譯信息資源的存在,“巴別魚(yú)”系統(tǒng)正在走進(jìn)現(xiàn)實(shí),未來(lái)市場(chǎng)出現(xiàn)類(lèi)似藍(lán)牙耳機(jī)的實(shí)時(shí)翻譯工具是非常自然的事情。
在四、五年前,谷歌便開(kāi)始研發(fā)語(yǔ)音翻譯軟件,時(shí)任機(jī)器翻譯總裁的弗朗茲·歐克認(rèn)為,實(shí)現(xiàn)語(yǔ)音翻譯是有可能的。他們?cè)谙蛑屵@種服務(wù)運(yùn)行流暢的方向努力,并且還需要結(jié)合高精度的機(jī)器翻譯和高精度的語(yǔ)音識(shí)別。
Google Now就是語(yǔ)音識(shí)別加人工智能技術(shù)最好的例證——它幫助用戶通過(guò)語(yǔ)音識(shí)別技術(shù)進(jìn)行網(wǎng)絡(luò)搜索。
谷歌搜索工程部副總裁斯科特·霍夫曼說(shuō),搜索領(lǐng)域目前正努力實(shí)現(xiàn)的是,根據(jù)用戶的聲音準(zhǔn)確理解“用戶想要什么”,并給出符合需求的答案。
據(jù)海外媒體報(bào)道,谷歌已經(jīng)構(gòu)筑了與人、地區(qū)、事件相關(guān)的數(shù)據(jù)庫(kù)“知識(shí)圖譜”等,因此語(yǔ)音搜索方式的實(shí)現(xiàn)指日可待。
而依靠一種名為語(yǔ)音輸入應(yīng)用程序接口工具,谷歌旗下的瀏覽器Chrome 11 Beta版已經(jīng)可以理解用戶所說(shuō)的話。
下一步:搶奪更多入口
語(yǔ)音識(shí)別技術(shù)市場(chǎng)正在走向競(jìng)爭(zhēng)激烈的十字路口。
海外媒體預(yù)計(jì),隨著語(yǔ)音識(shí)別將取代輸入、鍵盤(pán)、寫(xiě)字和觸摸,成為人機(jī)互動(dòng)最主要的界面,語(yǔ)音技術(shù)將遍布世界各個(gè)角落。
研究機(jī)構(gòu)BCC曾發(fā)布報(bào)告預(yù)測(cè),全球語(yǔ)音識(shí)別市場(chǎng)的規(guī)模到2017年會(huì)達(dá)到1130億美元,五年復(fù)合年增長(zhǎng)率高達(dá)16.2%。
該機(jī)構(gòu)認(rèn)為,語(yǔ)音識(shí)別市場(chǎng)將分化為三大終端市場(chǎng):企業(yè)、消費(fèi)者以及健康保健。
在這其中,企業(yè)終端的市場(chǎng)規(guī)模將在2017年達(dá)到422億美元,復(fù)合年增長(zhǎng)率為15.9%;消費(fèi)者終端則將以17.2%的五年復(fù)合年增長(zhǎng)率,在2017年達(dá)到651億美元的規(guī)模;健康保健終端在2017年的規(guī)模則將達(dá)到59億美元,復(fù)合年增長(zhǎng)率為9.4%。
語(yǔ)音識(shí)別系統(tǒng)Nuance公司是語(yǔ)音識(shí)別軟件Dragon的開(kāi)發(fā)者,這款軟件在醫(yī)療保健行業(yè)的應(yīng)用已經(jīng)長(zhǎng)達(dá)十年之久。
當(dāng)病人前去看病時(shí),內(nèi)科醫(yī)生的桌面上運(yùn)行Nuance的軟件,它便可以利用一個(gè)夾式微型話筒來(lái)錄音。隨著問(wèn)診的推進(jìn),這款軟件會(huì)及時(shí)更新病人的電子健康記錄。
未來(lái)的語(yǔ)音識(shí)別功能也可以幫音樂(lè)愛(ài)好者大忙:用戶可以通過(guò)口述歌曲或歌手的名字進(jìn)行點(diǎn)播,并且它會(huì)記住用戶的喜好。
臉譜網(wǎng)曾收購(gòu)一家語(yǔ)音識(shí)別和語(yǔ)言翻譯應(yīng)用程序制造商Mobile科技公司。該公司旗下?lián)碛兄苿?dòng)應(yīng)用程序Jibbigo Translator,這款應(yīng)用可以自動(dòng)翻譯超過(guò)20種語(yǔ)言。
有分析稱,MT的技術(shù)確實(shí)能夠幫助臉譜網(wǎng)做許多事情,包括在未來(lái)實(shí)現(xiàn)跨語(yǔ)言聊天、旅行者語(yǔ)音翻譯和信息流即時(shí)翻譯等。此外,還有可能幫助臉譜網(wǎng)實(shí)現(xiàn)語(yǔ)音圖譜搜索。
汽車(chē)領(lǐng)域同樣是語(yǔ)音識(shí)別技術(shù)的重要陣地。
寶馬汽車(chē)已經(jīng)開(kāi)始提供語(yǔ)音識(shí)別服務(wù),通過(guò)數(shù)據(jù)中心進(jìn)行實(shí)時(shí)處理,轉(zhuǎn)換為文本并通過(guò)郵件發(fā)送,司機(jī)不需要?jiǎng)邮直憧梢酝瓿蛇@一系列動(dòng)作。
有報(bào)道稱,蘋(píng)果正致力于允許第三方服務(wù)與Siri進(jìn)行整合,以便使其智能手機(jī)上的數(shù)字助手能執(zhí)行除本公司外的各項(xiàng)服務(wù),例如預(yù)訂航班和酒店,餐廳訂座,或在其他短信應(yīng)用中發(fā)送文本等。
面對(duì)來(lái)自Google Now和微軟愈發(fā)激烈的競(jìng)爭(zhēng),蘋(píng)果被認(rèn)為必須要升級(jí)Siri的功能。甚至有曝料稱,連語(yǔ)音識(shí)別公司Nuance也在提升其自己的數(shù)字助理Wintermute搜索各種第三方應(yīng)用程序的能力。
不難想象,不久的將來(lái),可穿戴腕表、頭戴式終端、汽車(chē)、電視機(jī)甚至是襪子或是襯衫,所有物體都有望作為網(wǎng)絡(luò)終端使用,而通過(guò)語(yǔ)音提取所需信息的搜索和助手功能,將使這些終端更緊密地聯(lián)系并讀懂人類(lèi)的需求。
數(shù)說(shuō)科技
投資銀行Piper Jaffray的分析師設(shè)計(jì)了800道語(yǔ)音問(wèn)答題,考察蘋(píng)果Siri和谷歌Google Now的水平,結(jié)果后者獲得了進(jìn)步最快獎(jiǎng)。不過(guò),蘋(píng)果語(yǔ)音智能助手Siri也取得了一定的進(jìn)步。在此一年前,Siri還有27%的答案來(lái)自谷歌搜索,如今這個(gè)數(shù)字已經(jīng)大幅下降到4%
聲音可被用于控制或是翻譯,但是人們對(duì)語(yǔ)音轉(zhuǎn)為文字的精確度要求極高。按照目前的技術(shù)水平,一頁(yè)有300個(gè)英文單詞的文件中,平均每頁(yè)有三個(gè)錯(cuò)誤,盡管正確率超過(guò)90%,但剩下的那小部分仍需長(zhǎng)途跋涉
投資銀行Piper Jaffray的分析師設(shè)計(jì)了800道語(yǔ)音問(wèn)答題,考察蘋(píng)果Siri和谷歌Google Now的水平,結(jié)果后者獲得了進(jìn)步最快獎(jiǎng)。不過(guò),蘋(píng)果語(yǔ)音智能助手Siri也取得了一定的進(jìn)步。在此一年前,Siri還有27%的答案來(lái)自谷歌搜索,如今這個(gè)數(shù)字已經(jīng)大幅下降到4%
研究機(jī)構(gòu)BCC發(fā)布報(bào)告預(yù)測(cè),全球語(yǔ)音識(shí)別市場(chǎng)的規(guī)模到2017年會(huì)達(dá)到1130億美元,五年復(fù)合年增長(zhǎng)率高達(dá)16.2%。該機(jī)構(gòu)認(rèn)為,語(yǔ)音識(shí)別市場(chǎng)將分化為三大終端市場(chǎng):企業(yè)、消費(fèi)者以及健康保健
其中,企業(yè)終端的市場(chǎng)規(guī)模將在2017年達(dá)到422億美元,復(fù)合年增長(zhǎng)率為15.9%;消費(fèi)者終端則將以17.2%的五年復(fù)合年增長(zhǎng)率,在2017年達(dá)到651億美元的規(guī)模;健康保健終端在2017年的規(guī)模則將達(dá)到59億美元,復(fù)合年增長(zhǎng)率為9.4%
臉譜網(wǎng)曾收購(gòu)一家語(yǔ)音識(shí)別和語(yǔ)言翻譯應(yīng)用程序制造商 Mobile Technologies,該公司旗下?lián)碛兄囊苿?dòng)應(yīng)用程序Jibbigo Translator,這款應(yīng)用可以自動(dòng)翻譯超過(guò)20種語(yǔ)言。有分析稱,MT的技術(shù)確實(shí)能夠幫助臉譜網(wǎng)做許多事情,包括在未來(lái)實(shí)現(xiàn)跨語(yǔ)言聊天、旅行者語(yǔ)音翻譯和信息流即時(shí)翻譯等