_ti
2001/03/23
從古老的“芝麻開(kāi)門”傳說(shuō)開(kāi)始,人類就一直幻想著用語(yǔ)言去征服和改造自然。伴隨新技術(shù)的不斷發(fā)展,人類的這一夢(mèng)想正在逐步實(shí)現(xiàn)。誰(shuí)能預(yù)知中文語(yǔ)音識(shí)別技術(shù)究竟能給我們帶來(lái)什么樣的應(yīng)用前景?技術(shù)與應(yīng)用又將是怎樣的一種互動(dòng)關(guān)系呢?
對(duì)話者:
主 持 人:王向東 《計(jì)算機(jī)世界》報(bào)記者
IT 廠 商:沈鱇騏 言豐科技有限公司(中國(guó)區(qū))總經(jīng)理
用 戶: 黃富清 北京京信北斗信息服務(wù)中心262信息臺(tái)總經(jīng)理
對(duì)話主題:中文語(yǔ)音識(shí)別技術(shù)的應(yīng)用將帶來(lái)什么樣的商機(jī)?
主持人:昨天,人類對(duì)技術(shù)孜孜不倦的追求,總能不斷帶動(dòng)應(yīng)用的腳步。今天,語(yǔ)音識(shí)別技術(shù)的商業(yè)應(yīng)用正在引起人們的廣泛關(guān)注,因?yàn)樗鼘⒁粤钊穗y以置信的擴(kuò)張力量改變我們的工作和生活。語(yǔ)音識(shí)別技術(shù)已發(fā)展到何種階段?它未來(lái)的應(yīng)用目標(biāo)是什么?
人機(jī)交互突破瓶頸
主持人:新技術(shù)轉(zhuǎn)化為生產(chǎn)力的核心是應(yīng)用,而同樣的技術(shù)未必能得到同樣的應(yīng)用效果。比如說(shuō)電腦,中國(guó)人使起來(lái)就是不如美國(guó)人方便,輸入方式是最大的瓶頸。從五筆字型到漢王手寫(xiě)輸入,再到最近的筆輸入,都是在努力讓中國(guó)人實(shí)現(xiàn)同電腦更方便地交流。當(dāng)然,還有一種技術(shù)可以使不同國(guó)家的人同電腦保持同樣的距離,這就是語(yǔ)音識(shí)別技術(shù)。只有通過(guò)這項(xiàng)技術(shù)人們才能同樣享受到電腦科技的無(wú)窮魅力。包括IBM、飛利浦等一些知名企業(yè)都在不斷挑戰(zhàn)語(yǔ)音識(shí)別技術(shù)這一難題。言豐科技是否也屬于這支隊(duì)伍中的一員?從應(yīng)用的角度去看問(wèn)題,語(yǔ)音識(shí)別技術(shù)要攻克的瓶頸是什么?
沈鱇騏:從技術(shù)的角度來(lái)看,目前語(yǔ)音識(shí)別技術(shù)有三個(gè)研究發(fā)展方向,即電腦、電話和手機(jī)三個(gè)不同的應(yīng)用領(lǐng)域。第一個(gè)是電腦的語(yǔ)音錄入應(yīng)用,就是電腦能夠把人們所說(shuō)的話記錄下來(lái),解決文字輸入的問(wèn)題;第二個(gè)是電話的語(yǔ)音識(shí)別應(yīng)用,就是借助通信平臺(tái)實(shí)現(xiàn)語(yǔ)音技術(shù)的更廣泛應(yīng)用;第三個(gè)是手機(jī)的語(yǔ)音識(shí)別應(yīng)用,就是嵌入式的語(yǔ)音識(shí)別技術(shù),實(shí)現(xiàn)手機(jī)、尋呼機(jī)在移動(dòng)通信中的語(yǔ)音識(shí)別應(yīng)用。我個(gè)人認(rèn)為,五到十年以后,上述三個(gè)方向?qū)?huì)走到一起來(lái)。
目前,IBM主要是在第一項(xiàng)電腦語(yǔ)音錄入方面取得了重大的突破,而言豐科技所研究的領(lǐng)域主要是在第二項(xiàng),如何通過(guò)通信平臺(tái)實(shí)現(xiàn)語(yǔ)音識(shí)別技術(shù)的廣泛商業(yè)應(yīng)用。這兩者在技術(shù)領(lǐng)域和應(yīng)用領(lǐng)域都有著較大的差別:首先是語(yǔ)音信號(hào)的采集方式不同。電腦錄入對(duì)語(yǔ)音質(zhì)量的要求比較嚴(yán)格,而電話采集的語(yǔ)音質(zhì)量就比較差;其次是自然語(yǔ)言和非自然語(yǔ)言的區(qū)別,電腦錄入使用的是非自然語(yǔ)言,需要對(duì)電腦進(jìn)行特殊的培訓(xùn)才能使用。而電話是自然語(yǔ)言,因?yàn)槟銦o(wú)法預(yù)知是誰(shuí)打來(lái)的電話,是男是女、是何種口音;第三個(gè)不同在于字庫(kù)量,電腦錄入的難度是詞匯量非常巨大,要盡可能包容任何可能出現(xiàn)的詞匯,這也是電腦錄入在技術(shù)上的難題。而基于通信平臺(tái)的語(yǔ)音識(shí)別應(yīng)用是有一定范圍的,它所涉及的詞匯量是可以控制的。由此可以看出,兩種語(yǔ)音識(shí)別技術(shù)將在不同的應(yīng)用方面發(fā)揮不同的作用。
言豐科技研發(fā)的語(yǔ)音識(shí)別技術(shù)所要達(dá)到的應(yīng)用目標(biāo)是:通過(guò)自然的語(yǔ)言交流,實(shí)現(xiàn)人機(jī)交互式的對(duì)話形式,使電腦能理解我們的語(yǔ)言,并按照我們的指示去工作。這一目標(biāo)的實(shí)現(xiàn)將會(huì)給人類的工作和生活帶來(lái)質(zhì)的變化,同時(shí)將產(chǎn)生巨大的商業(yè)價(jià)值。因此,今天基于通信平臺(tái)的語(yǔ)音識(shí)別技術(shù)的商業(yè)應(yīng)用已為眾多的企業(yè)所關(guān)注。那么為什么語(yǔ)音識(shí)別技術(shù)應(yīng)用會(huì)突然熱起來(lái)呢?我認(rèn)為是技術(shù)的發(fā)展在一定階段時(shí)打破了應(yīng)用的瓶頸,從而帶來(lái)了應(yīng)用的進(jìn)步。因?yàn)檎Z(yǔ)音識(shí)別是一項(xiàng)難度很大的技術(shù),里面的算法非常復(fù)雜,對(duì)CPU的要求也非常高,過(guò)去應(yīng)用的條件不具備。而近兩年CPU發(fā)展很快,而語(yǔ)音識(shí)別中的算法也日益精湛,兩者有機(jī)地集成在一起后,應(yīng)用的條件就日趨成熟?梢灶A(yù)見(jiàn),隨著技術(shù)的快速發(fā)展,再過(guò)10~20年的時(shí)間,我們將可以做到非常自然的人機(jī)交互式對(duì)話。
技術(shù)應(yīng)用互為依存
主持人:技術(shù)和應(yīng)用是一對(duì)矛盾,他們互為瓶頸、互為動(dòng)力,語(yǔ)音識(shí)別技術(shù)也應(yīng)體現(xiàn)這一客觀規(guī)律。具體在實(shí)際發(fā)展中,語(yǔ)音識(shí)別技術(shù)與應(yīng)用是如何相互作用的?
黃富清:我們?cè)趯?shí)踐中對(duì)技術(shù)與應(yīng)用的體會(huì)還是很深的。因?yàn)槲覀冮_(kāi)辦的信息臺(tái)屬于高科技類的經(jīng)營(yíng)模式,這決定了它必須采用比較先進(jìn)的網(wǎng)絡(luò)技術(shù)和語(yǔ)音識(shí)別技術(shù),才能夠?yàn)橛脩籼峁└哔|(zhì)量的服務(wù)。262信息臺(tái)也正是通過(guò)積極采用新技術(shù)提供新服務(wù),從而獲得了可觀的經(jīng)濟(jì)效益。比如說(shuō),信息臺(tái)的起步就是建立在20世紀(jì)90年代應(yīng)用先進(jìn)的語(yǔ)音卡技術(shù)的基礎(chǔ)上,通過(guò)這塊語(yǔ)音卡開(kāi)發(fā)出了多種語(yǔ)音服務(wù)系統(tǒng),從而提供了無(wú)人值守電話、股票信息自動(dòng)查詢系統(tǒng)、電話自動(dòng)點(diǎn)歌系統(tǒng)等多項(xiàng)服務(wù)。那時(shí)候買一塊語(yǔ)音卡要花4萬(wàn)多元,加上軟件開(kāi)發(fā)費(fèi)總共需要11萬(wàn)多元。但是我們幾天就能掙回來(lái),因?yàn)榇螂娫挷樵兊娜颂貏e多。當(dāng)時(shí)股票炒得火,電話查詢又非常方便,滿足了廣大股民的實(shí)際需求。
正是新技術(shù)給我們帶來(lái)了應(yīng)用的提高和實(shí)際的收益,但同時(shí)技術(shù)的瓶頸又成為應(yīng)用進(jìn)一步發(fā)展的攔路石。由于語(yǔ)音技術(shù)幾年沒(méi)有進(jìn)一步發(fā)展,信息臺(tái)的業(yè)務(wù)也因技術(shù)的限制而無(wú)法跳躍性地向前發(fā)展。舉例而言,用戶今天要通過(guò)信息臺(tái)查詢股票行情,需要在電話上操作很多鍵,要通過(guò)幾層、十幾層甚至幾十層,才能找到自己想要的東西。用戶要想查詢某支股票,首先要選擇按鍵1(上海)和按鍵2(深圳),其次要查詢多少號(hào)的股票,第三再查詢1(總指數(shù))、2(收盤價(jià))、3(現(xiàn)在價(jià))等等。
這種查詢方式非常繁鎖,很不方便,用戶多數(shù)是查到第四層就不愿再繼續(xù)往下聽(tīng)了。有的用戶聽(tīng)著聽(tīng)著就糊涂了,或者是聽(tīng)了半天也沒(méi)有找到自己想要的東西。用戶普遍對(duì)這種水平的服務(wù)越來(lái)越不滿意,F(xiàn)在移動(dòng)局的手機(jī)短信息服務(wù)也遇到這個(gè)問(wèn)題,用戶發(fā)了半天最后按錯(cuò)了,就得重來(lái),可是費(fèi)用還要照交,用戶對(duì)此非常有意見(jiàn)。
這里面就涉及了技術(shù)與應(yīng)用的關(guān)系問(wèn)題,用戶進(jìn)入了信息查詢系統(tǒng)就應(yīng)該交費(fèi)了,可是用戶又沒(méi)能得到自己真正想要的服務(wù)。這就是因?yàn)榧夹g(shù)不完善,不能滿足今天用戶的需求,如果技術(shù)不能向前發(fā)展,應(yīng)用水平不能進(jìn)一步提高,原有的低水平服務(wù)將逐步被用戶所淘汰。所以,我們對(duì)任何能帶來(lái)新應(yīng)用的新技術(shù)都非常關(guān)注,只要它能提高我們?cè)械姆⻊?wù)水平,我們就會(huì)積極地應(yīng)用它。現(xiàn)在光靠改善服務(wù)態(tài)度是不能從根本上提高服務(wù)質(zhì)量,只有在技術(shù)上有新的突破。
沈鱇騏:的確如此,技術(shù)與應(yīng)用是密不可分的關(guān)系。言豐科技所推動(dòng)的基于通信平臺(tái)的語(yǔ)音識(shí)別技術(shù),已超越了電話按鍵層層查詢的應(yīng)用時(shí)代,已可以做到通過(guò)電話與電腦交談。比如說(shuō)我想查今天的股價(jià),電腦已經(jīng)可以根據(jù)你的語(yǔ)音提示,自動(dòng)找尋并報(bào)出股價(jià)給你聽(tīng),電腦的語(yǔ)言識(shí)別系統(tǒng)已可以理解用戶要查詢的內(nèi)容。這里面包含著一個(gè)關(guān)鍵的自動(dòng)化技術(shù),使電腦可以從數(shù)據(jù)庫(kù)里找出你所需要的東西,在一定范圍里,我們已能夠做到人機(jī)交流了。這就為下一步推動(dòng)商業(yè)應(yīng)用奠定了更堅(jiān)實(shí)的技術(shù)基礎(chǔ)。
我們現(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)還有一定的局限性,還不能自然到像人與人交談一樣。比如說(shuō)“幫我看一下北京今天的航班情況”,這句話本是很自然的語(yǔ)言,但要從語(yǔ)音識(shí)別的角度來(lái)看,我們要做出很多改進(jìn),從硬件到軟件。我們認(rèn)為還需要十年、二十年才能真正達(dá)到人與電腦用自然的語(yǔ)言交談。那么為什么我們今天就把現(xiàn)有語(yǔ)音識(shí)別技術(shù)拿出來(lái)用呢?是因?yàn)槲覀円芽吹皆诤芏鄳?yīng)用領(lǐng)域,在一定的可控制范圍之內(nèi),現(xiàn)有的語(yǔ)音識(shí)別技術(shù)已足夠推動(dòng)應(yīng)用水平向前邁進(jìn)一步,它會(huì)給用戶帶來(lái)效益上的提高。
從目前我們的理解,從語(yǔ)音識(shí)別技術(shù)應(yīng)用角度來(lái)說(shuō),這項(xiàng)技術(shù)還遠(yuǎn)未達(dá)到應(yīng)用的熱潮。我們認(rèn)為真正的熱潮還要一年到兩年時(shí)間,一來(lái)是需要培育市場(chǎng),接受新觀念;二來(lái)是改善應(yīng)用環(huán)境,包括技術(shù)環(huán)境、市場(chǎng)環(huán)境,無(wú)論是電腦平臺(tái)還是通信平臺(tái),都有一個(gè)逐步淘汰和更新的過(guò)程。此外,還有一個(gè)語(yǔ)音特征數(shù)據(jù)庫(kù)的積累,這個(gè)積累過(guò)程沒(méi)有任何捷徑可走,只有從大量的語(yǔ)音量中提取相同的語(yǔ)音特征,才能真正產(chǎn)生成熟的應(yīng)用。
語(yǔ)音門戶商機(jī)無(wú)限
主持人:語(yǔ)音識(shí)別技術(shù)在不斷進(jìn)步,這項(xiàng)技術(shù)所帶來(lái)的商業(yè)應(yīng)用也將日益廣泛。那么,經(jīng)過(guò)未來(lái)10年或20年發(fā)展,技術(shù)與應(yīng)用的成熟將會(huì)產(chǎn)生什么樣的結(jié)果?語(yǔ)音識(shí)別技術(shù)近期可以實(shí)現(xiàn)的應(yīng)用目標(biāo)是什么?
黃富清:作為用戶,我深深地感受到技術(shù)向前發(fā)展一步,就會(huì)促進(jìn)生產(chǎn)力向前發(fā)展,而且它的經(jīng)濟(jì)效益可能是成幾十倍往上增長(zhǎng)。同樣,我們?nèi)绻捎昧艘粋(gè)好的新技術(shù),下個(gè)月的收入會(huì)成倍往上增長(zhǎng)。從現(xiàn)實(shí)情況來(lái)看,從語(yǔ)音卡到軟件開(kāi)發(fā)有局限性,一層一層往下分,如果信息量大了,內(nèi)容太多了,服務(wù)就沒(méi)法做了。從我的經(jīng)驗(yàn)看,如果技術(shù)應(yīng)用穩(wěn)定在一個(gè)水平上,客戶卻不是穩(wěn)定在同一水平上,而是在下降。因?yàn)槟憧倹](méi)有新東西,客戶就會(huì)不滿意了,就可能轉(zhuǎn)向一個(gè)更新更好的應(yīng)用平臺(tái)。
所以,我們?nèi)ツ?月發(fā)現(xiàn)言豐科技的語(yǔ)音識(shí)別技術(shù)之后,覺(jué)得非常了不起。應(yīng)用言豐的技術(shù)之后,我們就可以打破很多原有的限制,用戶可以比原來(lái)更方便地進(jìn)行人機(jī)交流,比原來(lái)按鍵方式方便、快捷多了;用戶滿意多了,愛(ài)用的人多了,我們的企業(yè)效益也隨之提高了。
沈鱇騏:我個(gè)人認(rèn)為,語(yǔ)音識(shí)別技術(shù)的發(fā)展是一個(gè)環(huán)環(huán)相扣的關(guān)系,由于語(yǔ)音識(shí)別技術(shù)所借助的很多基礎(chǔ)性技術(shù)也在不斷發(fā)展、變化,使得語(yǔ)音技術(shù)所要攻克的目標(biāo)也在不斷發(fā)展變化。所以我們把語(yǔ)音識(shí)別技術(shù)定位在應(yīng)用技術(shù),底層的技術(shù)平臺(tái)搭得越高,應(yīng)用層次的技術(shù)就開(kāi)始發(fā)生變化。從用戶的角度來(lái)看,你可以通過(guò)運(yùn)用語(yǔ)音技術(shù)去進(jìn)行企業(yè)的改造或企業(yè)的服務(wù),然后再把更好的服務(wù)提供給更廣泛的終端用戶。
如何把電話語(yǔ)音系統(tǒng)跟Internet和商務(wù)結(jié)合起來(lái)?電話在全球有1.7億部,應(yīng)用基礎(chǔ)非常廣泛,為此,我們?cè)谥袊?guó)推出了語(yǔ)音門戶平臺(tái)新理念,分為電信級(jí)的語(yǔ)音門戶平臺(tái)和企業(yè)級(jí)的語(yǔ)音門戶平臺(tái)。目的是通過(guò)它為個(gè)人、企業(yè)和電信行業(yè)提供更好的語(yǔ)音識(shí)別技術(shù)服務(wù)?梢韵胂褚幌,當(dāng)某一天您開(kāi)車上班時(shí),可以用語(yǔ)音控制開(kāi)關(guān)車門、車?yán)锏囊繇憽⑹謾C(jī);到辦公室后也是用語(yǔ)音指揮收發(fā)電子郵件、收發(fā)傳真、查詢電話錄音、制定工作計(jì)劃、篩選有效信息,以及用語(yǔ)音預(yù)訂機(jī)票、午餐、查詢交易股票等等。總之,通過(guò)開(kāi)發(fā)與推動(dòng)多語(yǔ)種交談式語(yǔ)音識(shí)別技術(shù)在最普及的電話及無(wú)線電話中的應(yīng)用,可以使有用、準(zhǔn)確、及時(shí)的信息在任何時(shí)間、任何地點(diǎn)提供給需要它的任何客戶。那時(shí),語(yǔ)音識(shí)別技術(shù)將真正幫助人類用語(yǔ)言打開(kāi)改變世界之門。