首頁>>廠商>>語音識別與合成>> 北京無限商機

語音互聯(lián)再造Internet

2001/10/22


  VoiceXML引爆語音互聯(lián)


  VoiceXML(語音可擴展標記語言)是由IBM、Lucent、Motorola、AT&T四家國際巨型公司于2000年提出的一種應(yīng)用于語音瀏覽的標記語言,它建立于XML標記語言規(guī)范的基礎(chǔ)之上,是下一代互聯(lián)網(wǎng)(Internet2)交互語音應(yīng)用的核心。它可以與數(shù)據(jù)庫、HTML、WML以及其它文檔處理和發(fā)布系統(tǒng)進行無縫資料交換,突破性地實現(xiàn)互聯(lián)網(wǎng)與電話網(wǎng)的融合,為語音應(yīng)用領(lǐng)域展現(xiàn)出一個更為廣闊的未來。目前VoiceXML已被W3C組織接受為國際工業(yè)標準。

  VoiceXML的主要特點是通過語音輸入和音頻輸出支持人機對話;赩oiceXML的語音瀏覽機制與語音識別、語音合成技術(shù)、智能文字信息處理技術(shù)相結(jié)合,人們就可以通過電話或移動電話以自然友好的語音形式訪問互聯(lián)網(wǎng),實現(xiàn)個人和商業(yè)服務(wù)的語音應(yīng)用。

  1999年,AT&T、IBM、Lucent和Motorola等公司組成了VoiceXML論壇(www.voicexml.org),討論所涉及的主要內(nèi)容,包括將VoiceXML確定為通過話音和電話利用Internet內(nèi)容的標準、用VoiceXML解釋程序取代HTML解釋程序,以及用人的語音取代鼠標和鍵盤等。由于VoiceXML技術(shù)和語音技術(shù)的快速發(fā)展,已經(jīng)有150多家公司和組織加入了VoiceXML論壇,其中包括一些非常有名的通信公司,積極支持和推動基于VoiceXML的應(yīng)用。

  在標準的統(tǒng)一與開放方面,中文VoiceXML已與國際標準完全接軌。由21家通信行業(yè)領(lǐng)頭單位共同倡導成立的“中國互聯(lián)網(wǎng)移動應(yīng)用協(xié)議特別組”(CMIS)中文&漢語專家組,已提出了基于VoiceXML的應(yīng)用系統(tǒng)規(guī)范提綱,標志著中文VoiceXML語音技術(shù)應(yīng)用標準正在逐步醞釀和推進。北京無限商機通信技術(shù)有限公司和中國網(wǎng)通是移動互聯(lián)網(wǎng)交互式語音應(yīng)用技術(shù)標準及產(chǎn)品規(guī)范課題的主承擔單位,承擔單位同時包括中國電信、中國移動、Intel、Nokia、Motorola、中電東方通信、億陽信通、北京郵電大學等。


  超凡誘惑:會說話就能上網(wǎng)


  電話是最為普及的通信工具。世界上現(xiàn)在有10億電話終端,另外,有超過2億的移動電話用戶。從絕對數(shù)量上看,個人計算機的數(shù)量遠遠低于電話終端的數(shù)量。目前,我國的PC上網(wǎng)用戶不過2000多萬,而固定電話和移動電話用戶是PC用戶的10多倍,且增長勢頭迅猛。而且,在眾多國內(nèi)固定電話和移動電話用戶中,不懂或不熟悉鍵盤操作的用戶占4/5。移動通信終端的小鍵盤、小屏幕更是移動互聯(lián)網(wǎng)發(fā)展的最大障礙。

  另一方面,語音是人類最原始最有效的交流方式。人有70%的信息是通過聽來獲取的,而90%的信息是通過說來表達的。語音是人們詢問問題、交換觀念、分享經(jīng)驗和建立關(guān)系的最主要的方式。

  通過電話來上網(wǎng),以“說話”來代替鍵盤輸入,只要撥一個電話,就可以上網(wǎng)查股票、“聽”新聞、收郵件、叫出租車,對于許多不懂電腦或由于各種原因無法使用電腦上網(wǎng)的人來說,這無疑是一個夢想。而現(xiàn)在,這個夢想可以通過語音瀏覽技術(shù)得以實現(xiàn)。

  在國外,以Tellme.com和Nuance 、SpeechWorks為代表的企業(yè)異軍突起,倡導人性化的語音上網(wǎng)服務(wù),隨后TellmeNetworks、Yahoo!、Lycos和AOL等公司都相繼推出了語音門戶網(wǎng)站。國內(nèi)的TOM.COM也于去年11月底推出了“TOM及時語”語音門戶網(wǎng)站。繼PC、WAP手機上網(wǎng)之后,語音上網(wǎng)將掀起第三次上網(wǎng)浪潮。


  語音瀏覽:語音互聯(lián)的核心


  通過電話來“聽”網(wǎng)上的信息的前提是需要一個公共語言。建立于XML標記語言規(guī)范基礎(chǔ)之上的VoiceXML(語音可擴展標記語言),可以與數(shù)據(jù)庫、HTML、WML以及其它文檔處理和發(fā)布系統(tǒng)進行無縫資料交換,突破性地實現(xiàn)互聯(lián)網(wǎng)與電話網(wǎng)的融合。通過VoiceXML,可以像建立HTML的Web 應(yīng)用一樣輕松地建立語音應(yīng)用系統(tǒng)。

  用戶想知道某公司的當前股價,就打電話到提供該服務(wù)的公司。電話網(wǎng)上傳來的聲音信息通過DN URL的映射,到達了該網(wǎng)站的VoiceXML服務(wù)器。聲音信息要與互聯(lián)網(wǎng)上的文本信息很好地結(jié)合起來,實現(xiàn)快速自動交換,這就需要一個解析器,把文本、語音、圖像的數(shù)據(jù)以一個統(tǒng)一格式快速交換。在此基礎(chǔ)上,需要通過瀏覽器來接受用戶的請求,找出用戶所需要的內(nèi)容,然后再把內(nèi)容呈現(xiàn)給用戶,如圖1所示。

  Internet的核心是瀏覽。語音瀏覽技術(shù),類似于互聯(lián)網(wǎng)上的Web瀏覽技術(shù),它以一種XML標記語言為數(shù)據(jù)載體,通過各種網(wǎng)絡(luò)數(shù)據(jù)傳輸協(xié)議,而以Client/Server的方式為語音瀏覽器所解析,通過語音的方式呈現(xiàn)給用戶。這類似于Web與IE瀏覽器的概念,只不過IE以圖像的方式在顯示器上將信息呈現(xiàn)出來,而語音瀏覽器以語音的方式在電話、手機或其它語音手持設(shè)備的通道中呈現(xiàn)。IE接受用戶的鼠標和鍵盤指令,而語音瀏覽器接受用戶的說話為指令。語音瀏覽器通過解析VoiceXML,與語音識別和語音合成等方式進行人機交互,從而實現(xiàn)說話就可以上網(wǎng)的夢想。

  2001年6月,由北京無限商機通信技術(shù)有限公司與北京郵電大學CTI中心聯(lián)合研制的VoiceXML中文語音瀏覽器通過了中國電信、中國移動、中國聯(lián)通、中國網(wǎng)通、信息產(chǎn)業(yè)部郵電科技委、北京郵電大學、IBM公司專家的聯(lián)合權(quán)威技術(shù)鑒定。這是國內(nèi)首家研制成功的VoiceXML中文語音瀏覽器,它由VoiceXML解析器、語音識別引擎、語音合成引擎和語音通道等部分組成。

  VoiceXML解析器 VoiceXML解析器在語音瀏覽器中擔負控制中心的角色。VoiceXML解析器通過網(wǎng)絡(luò)協(xié)議,獲取VoiceXML腳本語言所描述的應(yīng)用文檔,解析該應(yīng)用文檔和其中各個標志(Tag ),產(chǎn)生相應(yīng)的控制命令。

  語音識別引擎 語音識別引擎是VoiceXML語音瀏覽器的生命力所在。語音識別使計算機能理解用戶的語音命令,產(chǎn)生相應(yīng)的文字結(jié)果,送回VoiceXML解析器作處理。在VoiceXML語音瀏覽器中,語音識別引擎為命令式的識別引擎,它根據(jù)有限的語法(Grammar)來識別用戶的語音信號,產(chǎn)生對應(yīng)語法定義的識別結(jié)果。在VoiceXML語音瀏覽器中,語法決定了用戶能說什么、如何說。好的語法能帶給用戶良好的交互感覺,也能從邏輯上提高語音識別引擎的識別率,使整個語音應(yīng)用的瀏覽流暢而輕松。

  圖1 語音互聯(lián)拓撲結(jié)構(gòu)圖

  語音合成引擎 語音合成引擎將文字轉(zhuǎn)換為語音信號,并通過語音通道播放給用戶。VoiceXML 語音合成引擎可以將文字轉(zhuǎn)換成語音文件,也可以轉(zhuǎn)換成語音數(shù)據(jù)流,或者將已事先錄制好的語音文件直接播放或者以流的方式播放給語音通道。語音合成引擎把文字轉(zhuǎn)化為聲音的品質(zhì),決定了用戶對系統(tǒng)的直接感覺。

  語音通道 語音通道是傳輸用戶的語音數(shù)據(jù)信號和合成引擎所產(chǎn)生的聲音數(shù)據(jù)信號的傳遞通道,它連接語音采集和播放設(shè)備、語音識別引擎的語音輸入端、語音合成引擎的語音輸出端。


  語音互聯(lián):驅(qū)動產(chǎn)業(yè)價值鏈


  到2001年,全球?qū)⒂?0億多部電話投入使用,任何企業(yè)都不應(yīng)該置身于這些用戶視線之外。語言互聯(lián)將從根本上改變企業(yè)與用戶“溝通”的方式,以及用戶與企業(yè)互動的方式。

  語音互聯(lián)網(wǎng)將最終形成由語音技術(shù)開發(fā)商-應(yīng)用/內(nèi)容提供商-語音服務(wù)提供商-電信運營商-終端廠商組成的產(chǎn)業(yè)價值鏈(見圖2)。

  北京無限商機通信技術(shù)有限公司總裁廖杰遠先生認為,形成一個良性的產(chǎn)業(yè)鏈的前提,就是必須有一個非常清晰的盈利模式。語音互聯(lián)一開始就明確定位為電信的增值業(yè)務(wù)。而一項新的增值業(yè)務(wù)能否取得成功,取決于是否有一個開放靈活的運行平臺,是否有滿足用戶需要的豐富實用的內(nèi)容,是否有性能出色的終端產(chǎn)品,是否有清晰的商業(yè)模式。所有這些因素加起來,才有可能保證新業(yè)務(wù)的成功。這顯然不是一兩家公司可以做到的。

  在語音識別技術(shù)領(lǐng)域,IBM ViaVoice一直保持著絕對的領(lǐng)先地位。中國科技大學訊飛公司推出了KD-2000漢語文語轉(zhuǎn)換系統(tǒng),將語音合成技術(shù)推進到應(yīng)用水平。北京無限商機通信技術(shù)有限公司作為語音技術(shù)開發(fā)商,已在語音瀏覽這一核心技術(shù)領(lǐng)域取得突破。

  由于語音應(yīng)用還處于初級階段,目前語音互聯(lián)網(wǎng)面臨的最大的問題是服務(wù)和應(yīng)用內(nèi)容本身。不管是國外還是國內(nèi),語音門戶的數(shù)量還相當少,提供的服務(wù)大多比較單調(diào),僅限于郵件、新聞、股票信息、天氣等一些本地化和個人化非常強的信息,而且,受閱讀速度和電話資費等方面因素的影響,目前這些信息都經(jīng)過高度的“精簡”。與傳統(tǒng)互聯(lián)網(wǎng)的海量信息相比,語音網(wǎng)站只能提供高度個性化和本地化的服務(wù)。因此,如果不完善服務(wù),形成規(guī)模,語音網(wǎng)站要想真正贏得用戶的青睞還比較困難。

 圖2 語音互聯(lián)產(chǎn)業(yè)鏈

  但我們同時也應(yīng)該看到,無論國外還是國內(nèi),已經(jīng)有越來越多的廠商支持和開發(fā)基于VoiceXML在電子商務(wù)、通信、呼叫中心服務(wù)、個人信息服務(wù)、娛樂、辦公等方面的語音應(yīng)用。在基于VoiceXML 的語音門戶應(yīng)用中,用戶還可以自己開發(fā)編寫自己的語音網(wǎng)頁,自由體現(xiàn)自我,建立眾多的個人語音網(wǎng)站。另外,對傳統(tǒng)Internet的改造或移植是語音互聯(lián)網(wǎng)的一個趨勢,這樣就可以大量利用傳統(tǒng)Internet網(wǎng)絡(luò)資源為網(wǎng)絡(luò)用戶提供語音服務(wù)。

  移動夢網(wǎng)計劃的出臺使運營商能夠與ICP合作分成,提供全新的應(yīng)用服務(wù)。這無疑也將有力推動基于VoiceXML的語音應(yīng)用以及語音互聯(lián)網(wǎng)的發(fā)展。

  對電信運營商而言,語音互聯(lián)網(wǎng)意味著話費收入的增加,競爭力的加強。目前在美國,申請語音服務(wù)的用戶平均話費增長為12.8%。對服務(wù)提供商來說,語音門戶提供了較為清晰的盈利模式,是進入開放電信行業(yè)的良好途徑;對內(nèi)容提供商,語音應(yīng)用帶來新的贏利增長點,并獲得用戶的倍速擴展;對電話終端廠商,語音上網(wǎng)無疑是新的產(chǎn)品賣點和增值點。

  語音門戶方興未艾


  語音門戶網(wǎng)站一般都采用了語音識別及合成技術(shù),相對于傳統(tǒng)的互聯(lián)網(wǎng)服務(wù)來說,它所提供的服務(wù)都是以語音的形式提交的,用戶只要撥打服務(wù)商的電話號碼,通過簡單的語音口令,就可以獲得所需的網(wǎng)絡(luò)服務(wù),從而將互聯(lián)網(wǎng)的門檻降低到“零”。

  據(jù)Kelsey咨詢公司估計,到2005年,在北美會有4500萬無線電話用戶經(jīng)常使用語音門戶。

  事實上,語音門戶在國外的發(fā)展相對于國內(nèi)較早。在Yahoo!宣布與Net2Phone聯(lián)手向Yahoo!郵件用戶提供基于電話的Internet內(nèi)容服務(wù)、語音郵件及免費長話服務(wù)之后,其競爭對手Lycos也推出了新的語音門戶。Oracle移動電話分公司OracleMobile.com也在其無線網(wǎng)絡(luò)入口站點上添加了語音。此外,還有美國在線、InternetSpeech.com、Quack.com和TelSurf等公司也提供語音門戶網(wǎng)站。

  2000年11月24日,TOM.COM在國內(nèi)開通了語音門戶“TOM及時語”,用戶通過撥打熱線電話,通過與系統(tǒng)的語音交互,就可獲得個人理財、語音郵件、航班查詢、北京地區(qū)酒店預(yù)定、定餐及叫車、全球新聞、天氣預(yù)報等方面的服務(wù)。北京無限商機網(wǎng)絡(luò)技術(shù)有限公司也推出了“電話家園”服務(wù),針對電話用戶提供電話郵件、股票、游戲、航班、個人主頁、購票等語音應(yīng)用服務(wù)。

中國計算機報 2001/10/22



相關(guān)鏈接:
融合通訊還有多遠? 2003-04-15
我國語音互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展和統(tǒng)一標準規(guī)范VAP探討 2002-03-04
北京無限商機 2002-03-04
北郵UBO共建實驗室致力語音數(shù)據(jù)兩網(wǎng)融合 2002-01-23
企業(yè)服務(wù)新形象——UBO Tel-win智能總機 2001-12-20
汨罗市| 炉霍县| 湘乡市| 哈巴河县| 青海省| 社旗县| 海丰县| 修水县| 手机| 光山县| 星子县| 东城区| 仪征市| 晋城| 磴口县| 广德县| 台安县| 海城市| 安康市| 贺兰县| 筠连县| 陆河县| 苍南县| 刚察县| 四平市| 武山县| 二手房| 柘城县| 清新县| 常州市| 金昌市| 仙游县| 陆河县| 石家庄市| 溧阳市| 广河县| 咸阳市| 北安市| 伽师县| 察雅县| 沙湾县|