首頁>>>技術>>>語音應用>>>語音合成(TTS)  語音合成產品

 

VoiceXML簡介

黃偉峰 2001/04/19

   為了促進CTI技術和語音技術的發(fā)展,IBM、Lucent、AT&T和Motorola四大通信公司成立了VoiceXML(Voice Extensible Markup Language,語音擴展標記語言)的論壇。這種新的語音技術,使用戶能通過電話和語音來訪問Internet。這項技術能夠幫助企業(yè)、電信公司、互聯(lián)網(wǎng)公司增加網(wǎng)絡使用率,提高用戶忠誠度,開發(fā)新市場,從而增強企業(yè)的競爭力。

一、VoiceXML的起源

   VoiceXML 是一個新的通過語音對話訪問Web 內容和交互語音應答的傳遞標準。在 1999 年初,IBM、Lucent、AT&T和Motorola成立了 VoiceXML 論壇, 來協(xié)調現(xiàn)有的語音技術,以使用戶可以通過聲音和電話訪問互聯(lián)網(wǎng)。語音技術不但讓那些由于環(huán)境或生理限制無法使用圖形化瀏覽器的人得以訪問 Web,也為所有的用戶提供了更為便捷的Web訪問功能。

   新的語音技術可以創(chuàng)建出對話驅動的應用程序,例如語音識別技術(ASR)、語音合成技術(TTS)以及在 PC 和服務器(分發(fā)到客戶端設備)上記錄和回放數(shù)字化語音。VoiceXML 提供了一種與技術無關的語言,可以用在語音應用程序中。這些應用程序將后端處理語音的服務和處理機制與前端基于 VoiceXML 的表示層分離開。例如,一個精心設計的 Web 站點可以輕而易舉地支持語音驅動的瀏覽器(比如在移動電話上使用的那種),同時它能支持其他的瀏覽器(比如WAP 瀏覽器或 HTML 瀏覽器)。當接收到來自瀏覽器的最初請求時,服務器將監(jiān)測出瀏覽器的類型。如果瀏覽器被確認為一個語音瀏覽器,服務器將返回對應的 VoiceXML 頁面。

   由于VoiceXML技術和語音技術的快速發(fā)展,已經(jīng)有150個以上的公司和組織加入和VoiceXML論壇(www.voicexml.org),其中包括一些非常有名的通信公司,如AT&T、Lucent、Motorola、Alcatel、Cisco、Hitachi,以及我國的華為通信公司。

二、 VoiceXML的系統(tǒng)結構及其應用舉例

   VoiceXML 1.0規(guī)范基于W3C的工業(yè)標準XML,為語音和電話應用的開發(fā)者、服務提供商和設備制造商提供了一個智能化的API。VoiceXML的標準將簡化Web上具有語音響音服務的個性化界面的創(chuàng)建,使人們能夠通過語音和電話訪問網(wǎng)站上的信息和服務,同時與CGI(PERL、PHP、C、JAVA SERVLET等)的腳本結合在一起來檢索后臺數(shù)據(jù)庫,訪問企業(yè)內部網(wǎng),從而最終將語音瀏覽器與微型瀏覽器融合在一起,實現(xiàn)計算機網(wǎng)絡與電話技術的完美結合。

   同傳統(tǒng)的Internet網(wǎng)站相比,在不需要太大的改動前提下,只要增加一個VoiceXML的服務器,處理來自PSTN的應用即可。在VoiceXML的服務器中,包含了VoiceXML的解釋器(VoiceXML解釋程序語境)、VoiceXML自帶的瀏覽器、自動語音識別(ASR)及文本到語音(TTS)的轉換設備。

   VoiceXML解釋程序是一個計算機程序,它解釋一個VoiceXML文件,引導和控制用戶與執(zhí)行平臺之間的交互作用。VoiceXML解釋程序語境也是一個計算機程序,用一個VoiceXML解釋程序解釋一個VoiceXML文件,并且可以與執(zhí)行平臺相互作用,而與VoiceXML解釋程序無關。

   比如,用戶想知道Intel公司的當前股價,就打電話到提供該服務的公司,通過DNURI的映射,到達了該網(wǎng)站的VoiceXML的服務器。VoiceXML的服務器馬上調出相應的VoiceXML文件,由VoiceXML解釋程序處理,通過TTS產生語音輸出,來回復用戶的請求。當然,在處理VoiceXML文件的過程中,有時還需交給后臺的CGI程序處理,處理后的結果由Web Server交給VoiceXML Server處理。處理后,用戶可能會聽到的回答是“Welcome to the stock market,which stock price would you like to know?”,其對應的VoiceXML文件為Welcome.vxml。用戶只需回答他(她)所感興趣的股票,如“Intel”。

   這樣用戶就擺脫了傳統(tǒng)IVR令人模糊不清的一大堆選擇。用戶的回答通過VoiceXML Server的處理,交給后臺的CGI程序查詢數(shù)據(jù)庫中的有關Intel股票的價格,再由VoiceXML Server的處理,用戶聽到的可能就是一個非常具體的回答—“$55”。

三、 VoiceXML的特點和應用范圍

VoiceXML作為一種標記語言,主要有以下特點:

1.通過每一文件里指定的多重的交互功能,將客戶機/服務器之間的交互工作最小化。
2.應用開發(fā)者與底層的軟件和系統(tǒng)平臺上的軟、硬件細節(jié)無關。
3.將用戶交互作用的代碼(在VoiceXML中)從服務邏輯(CGI 腳本)中分離出來。
4.要使提供的服務能隨處可得,必須令服務能夠跨越不同的執(zhí)行平臺。對于內容服務商、工具提供商和平臺提供商來說,VoiceXML正是一個跨平臺的公共語言。
5.簡單的交互功能非常易于使用,所提供的語音界面能支持復雜的對話。

   VoiceXML語言通過語音應答系統(tǒng)實現(xiàn)人機交互通信,其范圍包括: 合成語音的輸出(TTS)、音頻文件的輸出、話音輸入的識別、DTMF輸入的識別、語音輸入的錄音、電話功能向呼叫轉移等。

   VoiceXML提供字符和語音輸入收集,將輸入分配給文件定義的請求變量,并且在用戶回答后做出決定的方法。通過通用資源標示符(URI),VoiceXML可確定文件是否被連接到其他的文件。

VoiceXML在以下領域內有廣泛的應用:

1.信息的獲取,如股票信息、天氣情況、體育消息、交通信息等。
2.電子交易(包括電子商務、電子零售),如銀行的賬戶查詢、存取、股票交易等。
3.電信領域的服務,如Unified Message(統(tǒng)一消息)、Call Center(呼叫中心)等。

計算機世界》2001/04/19



相關鏈接:
語音網(wǎng)站不是信息臺 2001-02-16
網(wǎng)絡與電話技術的完美結合 -- VoiceXml 2001-02-07
語音門戶網(wǎng)革命 2000-12-04
中文語音技術應掌握在中國人手中 2000-11-22
國內語音合成技術“叫板”IBM 2000-11-07
福州市| 德州市| 澳门| 平乐县| 竹山县| 达州市| 卢龙县| 焉耆| 鲁山县| 磐石市| 玛纳斯县| 拉萨市| 铁力市| 岑巩县| 博罗县| 侯马市| 镇原县| 望奎县| 慈溪市| 青州市| 金寨县| 天峨县| 阿克苏市| 松江区| 黄浦区| 西峡县| 扎兰屯市| 泰顺县| 巴东县| 仙桃市| 莲花县| 上饶市| 静安区| 铁岭县| 长汀县| 闵行区| 新丰县| 丰台区| 卢湾区| 赫章县| 通州区|