首頁>>廠商>>軟件開發(fā)商>>穎科公司

VoiceXML介紹

2002/03/11

一. VoiceXML簡介

  VoiceXML(Voice eXtensible Markup Language)是由VoiceXML論壇制定的通過電話訪問Internet網(wǎng)絡(luò)的標準。1999年3月,由Motorola、Lucent、AT&T和IBM四家公司聯(lián)合發(fā)起成立了VoiceXML論壇(www.voicexml.org),其目的在于為電話和移動設(shè)備提供一種便捷的訪問Internet網(wǎng)絡(luò),獲取服務(wù)和信息的手段。2000年3月,VoiceXML論壇發(fā)布了VoiceXML 1.0標準。5月,W3C(World Wide Web Consortium)接受了VoiceXML1.0。目前,國內(nèi)外共有150多家公司支持VoiceXML,Motorola、Lucent等公司已開發(fā)出了基于VoiceXML的產(chǎn)品。
  VoiceXML是W3C定義的可擴展標記語言(XML)的一種擴展,根據(jù)播放的提示信息、口述的命令、要記錄和識別的語音或按鍵音輸入,實現(xiàn)人和計算機之間的交互對話。VoiceXML的標準化將簡化Web上具有語音響應(yīng)服務(wù)的個性化界面的創(chuàng)建,使人們能夠通過語音和電話訪問網(wǎng)站上的信息和服務(wù)。
  VoiceXML的主要目標是希望通過交互式語音界面應(yīng)用Web上已經(jīng)有的大量信息,同時VoiceXML希望能夠?qū)㈤_發(fā)人員從最低級的編程和資源處理工作中解放出來。VoiceXML能夠利用人們已經(jīng)非常熟悉的客戶機/服務(wù)器方式,將語音服務(wù)和數(shù)據(jù)服務(wù)融合起來。
  VoiceXML作為一種標記語言,主要有以下特點:
  1. VoiceXML作為一種通過每一文件里指定的多重的交互作用,最小化客戶機/服務(wù)器之間的交互工作。
  2. 實現(xiàn)應(yīng)用開發(fā)者與低層的軟件和系統(tǒng)平臺上的軟、硬件細節(jié)無關(guān)。
  3. 將用戶交互作用的代碼(在VoiceXML中)從服務(wù)邏輯(CGI 腳本)中分離出來。
  4. 要使提供的服務(wù)能隨處可得,要求這些服務(wù)能夠跨越不同的執(zhí)行平臺。對于內(nèi)容服務(wù)商、工具提供商和平臺提供商來說,VoiceXML是一個公共語言。
  5. 使簡單的交互作用非常易于使用,要求所提供的語音界面能支持復(fù)雜的對話。

二. VoiceXML的結(jié)構(gòu)模型

  VoiceXML的模型如圖1所示,一個文檔服務(wù)器比如說一個Web服務(wù)器,處理一個來自終端應(yīng)用的請求,這一請求經(jīng)過了VoiceXML解釋程序和VoiceXML解釋程序環(huán)境處理。作為響應(yīng),服務(wù)器產(chǎn)生出VoiceXML文檔,在回復(fù)當(dāng)中,要經(jīng)過VoiceXML解釋程序的處理。
  執(zhí)行平臺是被VoiceXML解釋程序環(huán)境和VoiceXML解釋程序控制的。例如,在一個交互式語音應(yīng)答應(yīng)用中,VoiceXML解釋程序環(huán)境能可靠地監(jiān)測到呼叫,獲得初始的VoiceXML文檔,并且回答這一呼叫,在回答之后VoiceXML解釋程序引導(dǎo)這一對話。執(zhí)行平臺產(chǎn)生事件響應(yīng)用戶的動作(說話或者字符輸入)和系統(tǒng)事件(例如計時器溢出)。這些事件中的一部分依照相應(yīng)的VoiceXML文檔按照VoiceXML解釋程序的解釋加以執(zhí)行,其他的被VoiceXML解釋程序環(huán)境控制。
  VoiceXML解釋程序是一個計算機程序,它解釋一個VoiceXML文檔,引導(dǎo)和控制用戶與執(zhí)行平臺之間的交互作用。VoiceXML解釋程序環(huán)境也是一個計算機程序,用一個VoiceXML解釋程序解釋一個VoiceXML文檔,并且可以與執(zhí)行平臺相互作用而與VoiceXML解釋程序無關(guān)。
  執(zhí)行平臺是指一個能支持VoiceXML定義的交互作用的計算機。執(zhí)行平臺提供字符和語圖1 VoiceXML的結(jié)構(gòu)模型
音的輸入和音頻輸出,包括合成語音的輸出(TTS,text to speech)、音頻文件的輸出、話音輸入的識別(ASR ,automated speech recognition)、DTMF輸入的識別、語音輸入的錄音、電話功能像呼叫轉(zhuǎn)移等。

三. VoiceXML的基本概念

  首先舉一個簡單的例子:
  <?xml version="1.0"?>
  <vxml version="1.0">
  <form>
  <block>Hello World!</block>
  </form>
  </vxml>
  這是一個簡單的VoiceXML文檔,執(zhí)行時輸出Hello World!的合成語音。<vxml>可以看作一個包含會話的容器,所有的VoiceXML文檔都是由一系列會話構(gòu)成的。一個VoiceXML文檔(或稱為請求的一組文檔)構(gòu)成了一個對話式的有限狀態(tài)機。用戶總是處于某一對話狀態(tài)(或稱為會話)。每一個會話決定要轉(zhuǎn)移到的下一個會話。轉(zhuǎn)移由URIs指定,URIs定義下一個要使用的文檔和會話。當(dāng)一個會話沒有指定后繼者或指明退出對話狀態(tài)時操作才會終止。
VoiceXML中的基本概念主要有:
  1.會話和子會話:VoiceXML中定義了兩種類型的會話,表單(forms)和選單(menus)。表單定義了一個獲取一組字段變量的值的交互過程。每一個字段可以指定一個文法,定義了該字段的允許的輸入值。選單提供選項供用戶選擇,然后根據(jù)選擇的結(jié)果轉(zhuǎn)移到另一個會話。
  子會話像函數(shù)調(diào)用,它引起一個新的交互作用并且返回給上一層的表單。局部的數(shù)據(jù),文法和狀態(tài)信息被保存,當(dāng)返回到調(diào)用文檔時可以使用。例如,子會話可以用于創(chuàng)建一個在數(shù)據(jù)庫查詢時需要的確認序列;創(chuàng)建在單一請求中的多個文檔共享的一批組件;或創(chuàng)建一個在多個請求中共享的可重用的會話庫。
  2.會話期:會話期從用戶與VoiceXML解釋程序語境交互開始,持續(xù)進行文檔的裝載和處理,直到由用戶,文檔或解釋程序環(huán)境發(fā)出終止請求才結(jié)束。
  3.請求:一個請求就是一組共享同一個請求根文檔的文檔。在一個請求中,無論何時用戶與文檔交互,請求根文檔總是被加載。當(dāng)用戶在同一個請求中的不同文檔間轉(zhuǎn)換時,請求根文檔總是被加載,只有用戶轉(zhuǎn)換到別的請求中的文檔時請求根文檔才被卸載。請求根文檔被加載后,它的變量作為請求變量被其它文檔使用,而且它的文法在請求的持續(xù)時間一直起作用。
  4.文法:每一個會話有一個或多個語音和(或)DTMF文法。在定向?qū)υ拺?yīng)用中,一個會話的文法只有在使用者與此會話交互時才起作用。在混合主動式對話中,機器和用戶交替控制下一步的操作,一些會話被標記以使它們的文法(如偵聽呼叫)即使當(dāng)用戶在同一文檔的其它會話時也起作用。在這種情況下,如果用戶進行的操作與另一個會話的有效文法匹配,執(zhí)行就會轉(zhuǎn)移到另一個會話;旌现鲃邮綄υ捲黾恿苏Z音應(yīng)用的適應(yīng)性和能力。
  5.事件:VoiceXML提供一種表單填充機制處理"正常"的用戶輸入。另外,VoiceXML也定義了處理異常事件的機制。如用戶在一定時間內(nèi)沒有作出應(yīng)答,請求系統(tǒng)幫助等情況下平臺會產(chǎn)生事件。如果解釋器在VoiceXML文檔中發(fā)現(xiàn)語義性錯誤也會產(chǎn)生事件。
  6.鏈接:鏈接支持混合主動式對話,當(dāng)用戶在鏈接的作用范圍時它指定的文法就起作用。如果用戶的輸入與鏈接的文法匹配,控制就轉(zhuǎn)移到鏈接的目的URI。<link>可以用來產(chǎn)生一個事件跳轉(zhuǎn)到目的URI。

四. VoiceXML的未來

  VoiceXML與XML相比具有某些重要的優(yōu)點,其中最主要的優(yōu)點是能夠重復(fù)使用和容易重組現(xiàn)有的軟件工具,以生成、轉(zhuǎn)換和分析XML文件,而且還能使VoiceXML利用其他基于XML的補充標準。例如,VoiceXML應(yīng)用程序有時需要確定語音合成參數(shù),比如音量、講話快慢和音調(diào)等。
  與WAP相比,VoiceXML有突出的優(yōu)點。由于手持移動設(shè)備(如WAP手機)只有很小的顯示屏,有限的輸入能力和有限的處理功能,文本界面的數(shù)據(jù)處理設(shè)備很難被使用。VoiceXML不存在這些限制,用戶可以用聲音與系統(tǒng)交互,通過一系列的對話選擇,找到所需的信息。服務(wù)器上的語音識別軟件把用戶的輸入語音的選擇轉(zhuǎn)換成文本的選擇,這一過程與在傳統(tǒng)的網(wǎng)頁上選擇一個超連接類似。對話選擇的結(jié)果由相應(yīng)的音頻文件播放(可以是事先錄下的或采用TTS技術(shù)動態(tài)產(chǎn)生)。
  在手機等手持移動設(shè)備上通過語音而不是煩瑣的輸入來獲取信息和服務(wù)更符合人們的習(xí)慣,隨著語音信號處理技術(shù),特別是ASR和TTS技術(shù)的發(fā)展,語音將成為人機交互的一種主要形式。VoiceXML論壇就是順應(yīng)這種潮流而成立的,VoiceXML論壇獲得了國內(nèi)外知名的通信公司和網(wǎng)絡(luò)公司的廣泛支持,目前已有包括國內(nèi)的華為公司在內(nèi)的的150多家公司加入VoiceXML論壇。

穎科公司供稿 CTI論壇編輯


相關(guān)鏈接:
"穎通"企業(yè)智能通信系統(tǒng)產(chǎn)品發(fā)布會邀請函 2002-11-20
嵌入式語音識別技術(shù)應(yīng)用于遙控器 2002-09-28
穎科"語音名片通" 簡介 2002-08-15
InfOnCall"Info-Anywhere校園熱線" 2002-06-07
穎科公司智能語音總機系統(tǒng) 2002-06-06

分類信息:     技術(shù)_voicexml_文摘
泽普县| 财经| 怀仁县| 长乐市| 禹州市| 随州市| 岱山县| 彰化市| 页游| 清远市| 卓资县| 大石桥市| 固阳县| 蓝田县| 临湘市| 邹城市| 巴楚县| 阿拉善左旗| 青岛市| 霞浦县| 麻江县| 北宁市| 定远县| 乌鲁木齐县| 平阴县| 阿拉善右旗| 巴彦淖尔市| 顺平县| 米脂县| 贵港市| 佳木斯市| 咸阳市| 宜兰县| 尚志市| 峡江县| 屏东市| 洞口县| 酒泉市| 平江县| 泸定县| 达尔|