回歸到“通天塔”之前
——語音翻譯技術和應用展望
徐波 2002/03/11
西方圣經(jīng)上“通天塔”和 “巴別塔”的故事路人皆知,其目的就是為了說明人類溝通的重要性。事實上,人類一直在尋找克服語言障礙的途徑:先是翻譯,再是世界語,直到目前的自動翻譯。甚至還有人提出,隨著語言的逐漸消融,最終將回歸到造“通天塔”之前天下人的語言都一樣的原始狀態(tài),徹底掃除語言障礙。
作者簡介:
徐波 1988年畢業(yè)于浙江大學,此后在中科院自動化所從事語音、語言信息處理和識別等方面的研究,于1992年和1997年分別獲得工學碩士和博士學位,1997年被破格提升為該所研究員、博士生導師,F(xiàn)任國家模式識別重點實驗室副主任、口語信息處理研究組組長、清華大學信息學院客座教授、中國中文信息處理學會常務理事、YOCSEF學術委員會委員、中國聲學學會和中國自動化學會委員及《自動化學報》編委。目前主要的研究方向包括語音識別的魯棒性問題、口語理解、智能搜索、人機對話、口語的統(tǒng)計翻譯等。
計算技術的發(fā)展為機器代替人從事翻譯工作、最終消除人類交流障礙打開了希望之門。這個思路可以追溯到1945年,當時信息論的先驅Warren Weaver就認為語言的翻譯過程可以抽象成編碼和解碼過程,這種思想其實就是機器翻譯的基石,并提出了機器翻譯的可計算性。不過要從理論上證明機器翻譯完全可計算并不是一件容易的事情,50年自動翻譯的發(fā)展也表明,從實踐上證明其可計算性同樣非常困難。針對機器翻譯的現(xiàn)狀,有人挖苦地說:“MT,不是Machine Translation的縮寫,而是Mad Translation的縮寫!边@雖然有些極端,但真實地道出了實現(xiàn)自動翻譯有多難。
領域限定更可行
既然無領域限制的自動翻譯是如此之難,那限定領域的自動翻譯是否可行?20世紀80年代以來,自動翻譯技術的一個分支就是著手把機器翻譯和語音識別、語音合成相結合,進行直接的口語翻譯,這方面的研究首先起源于對語音識別技術的研究。2000年,在北京召開的口語信息處理國際會議(ICSLP2000)上,就把“新世紀跨語言的口語交流(Spoken Language Processing in Trans-language and Trans-modal Communications for the New Century)”作為大會的主題。
計算機的口語信息處理不僅僅是人機交互的強大工具,也是使用不同語言的人群之間交流的強大工具。與書面語言翻譯相比,語音翻譯在限定場景下的口語交流上更具優(yōu)勢,例如機場、海關、旅館咨詢、購物、餐館對話、旅游觀光、娛樂、天氣預報、公共交通等場景中的交流。對其中的巨大市場需求,人們已達成共識。另一方面,語音翻譯比文本翻譯更加復雜和艱難,系統(tǒng)要面對從語音識別、機器翻譯到語音合成的所有難題。所以,語音翻譯對應用領域進行限制很自然,這意味著我們可以用一些針對性較強的翻譯方法來完成語音翻譯的目標,而不必過分追求系統(tǒng)的通用性。
翻譯方法需綜合
在有明確限定的領域中,語音識別技術一般能取得比較高的準確率。只要收集的樣本能對限定領域的語言現(xiàn)象有比較好的覆蓋,翻譯方法特別是基于經(jīng)驗主義的翻譯方法,就會非常適用。最典型的經(jīng)驗主義方法是基于實例或模板的方法,其基本思想是研究語料庫中出現(xiàn)的句型,然后進行通用化處理,并建立一個句型庫,在翻譯的時候,通過匹配庫中的模板就可以獲得可靠性較高的翻譯。
另一種更加高級的模型是基于雙語語料的統(tǒng)計方法,這種方法從研究雙語語料句對之間的對位關系開始。下圖中的例句表示了在詞匯層和短語層的混合對位。
從圖中可以看出,互譯句對之間存在著不同層次上的對應關系,通過統(tǒng)計的方法,可算出中文和英文詞匯之間的翻譯概率,以及位置關系對翻譯概率的影響,最終可通過純數(shù)學的方法來實現(xiàn)翻譯過程。該方法目前在雙語的口語翻譯中逐步成為一種主流方法。在對德國的Verbmobil項目第二階段的完整評估中,一共測試了四種方法,分別是基于轉換的翻譯、基于對話意圖的翻譯、基于實例的翻譯和基于統(tǒng)計的翻譯。由于基于統(tǒng)計的翻譯對語音識別錯誤具有較好的容錯性,加上統(tǒng)計學的大量優(yōu)點,使其翻譯錯誤率還不到其他方法的一半。
當然統(tǒng)計方法也有缺點,它缺少語言知識和結構信息,因而需要與其他方法結合使用,例如與基于實例的翻譯方法相結合。這樣不僅可以考慮句子的整體結構,還可以利用語言語法結構的統(tǒng)計信息。
此外,找到適當?shù)闹虚g語言一直是自動翻譯的理想,但由于自然語言的復雜性,要找到既完備又具有很強表達能力的中間語言非常困難。不過,為了實現(xiàn)多國語言之間的互譯,中間語言是一個非常好的思路,那樣任何兩種語言之間的翻譯所需的工作量只與語種的數(shù)量成正比。在多語種互譯中類似于C-STAR Ⅲ IF的中間語言口語翻譯是一個非常重要的方向。
發(fā)展前景美好而曲折
目前國際上對口語翻譯比較有影響的研究計劃和組織主要有德國的Verbmobil開發(fā)計劃和國際口語翻譯先進研究組織(C-STAR)。Verbmobil計劃是由德國BMBF出資,日本ATR International、美國Carnegie Mellon University、德國Deutsches Forschungszentrum für Künstliche Intelligenz等22所大學和7個公司參與,Siemens負責集成的一個語音翻譯系統(tǒng)研究計劃。
1993~1996年,該計劃完成了第一階段原型系統(tǒng)的設計,該系統(tǒng)又稱為Verbmobil Demonstrator,包括2500個單詞量的德英翻譯和400個單詞量的德日翻譯,主要應用在商業(yè)會晤和日程安排領域。
1997~2000年,該系統(tǒng)的單詞量增加到1萬個,語種以德、英、日為主向多語種擴展,應用領域也擴展為旅游日程安排、旅館預訂等多個領域。
C-STAR的全稱是International consortium for Speech Translation Advanced Research,成立于1991年,發(fā)起者為日本ATR、美國CMU大學、Siemens等國際知名研究機構,最初稱為C-STAR I。這個國際組織以實現(xiàn)多語種的自由交談為目標,并于1993年進行了世界上第一個語音翻譯系統(tǒng)的演示。其后,許多科技機構相繼投入其中,并得到各國政府部門的支持,C-STAR也隨之發(fā)展壯大。到今天,已經(jīng)發(fā)展到了C-STAR Ⅲ,其中包括7個核心成員和20多個觀察成員。
語音翻譯是一個很具挑戰(zhàn)性的人類科學工程,然而人類對挑戰(zhàn)的應對也是充滿智慧的,過去10年不斷取得進展的語音翻譯也證明了這一點。雖然我們很難為語音翻譯給出一個準確的進展時間表,但可以大膽地給出一個對未來展望的時間表:
30年之后將會有無領域限制的翻譯系統(tǒng),屆時人類的全球交流基本沒有障礙。 北京成功申請到了2008年奧運會的舉辦權,這對語音翻譯的需求更加迫切。要實現(xiàn)奧申委提出的在整個奧運期間“Any Time”、“Any Where”、“Any One”和“Any Device”提供智能化多語言信息服務的承諾,首先就要克服語言交流的瓶頸問題,我們相信語音翻譯技術在這方面將大有可為。
計算機世界報 2002/03/11
構建更加人性化的交談式語音應用 2002-03-11 |
語音合成——燦爛的前景 巨大的商機 2002-01-30 |
語音合成技術及國內(nèi)外發(fā)展現(xiàn)狀 2002-01-30 |
Evoice有聲電子郵件系統(tǒng) 2002-01-30 |
語音合成系統(tǒng)的關鍵技術 2002-01-30 |