首頁 > 技術(shù) > 技術(shù)文摘 > 評論：語音識別技術(shù)離我們有多遠(一)

評論：語音識別技術(shù)離我們有多遠(一)

2000-09-13 00:00:00 作者：來源：評論：0 點擊：

IBM中國研究中心沈麗琴博士 2000/09/13

　　直到今天，像人一樣的機器人依然顯得遙不可及，但作為機器人的耳朵，語音識別技術(shù)近幾年有了許多突破性進展，終于從實驗室走進了我們的生活。

　　首先，將隱馬爾科夫模型引入語音識別是該領(lǐng)域的重要突破。它有效體現(xiàn)了語音信號的隨機概率過程，它成熟的訓(xùn)練算法又為語音模型的建立提供了基礎(chǔ)。至今，這仍是語音建模的主流方法。在隨后的研究中，科學(xué)家們發(fā)現(xiàn)同樣一個音，在它的上下文不同時，發(fā)音的特征不盡相同。為了更準(zhǔn)確地描述這些變化，決策樹被用來描述和記錄上下文對語音模型的影響。另外，我們在聽別人講話時，并不一定聽清了對方發(fā)出的每一個音，但根據(jù)談話的主題和我們的語言知識背景，可以猜出那些沒聽清的音是什么，而且毫不影響我們的交流。這就是語言模型的功勞了。它幫助我們在聽到前面的談話內(nèi)容后，猜測后面會說什么，特別是有同音詞和近音詞的時候，幫助我們消除歧義，確定正確的說話內(nèi)容。IBM的科學(xué)家們發(fā)明了n元的統(tǒng)計語言模型，通過輸入給計算機大量的文字資料，讓它“學(xué)習(xí)”和“記憶”人們會怎么用詞，組句�？墒�，語音識別需要的計算資源太大，沒有新的突破它依然只能是實驗室技術(shù)。特別是要聽懂人們?nèi)粘Ｖv話，因為我們常用的詞匯太多，有好幾萬，科學(xué)家們想出了先用快速匹配方法，用很小的計算量很快地找出與發(fā)音相似的候選詞，然后在縮小的范圍中，進行仔細(xì)計算，這顯著提高了大詞匯系統(tǒng)識別的速度。還有其他一系列不勝枚舉的重大突破。IBM的許多科學(xué)家在這領(lǐng)域長期不懈的努力和獲得的一百多項專利，確定了公司技術(shù)上的領(lǐng)先地位。另外值得一提的是，得益于這些年微處理器的速度加快，成本降低，語音識別才真正能夠走入我們的生活。

　　創(chuàng)造先進的技術(shù)是根本，將技術(shù)用于生活和工作，服務(wù)于人類才是最終的目的。1997年，IBM公司推出了世界上第一個中文連續(xù)語音識別產(chǎn)品——ViaVoice4.0，終于突破了連續(xù)語音、大詞匯量和非特定識別人的難關(guān)，并成功解決了漢語同音字多、有聲調(diào)、口音復(fù)雜等問題，幫助人們從笨拙的鍵盤輸入中解脫出來，因而被廣泛認(rèn)為是漢字輸入的重要里程碑。這項技術(shù)對中國人的意義尤其重大，因為漢字的鍵盤輸入對許多人來說都是很困難的。至今為止，IBM共有13種語言的語音識別產(chǎn)品。但是聽寫機只是一個開始，直到去年的ViaVoice巍巍世紀(jì)版，更有語音控制、語音上網(wǎng)、網(wǎng)上聊天等功能，讓人們能真的輕松運用計算機。(IBM中國研究中心沈麗琴博士)

　　IBM在去年年底發(fā)布的電話語音識別技術(shù)可以使許多商家的服務(wù)更周到，更多的電話用戶受益。有了這項技術(shù)，各種信息查詢、飛機訂票、旅館預(yù)定等都可以實現(xiàn)自動化。利用IBM的語音識別技術(shù)通過電話上網(wǎng)，用戶只需說出你想得到的網(wǎng)上信息，機器就會自動識別，將你的請求送到互聯(lián)網(wǎng)上，并把返回的相關(guān)信息用語音合成技術(shù)回放給你，為用戶提供人性化的語音應(yīng)答交互界面。這樣，眾多的電話用戶就可以享受到網(wǎng)上信息服務(wù)。

　　越來越多的掌上設(shè)備正慢慢成為許多人的生活和工作必備品，比如手機、電子記事本，IBM的WorkPad等。這些小的設(shè)備或者沒有鍵盤，或者只有簡單的數(shù)字鍵，輸入和各種操作都十分不便。如果能用人們覺得最自然的方式———語音進行控制，人們將更加青睞這些靈巧的伴侶。IBM公司將已經(jīng)在高端計算機上發(fā)展的語音技術(shù)進行簡化，抽取其中的核心技術(shù)，研制出用于這類低端設(shè)備的識別引擎，并在市場中的某些掌上電腦上成功建立了實用的原型系統(tǒng)，證明了技術(shù)的可行性。相信在不久的將來，人們完全可以用語音操作手機和各種掌上設(shè)備。

　　為了讓人與機器的交流更加自然，我們需要機器不僅能識別準(zhǔn)用戶說的話，更要理解它，然后去執(zhí)行相應(yīng)的動作。比如，用戶通過語音訂房，要求“訂一套10月12日在某某酒店的單人房”。當(dāng)用語音識別技術(shù)識別出這句話后，機器還需要理解客戶入住的時間是“10月 12日”，酒店是“某某酒店”，房型是“單人房”。然后將這些需求送給系統(tǒng)才能完成預(yù)定。這是自然語言理解的技術(shù)。目前還不十分成熟，但已初步使用。同時機器必須產(chǎn)生合適的回答把得到的信息（如是否有房，價格等）反饋給用戶，或提示用戶需要進一步的信息（如請用戶提供離店日期等），這就是自然語言產(chǎn)生的技術(shù)。產(chǎn)生準(zhǔn)確地應(yīng)答也是一項十分具有挑戰(zhàn)性的技術(shù)。另外相關(guān)的技術(shù)還有，在許多應(yīng)用場合，需要說話人辨識技術(shù)，以便通過語音判斷說話人是誰，免去用戶記憶難記的密碼。提供更友好的系統(tǒng)與人的交互界面。

　　當(dāng)然，語音識別本身也還沒有達到完美，還有許多挑戰(zhàn)等待著科學(xué)家去一一攻破。比如對不同噪聲環(huán)境的適應(yīng)；兩種或多種語言夾雜使用的語音識別；或者特別隨意的對話識別等等�？梢钥吹�，語音識別技術(shù)將讓我們體會到技術(shù)創(chuàng)新給人類帶來的輕松和效率。

《光明日報》 2000/09/13

相關(guān)熱詞搜索：

上一篇: 來話遇忙提示系統(tǒng)通過生產(chǎn)定型鑒定

下一篇: 濟南：電話上網(wǎng)也能顯示來電

相關(guān)閱讀：

分享到：