亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

 首頁 > 技術(shù) > 技術(shù)文摘 > 評論:語音識別技術(shù)離我們有多遠(一)

評論:語音識別技術(shù)離我們有多遠(一)

2000-09-13 00:00:00   作者:   來源:   評論:0 點擊:


 

IBM中國研究中心 沈麗琴 博士 2000/09/13

  直到今天,像人一樣的機器人依然顯得遙不可及,但作為機器人的耳朵,語音識別技術(shù)近幾年有了許多突破性進展,終于從實驗室走進了我們的生活。

  首先,將隱馬爾科夫模型引入語音識別是該領(lǐng)域的重要突破。它有效體現(xiàn)了語音信號的隨機概率過程,它成熟的訓(xùn)練算法又為語音模型的建立提供了基礎(chǔ)。至今,這仍是語音建模的主流方法。在隨后的研究中,科學(xué)家們發(fā)現(xiàn)同樣一個音,在它的上下文不同時,發(fā)音的特征不盡相同。為了更準(zhǔn)確地描述這些變化,決策樹被用來描述和記錄上下文對語音模型的影響。另外,我們在聽別人講話時,并不一定聽清了對方發(fā)出的每一個音,但根據(jù)談話的主題和我們的語言知識背景,可以猜出那些沒聽清的音是什么,而且毫不影響我們的交流。這就是語言模型的功勞了。它幫助我們在聽到前面的談話內(nèi)容后,猜測后面會說什么,特別是有同音詞和近音詞的時候,幫助我們消除歧義,確定正確的說話內(nèi)容。IBM的科學(xué)家們發(fā)明了n元的統(tǒng)計語言模型,通過輸入給計算機大量的文字資料,讓它“學(xué)習(xí)”和“記憶”人們會怎么用詞,組句?墒,語音識別需要的計算資源太大,沒有新的突破它依然只能是實驗室技術(shù)。特別是要聽懂人們?nèi)粘Vv話,因為我們常用的詞匯太多,有好幾萬,科學(xué)家們想出了先用快速匹配方法,用很小的計算量很快地找出與發(fā)音相似的候選詞,然后在縮小的范圍中,進行仔細(xì)計算,這顯著提高了大詞匯系統(tǒng)識別的速度。還有其他一系列不勝枚舉的重大突破。IBM的許多科學(xué)家在這領(lǐng)域長期不懈的努力和獲得的一百多項專利,確定了公司技術(shù)上的領(lǐng)先地位。另外值得一提的是,得益于這些年微處理器的速度加快,成本降低,語音識別才真正能夠走入我們的生活。

  創(chuàng)造先進的技術(shù)是根本,將技術(shù)用于生活和工作,服務(wù)于人類才是最終的目的。1997年,IBM公司推出了世界上第一個中文連續(xù)語音識別產(chǎn)品——ViaVoice4.0,終于突破了連續(xù)語音、大詞匯量和非特定識別人的難關(guān),并成功解決了漢語同音字多、有聲調(diào)、口音復(fù)雜等問題,幫助人們從笨拙的鍵盤輸入中解脫出來,因而被廣泛認(rèn)為是漢字輸入的重要里程碑。這項技術(shù)對中國人的意義尤其重大,因為漢字的鍵盤輸入對許多人來說都是很困難的。至今為止,IBM共有13種語言的語音識別產(chǎn)品。但是聽寫機只是一個開始,直到去年的ViaVoice巍巍世紀(jì)版,更有語音控制、語音上網(wǎng)、網(wǎng)上聊天等功能,讓人們能真的輕松運用計算機。(IBM中國研究中心沈麗琴博士)

  IBM在去年年底發(fā)布的電話語音識別技術(shù)可以使許多商家的服務(wù)更 周到,更多的電話用戶受益。有了這項技術(shù),各種信息查詢、飛機訂 票、旅館預(yù)定等都可以實現(xiàn)自動化。利用IBM的語音識別技術(shù)通過電話 上網(wǎng),用戶只需說出你想得到的網(wǎng)上信息,機器就會自動識別,將你 的請求送到互聯(lián)網(wǎng)上,并把返回的相關(guān)信息用語音合成技術(shù)回放給你, 為用戶提供人性化的語音應(yīng)答交互界面。這樣,眾多的電話用戶就可 以享受到網(wǎng)上信息服務(wù)。

  越來越多的掌上設(shè)備正慢慢成為許多人的生活和工作必備品,比 如手機、電子記事本,IBM的WorkPad等。這些小的設(shè)備或者沒有鍵 盤,或者只有簡單的數(shù)字鍵,輸入和各種操作都十分不便。如果能用 人們覺得最自然的方式———語音進行控制,人們將更加青睞這些靈 巧的伴侶。IBM公司將已經(jīng)在高端計算機上發(fā)展的語音技術(shù)進行簡化, 抽取其中的核心技術(shù),研制出用于這類低端設(shè)備的識別引擎,并在市 場中的某些掌上電腦上成功建立了實用的原型系統(tǒng),證明了技術(shù)的可 行性。相信在不久的將來,人們完全可以用語音操作手機和各種掌上 設(shè)備。

  為了讓人與機器的交流更加自然,我們需要機器不僅能識別準(zhǔn)用 戶說的話,更要理解它,然后去執(zhí)行相應(yīng)的動作。比如,用戶通過語 音訂房,要求“訂一套10月12日在某某酒店的單人房”。當(dāng)用語音識 別技術(shù)識別出這句話后,機器還需要理解客戶入住的時間是“10月 12日”,酒店是“某某酒店”,房型是“單人房”。然后將這些需求 送給系統(tǒng)才能完成預(yù)定。這是自然語言理解的技術(shù)。目前還不十分成 熟,但已初步使用。同時機器必須產(chǎn)生合適的回答把得到的信息(如 是否有房,價格等)反饋給用戶,或提示用戶需要進一步的信息(如 請用戶提供離店日期等),這就是自然語言產(chǎn)生的技術(shù)。產(chǎn)生準(zhǔn)確地 應(yīng)答也是一項十分具有挑戰(zhàn)性的技術(shù)。另外相關(guān)的技術(shù)還有,在許多 應(yīng)用場合,需要說話人辨識技術(shù),以便通過語音判斷說話人是誰,免 去用戶記憶難記的密碼。提供更友好的系統(tǒng)與人的交互界面。

  當(dāng)然,語音識別本身也還沒有達到完美,還有許多挑戰(zhàn)等待著科 學(xué)家去一一攻破。比如對不同噪聲環(huán)境的適應(yīng);兩種或多種語言夾雜 使用的語音識別;或者特別隨意的對話識別等等?梢钥吹,語音識 別技術(shù)將讓我們體會到技術(shù)創(chuàng)新給人類帶來的輕松和效率。

《光明日報》 2000/09/13

相關(guān)閱讀:

分享到: 收藏

專題