首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)  語音識別產(chǎn)品


ASR:“說得出做得到”

——語音識別技術(shù)正在走進(jìn)大眾生活

陳青松

  愛看科幻電影的朋友恐怕都不會忘記,在影片中常常有以聲控方式來操縱汽車、電腦及一切電器的情節(jié),而現(xiàn)在人們依靠電腦電話整合系統(tǒng)CTI(ComputerTelephoneIntegration)技術(shù)已經(jīng)讓這些科學(xué)幻想走向現(xiàn)實。例如,當(dāng)你對著某品牌手機(jī)直呼某人姓名時,就可以自動撥通對方的電話;三菱汽車推出的Galant車款,駕駛員也可透過聲控來操作音響等設(shè)備。

  所謂“電腦電話整合系統(tǒng)”CTI,其實就是我們熟悉的“電話語音系統(tǒng)”。在通訊日漸發(fā)達(dá)的日常生活中,CTI已到了無所不在的地步。打電話到車站訂票、到醫(yī)院掛號,接聽電話語音廣告,銀行的查帳、國際長途通訊的網(wǎng)絡(luò)電話等等,這些都是CTI領(lǐng)域下的產(chǎn)品。而這些產(chǎn)品,若繼續(xù)延伸到新的發(fā)展趨勢,除了網(wǎng)絡(luò)電話的發(fā)展模式較為獨立之外,語音辨識和自動話務(wù)系統(tǒng)兩者將會是未來市場的主流。

  CTI的核心技術(shù)就是電腦語音辨識系統(tǒng)的應(yīng)用。電腦語音辨識系統(tǒng)可分為二種:一是個人使用;二是大眾服務(wù)。個人使用的語音辨識系統(tǒng)在技術(shù)上較容易實現(xiàn),如IBM等公司開發(fā)的語音輸入法已在市場上銷售。這種個人用的語音辨識系統(tǒng)具有幾個特點:一是產(chǎn)品使用者單一,二是詞匯簡易,三是電腦學(xué)習(xí)使用者語音特點的機(jī)會多。此類產(chǎn)品目前能夠走向市場化,主要是因為他們采取的是“片語式”辨識,藉由特定詞匯、片語,電腦很容易學(xué)習(xí)和熟悉這些指令;同時,操作者的多半是某個固定的使用者,只要經(jīng)過多次的練習(xí),電腦可以很快地熟悉這些特定的發(fā)音和語句。

  另一種供大眾使用的語音辨識系統(tǒng),如:用于大型電腦服務(wù)需求的金融機(jī)構(gòu)、電信公司、航空和鐵路等部門的自動話務(wù)系統(tǒng)(CallCenter),其技術(shù)層次較高,目前國內(nèi)這類產(chǎn)品投入商業(yè)應(yīng)用的極少。這主要是由于目前的語音辨識系統(tǒng)至多只能做到“條件式”的階段(注:“條件式”語音辨識,是指電腦在有限的條件下,才可以執(zhí)行的聲音指令。)

  當(dāng)然要達(dá)到無所不識的“自然語音辨識”水平還是一個長遠(yuǎn)的目標(biāo),預(yù)計可能還要幾年的時間才有可能成熟。其中的技術(shù)“瓶頸”關(guān)鍵在于語言的千變?nèi)f化。語言當(dāng)中的聲紋和語意的分析,可說是對電腦的兩項極大的挑戰(zhàn)。

  在聲紋方面,電腦接收聲音的環(huán)境必須很單純,而在人類語言當(dāng)中,夾雜了太多的同音、相似音和腔調(diào),光是數(shù)字“一”和“七”的發(fā)音就容易混淆;相較于聲紋的掌控,語意分析對電腦程序設(shè)計人員更是一大挑戰(zhàn)。一個人若不是照著規(guī)矩講話,可能會造成電腦的誤判和混淆,而一句話的意思該怎么表達(dá),不同人往往有不同的習(xí)慣。

  除了上述兩種問題之外,還可能出現(xiàn)速度問題。有些人說話速度快,有些人說話速度慢,而電腦在處理各種南腔北調(diào)時,如何在最短時間內(nèi)辨識出其中語意,將會是非常重要的一環(huán)。

  為了解決語音問題,業(yè)界最普遍的做法,就是針對某一行業(yè)某個領(lǐng)域,依賴歸納法,搜集大量的專有詞匯及語法,進(jìn)行分類歸納后,儲存在電腦中用來在以后辨識中應(yīng)用。目前解決這些技術(shù)難題較成功的有美國Nuance公司,據(jù)稱其語音辨識系統(tǒng)已達(dá)到了97%的效果,但中文的辨識能力有多高,目前還在評估之中。現(xiàn)在許多國際大廠商,如IBM、英特爾和西門子等都在這方面積極開拓,可以相信不久的將來,語音辨識系統(tǒng)的應(yīng)用將會更加大眾化,讓人們的生活更加隨“語”所欲。

 



相關(guān)鏈接:
主要語音引擎及開發(fā)工具 2002-01-30
聲揚語音識別系列開發(fā)工具 2002-01-30
IBM ViaVoice語音軟件開發(fā)工具 2002-01-30
語音識別的應(yīng)用前景 2002-01-30
語音識別技術(shù)的發(fā)展趨勢 2002-01-30

分類信息:     技術(shù)_語音識別_文摘
木里| 和顺县| 许昌县| 玉树县| 罗田县| 浦县| 遂宁市| 北宁市| 临西县| 翁牛特旗| 如皋市| 奉节县| 毕节市| 宜丰县| 高雄市| 临湘市| 灵台县| 蒙山县| 阿鲁科尔沁旗| 绵阳市| 滦南县| 遂宁市| 临猗县| 金川县| 哈密市| 吴江市| 岱山县| 隆德县| 景谷| 昌吉市| 罗田县| 乌鲁木齐市| 嘉善县| 会东县| 镶黄旗| 论坛| 清流县| 彭山县| 长子县| 华容县| 宁陵县|