長(zhǎng)期以來(lái),我國(guó)很多基礎(chǔ)性的技術(shù)研究都靠國(guó)家投資在支撐著。這些項(xiàng)目如何更快地走出實(shí)驗(yàn)室?guī)?lái)社會(huì)和經(jīng)濟(jì)效益將對(duì)其能否更快地發(fā)展具有重要意義。語(yǔ)音識(shí)別技術(shù)的研發(fā)面臨著同樣的問(wèn)題,中科院自動(dòng)化所在如何能更快地帶來(lái)回報(bào),獲得社會(huì)資源的支持方面選擇了一條捷徑,其Pattek語(yǔ)音識(shí)別產(chǎn)品由此誕生……
當(dāng)我們發(fā)現(xiàn)一條路因施工而很難走,甚至無(wú)法通行時(shí),我們面臨著兩種選擇:按原計(jì)劃繼續(xù)走,而不管前路是否通暢,或是退回去找一條能夠繞過(guò)施工地段的路。這種選擇對(duì)語(yǔ)音識(shí)別技術(shù)也同樣存在。
艱難語(yǔ)音路
1997年9月,IBM在國(guó)內(nèi)發(fā)布了一款語(yǔ)音識(shí)別產(chǎn)品——ViaVoice,這款產(chǎn)品的到來(lái)令整個(gè)計(jì)算機(jī)行業(yè)為之沸騰,厭倦了鍵盤(pán)輸入的人們看到了一線希望。但是,5年時(shí)間過(guò)去了,我們幾乎看不到有人用語(yǔ)音來(lái)輸入文字,可以說(shuō),用語(yǔ)音聽(tīng)寫(xiě)的思路在過(guò)去這個(gè)時(shí)段的市場(chǎng)上敗得一塌糊涂。
ViaVoice的每一步都吸引著每一個(gè)關(guān)注語(yǔ)音識(shí)別技術(shù)和產(chǎn)品的人的密切關(guān)注。它在市場(chǎng)上遭受的挫折同樣引人注目。于是,有人便開(kāi)始思考:語(yǔ)音識(shí)別技術(shù)在聽(tīng)寫(xiě)方面的應(yīng)用是否已經(jīng)成熟?語(yǔ)音識(shí)別技術(shù)的應(yīng)用是否非得定位于聽(tīng)寫(xiě)應(yīng)用?
從ViaVoice的字面意義看,這是一條“語(yǔ)音通道”,但I(xiàn)BM已經(jīng)在這條語(yǔ)音通道里走了40年的時(shí)間,早在20世紀(jì)60年代初,IBM及其他一些力圖在語(yǔ)音識(shí)別領(lǐng)域有所作為的大型企業(yè)就開(kāi)始了語(yǔ)音識(shí)別技術(shù)的研究。40年的努力讓計(jì)算機(jī)從“稀世珍寶”變成了普通百性的必備之物,卻沒(méi)有讓語(yǔ)音識(shí)別技術(shù)走入人們的視野。于是,有人說(shuō):“語(yǔ)音識(shí)別技術(shù)從目前來(lái)看,食之無(wú)味,棄之可惜!
“從目前的技術(shù)水平來(lái)看,語(yǔ)音識(shí)別技術(shù)要滿足聽(tīng)寫(xiě)應(yīng)用的需要的確還有困難,但語(yǔ)音識(shí)別技術(shù)的應(yīng)用不僅僅在聽(tīng)寫(xiě),其他一些方面的應(yīng)用要求相對(duì)較低一些。因此,在某些領(lǐng)域的應(yīng)用,語(yǔ)音識(shí)別技術(shù)已經(jīng)可以實(shí)現(xiàn)具有應(yīng)用價(jià)值的產(chǎn)品!痹谡Z(yǔ)音識(shí)別領(lǐng)域工作了14年的徐波提出他的看法。
這種思路直接影響了中科院自動(dòng)化所Pattek語(yǔ)音識(shí)別產(chǎn)品的出臺(tái)。
今年6月底,中科院自動(dòng)化所在北京發(fā)布了四款語(yǔ)音識(shí)別產(chǎn)品,這些產(chǎn)品的出臺(tái)既是研發(fā)人員10多年努力的結(jié)晶,同時(shí)標(biāo)志著國(guó)內(nèi)語(yǔ)音技術(shù)發(fā)展完全依靠國(guó)家投資的狀況將有所改變。
路漫漫其修遠(yuǎn)
1987年,中科院自動(dòng)化所模式識(shí)別實(shí)驗(yàn)室在國(guó)家領(lǐng)導(dǎo)的關(guān)心下成立。其后,有關(guān)語(yǔ)音識(shí)別技術(shù)的研究工作隨即展開(kāi)。這與世界語(yǔ)音識(shí)別技術(shù)研究的發(fā)展進(jìn)程相比已經(jīng)晚了20多年。“剛剛成立時(shí)的語(yǔ)音識(shí)別技術(shù)研究項(xiàng)目組僅有3個(gè)成員,當(dāng)時(shí)我們開(kāi)展的研究主要在于針對(duì)特定人的單音節(jié)語(yǔ)音識(shí)別!毙觳ㄔ诨貞浤嵌窝芯抗ぷ鲿r(shí)說(shuō),“我們都看不懂國(guó)外的論文資料,因?yàn)樗麄兊难芯吭缫艳D(zhuǎn)移到連續(xù)語(yǔ)音的識(shí)別上了(國(guó)外連續(xù)語(yǔ)音識(shí)別技術(shù)的研究工作在20世紀(jì)70年代就已經(jīng)開(kāi)始)!睆倪@個(gè)小小的細(xì)節(jié),我們可以感受到技術(shù)研究的差距。
盡管如此,課仍需一節(jié)一節(jié)地補(bǔ)。語(yǔ)音識(shí)別項(xiàng)目組在1990年時(shí)建立了一個(gè)特定人的單字語(yǔ)音識(shí)別系統(tǒng)。當(dāng)時(shí)就有企業(yè)想把這一系統(tǒng)產(chǎn)品化,但從事后的結(jié)果來(lái)看,市場(chǎng)上并沒(méi)有看到相應(yīng)的產(chǎn)品。這個(gè)時(shí)期的技術(shù)離產(chǎn)品化尚有相當(dāng)長(zhǎng)的距離。
補(bǔ)完了特定人、單音節(jié)語(yǔ)音識(shí)別的課,項(xiàng)目組迅速進(jìn)入到了下一個(gè)階段的研究工作中。1991年,項(xiàng)目組開(kāi)始了連續(xù)語(yǔ)音的非特定人識(shí)別技術(shù)研究。這時(shí),項(xiàng)目組與國(guó)際上的語(yǔ)音識(shí)別技術(shù)研究距離開(kāi)始縮短。經(jīng)過(guò)一年的努力,項(xiàng)目組拿出了一個(gè)小詞表的連續(xù)語(yǔ)音特定人識(shí)別系統(tǒng)。這個(gè)系統(tǒng)擁有2000個(gè)語(yǔ)音識(shí)別詞匯,它在一些特定領(lǐng)域的應(yīng)用開(kāi)始成為可能。他們將這一技術(shù)應(yīng)用在了中關(guān)村公交路線的查詢系統(tǒng)上。
從非連續(xù)語(yǔ)音到連續(xù)語(yǔ)音的研究面臨著很多完全不同的技術(shù)難點(diǎn),非連續(xù)語(yǔ)音的識(shí)別是一些孤立的聲波片段,但連續(xù)語(yǔ)音則面臨著如何切分聲波的問(wèn)題。諸如此類的新問(wèn)題使連續(xù)語(yǔ)音識(shí)別率的提高比非連續(xù)語(yǔ)音更加困難。
另外,由于實(shí)際應(yīng)用中的語(yǔ)音識(shí)別應(yīng)該是面對(duì)非特定人的——作為一種語(yǔ)音識(shí)別產(chǎn)品,它可能面對(duì)各種各樣的人。這些人可能來(lái)自北京、上海、廣東、四川、新疆等全國(guó)各個(gè)角落,他們的口音存在著很大的差別,要很好地“聽(tīng)”懂這些有著巨大差別的語(yǔ)音,識(shí)別技術(shù)就必須相當(dāng)?shù)亍奥斆鳌。在ViaVoice產(chǎn)品中,IBM為其加入了“學(xué)習(xí)”功能來(lái)解決這一問(wèn)題,即根椐具體使用者的口音對(duì)語(yǔ)音模板進(jìn)行修正。但這種方式下使用者因?yàn)楦忻盎蚱渌蛴绊懓l(fā)音都將使識(shí)別率發(fā)生大幅度波動(dòng)。
為了獲得具有更強(qiáng)適應(yīng)性的語(yǔ)音模板,自動(dòng)化所通過(guò)合作的方式在全國(guó)各地建立了7個(gè)采樣點(diǎn),收集全國(guó)各地不同口音的樣板,用于修正語(yǔ)音模板。這樣的采集工作已經(jīng)持續(xù)了10年之久。據(jù)徐波介紹,迄今為止,他們已經(jīng)擁有了4000個(gè)人的語(yǔ)音樣本,這些樣本更加準(zhǔn)確地反映了各地不同口音的發(fā)音特點(diǎn)。
隨著研究的深入,工作的復(fù)雜度也逐漸提升。1995年,項(xiàng)目組拿出了一個(gè)非特定人的大詞匯量語(yǔ)音識(shí)別系統(tǒng)。這一系統(tǒng)能處理4.6萬(wàn)以上的字詞,但它是非連續(xù)的孤立詞的識(shí)別。就像鍵盤(pán)輸入一樣,我們可以輸入系統(tǒng)內(nèi)含的單字或詞語(yǔ),但用戶無(wú)法連續(xù)地整句輸入。
有了以上一些研究工作的基礎(chǔ),項(xiàng)目組于1996年開(kāi)始著手全力攻克集語(yǔ)音識(shí)別三大難點(diǎn)于一身的非特定人大詞匯量連續(xù)語(yǔ)音識(shí)別。也就在這一工作展開(kāi)一年后,IBM推出了ViaVoice產(chǎn)品。ViaVoice的推出不僅給研究組很大的震動(dòng),也讓他們看到了語(yǔ)音識(shí)別技術(shù)真正推向市場(chǎng),成為一種普及技術(shù)的曙光。
ViaVoice像有人在黎明前劃亮的一根火柴,它讓很多人以為是曙光已經(jīng)來(lái)臨,但這根火柴很快熄滅了。于是,有人開(kāi)始悲觀,但也有人發(fā)現(xiàn)真正的曙光正在東方顯露出來(lái)。
期待曙光
“2000年的時(shí)候,我們非常圓滿地解決了在大詞匯量非特定人的連續(xù)語(yǔ)音識(shí)別中遇到的關(guān)鍵問(wèn)題。我們?cè)诖嘶A(chǔ)上發(fā)表的論文在中文口語(yǔ)信息處理國(guó)際會(huì)議中榮獲了一等獎(jiǎng),這一技術(shù)在同等條件下已經(jīng)優(yōu)于國(guó)外一些著名研究機(jī)構(gòu)公開(kāi)發(fā)表的準(zhǔn)確率。”徐波對(duì)這一成果相當(dāng)?shù)貪M意。與此同時(shí),他們的語(yǔ)音識(shí)別技術(shù)更多地把上下文相關(guān)等語(yǔ)義分析技術(shù)加入到了其中。正如我們聽(tīng)別人說(shuō)話一樣,我們聽(tīng)懂的不是字詞,而是整句話的語(yǔ)義,以至于我們常常理解了語(yǔ)義卻并不記得原話。因此,一句話中每個(gè)字詞的識(shí)別與上下文密切相關(guān)。
雖然技術(shù)已經(jīng)有了大幅度地突破,而且計(jì)算機(jī)的處理能力也已經(jīng)今非昔比,但“真正實(shí)用的聽(tīng)寫(xiě)應(yīng)用仍是個(gè)瓶頸”。徐波對(duì)語(yǔ)音識(shí)別技術(shù)的應(yīng)用有他自己的看法。
聽(tīng)寫(xiě)應(yīng)用不夠成熟并不意味著語(yǔ)音識(shí)別技術(shù)的產(chǎn)品化就應(yīng)該等待技術(shù)的成熟。徐波提出了目前可行的語(yǔ)音識(shí)別技術(shù)應(yīng)用方向!拔覀冇X(jué)得目前的語(yǔ)音識(shí)別技術(shù)最主要的應(yīng)用不在于PC上,而在移動(dòng)通信設(shè)備和嵌入式產(chǎn)品中!痹谶@種思路的指導(dǎo)下,自動(dòng)化所開(kāi)始了技術(shù)的產(chǎn)品化嘗試。他們?cè)谥形拇笤~匯量、非特定人、連續(xù)語(yǔ)音識(shí)別技術(shù)的基礎(chǔ)上開(kāi)始了三個(gè)方向的產(chǎn)品化工作。PC應(yīng)用、嵌入式應(yīng)用、移動(dòng)通信和網(wǎng)絡(luò)應(yīng)用。
但是,一直以技術(shù)研究為核心能力的研究所在面對(duì)市場(chǎng)時(shí)將面臨很多的問(wèn)題。畢竟,長(zhǎng)期以來(lái)我國(guó)基礎(chǔ)研究與市場(chǎng)化運(yùn)作的嚴(yán)重脫節(jié)難以在短時(shí)間內(nèi)得到連接。而即便是一項(xiàng)成熟的技術(shù),它要在市場(chǎng)上獲得成功也仍有很長(zhǎng)的路需要走。因此,自動(dòng)化所的語(yǔ)音識(shí)別技術(shù)想在市場(chǎng)上獲得期望的效果就必然要有更廣泛的社會(huì)力量的支持。
為此,自動(dòng)化所一方面成立了下屬公司,對(duì)比較成熟的技術(shù)進(jìn)行市場(chǎng)化運(yùn)作;另一方面,他們與國(guó)內(nèi)外眾多的企業(yè)開(kāi)展了技術(shù)合作。通過(guò)與社會(huì)資源的聯(lián)合,自動(dòng)化所終于在6月底推出了基本成型的語(yǔ)音識(shí)別產(chǎn)品。正如自動(dòng)化所所長(zhǎng)譚鐵牛在會(huì)議上所說(shuō)的:“這是一件大事,中國(guó)人的聲音必須由中國(guó)人掌握!彼粌H僅標(biāo)志著自動(dòng)化所在語(yǔ)音識(shí)別領(lǐng)域10多年的努力開(kāi)始有了成果,更重要的是它趟出了一條從國(guó)家支持的技術(shù)研究項(xiàng)目走向市場(chǎng)的道路。
語(yǔ)音識(shí)別技術(shù)能夠走出實(shí)驗(yàn)室,及時(shí)地進(jìn)行產(chǎn)品化,其中很重要的一點(diǎn)在于如何把研究所的技術(shù)研究能力、企業(yè)的產(chǎn)品化和市場(chǎng)化能力結(jié)合起來(lái)。自動(dòng)化所的嘗試填補(bǔ)了研究與市場(chǎng)之間的鴻溝。
合作出產(chǎn)品
6月27日,眾多的新聞媒體和IT業(yè)人士把北京大運(yùn)村天鴻科園大酒店的鴻運(yùn)廳擠得水泄不通。自動(dòng)化所的四款語(yǔ)音識(shí)別產(chǎn)品在這里發(fā)布引起了廣泛的關(guān)注。這四款產(chǎn)品包括三款語(yǔ)音識(shí)別SDK(軟件開(kāi)發(fā)包)和一款DSP語(yǔ)音識(shí)別板卡。這些產(chǎn)品都還不是可以直接拿到市場(chǎng)上賣的終端產(chǎn)品,但它將通過(guò)與大量的產(chǎn)品開(kāi)發(fā)商合作最終實(shí)現(xiàn)這些產(chǎn)品的巨大價(jià)值。如DSP可以被電器廠商加入到它們的電器中,使電器能夠接收主人用語(yǔ)言下的指令。
把它用在電視中,用戶就可以直接告訴它開(kāi)機(jī)、關(guān)機(jī)或切換頻道。
三款SDK產(chǎn)品中,分別面向通信/網(wǎng)絡(luò)、嵌入式系統(tǒng)和PC環(huán)境。它們可以讓手機(jī)、掌上電腦、PC軟件開(kāi)發(fā)商輕易地在相應(yīng)的設(shè)備中加入語(yǔ)音控制功能。
“2000年下半年,我們開(kāi)始考慮語(yǔ)音識(shí)別的應(yīng)用問(wèn)題,最初的考慮是把語(yǔ)音識(shí)別技術(shù)做成SDK,通過(guò)許可證的方式讓各軟件開(kāi)發(fā)商使用!币簿驮谶@個(gè)時(shí)候,自動(dòng)化所下屬的北京中科模識(shí)科技有限公司(簡(jiǎn)稱模識(shí)科技)成立了!拔覀兊南敕ㄊ前岩恍┛梢栽诎肽曜笥彝葡蚴袌(chǎng)的技術(shù)通過(guò)模識(shí)科技的市場(chǎng)化運(yùn)作,把它推出去。”徐波的想法很直接,也很務(wù)實(shí)。
此后,模識(shí)科技與市場(chǎng)上的其他企業(yè)也展開(kāi)了一系列的合作,如針對(duì)具有語(yǔ)音識(shí)別能力的XML平臺(tái)的開(kāi)發(fā),自動(dòng)化所就與中文之星及Intel展開(kāi)了全面的合作。它們?nèi)咧,模識(shí)科技負(fù)責(zé)語(yǔ)音識(shí)別引擎的開(kāi)發(fā),中文之星負(fù)責(zé)XML平臺(tái)級(jí)的軟件開(kāi)發(fā),而Intel負(fù)責(zé)架構(gòu)的設(shè)計(jì)和應(yīng)用市場(chǎng)的支持。這種合作為產(chǎn)品的順利出臺(tái)鋪平了道路。
2001年,自動(dòng)化所開(kāi)始考慮開(kāi)發(fā)一種獨(dú)立于軟件平臺(tái)的硬件語(yǔ)音識(shí)別產(chǎn)品。它們通過(guò)與上海廣電信息股份有限公司和粵TCL聯(lián)合開(kāi)發(fā)完成了語(yǔ)音遙控器。它將使人們可以用語(yǔ)音來(lái)控制家用電器!跋乱徊轿覀儗袲SP板卡做成語(yǔ)音識(shí)別芯片,這樣一方面可以降低成本,另一方面也將促進(jìn)語(yǔ)音識(shí)別技術(shù)的大規(guī)模應(yīng)用。”徐波的話音里透露出看到希望時(shí)的興奮,“語(yǔ)音識(shí)別技術(shù)是一種基礎(chǔ)性技術(shù),它現(xiàn)在也是一種戰(zhàn)略性技術(shù)。未來(lái)的各種隨身設(shè)備都將允許人們用語(yǔ)音來(lái)控制和操作,它不僅僅是在PC的輸入方法中一種‘錦上添花’的技術(shù),而是不可或缺的技術(shù)!毙觳ǘ啻螐(qiáng)調(diào)信息設(shè)備的多模態(tài)交互能力,在他的心目中,人們?cè)谑褂迷O(shè)備時(shí)往往希望借助畫(huà)面、聲音、手寫(xiě)、鍵盤(pán)等多種方式,以便人們更方便地使用它。
對(duì)自動(dòng)化所來(lái)說(shuō),這僅僅是一個(gè)開(kāi)頭,它的語(yǔ)音識(shí)別技術(shù)還有很多的應(yīng)用領(lǐng)域,而這些領(lǐng)域的應(yīng)用要求它更加廣泛地開(kāi)展合作。事實(shí)也正是如此,模識(shí)科技與更多企業(yè)在不同領(lǐng)域的合作也正在商洽之中。也許,這是一條走得通的路。
產(chǎn)品檔案
Pattek語(yǔ)音識(shí)別產(chǎn)品
Pattek是今年6月底中科院自動(dòng)化所推出的語(yǔ)音識(shí)別產(chǎn)品,它包括了Pattek ASR/C2.0、Pattek ASR/T2.0、Pattek ASR/P2.0和Pattek DSP/A1.3四款產(chǎn)品。其中Pattek ASR/C2.0是面向計(jì)算資源要求較為苛刻的嵌入式系統(tǒng)的SDK,Pattek ASR/T2.0是面向通信和網(wǎng)絡(luò)應(yīng)用的SDK,Pattek ASR/P2.0是面向PC平臺(tái)的SDK,Pattek DSP/A1.3則是面向嵌入式環(huán)境的硬件語(yǔ)音識(shí)別板卡。
這些產(chǎn)品的特點(diǎn)在于識(shí)別率高,對(duì)環(huán)境噪聲和口音有很強(qiáng)的適應(yīng)能力。其中,面向嵌入式系統(tǒng)的Pattek ASR/C2.0對(duì)系統(tǒng)要求很低,它對(duì)內(nèi)存資源的占用小于1MB,能運(yùn)行于所有基于Windows CE操作系統(tǒng)的嵌入式產(chǎn)品中。Pattek ASR/T2.0可以支持多服務(wù)器和分布式語(yǔ)音識(shí)別應(yīng)用,單個(gè)服務(wù)器CPU可以同時(shí)處理16路語(yǔ)音輸入,它將主要應(yīng)用于各種行業(yè)的呼叫中心,代替一些人工服務(wù)。面向PC環(huán)境的Pattek ASR/P2.0可以應(yīng)用于基于PC的各種應(yīng)用,如語(yǔ)音玩具、語(yǔ)音教學(xué)、語(yǔ)音多媒體信息查詢等。Pattek DSP/A1.3可以獨(dú)立地嵌入到不同設(shè)備和系統(tǒng)中,提供完整的嵌入式語(yǔ)音識(shí)別解決方案。