Siri開發(fā)商推出普通話應(yīng)用 聲調(diào)成最大挑戰(zhàn)
2012/03/23
北京時(shí)間3月21日消息,據(jù)國(guó)外媒體報(bào)道,國(guó)外媒體日前發(fā)表分析文章稱,語(yǔ)音識(shí)別軟件開發(fā)商N(yùn)uance通信公司除開發(fā)了蘋果語(yǔ)音助手Siri外,還推出了一款智能手機(jī)語(yǔ)音應(yīng)用Dragon,這項(xiàng)應(yīng)用支持多種語(yǔ)言,但在漢語(yǔ)普通話的應(yīng)用上,聲調(diào)成了這項(xiàng)應(yīng)用面臨的最大挑戰(zhàn)。
圖:智能手機(jī)語(yǔ)音應(yīng)用Dragon
以下是文章全文:
在期待著蘋果今年推出中文版Siri的同時(shí),我決定試用一下Nuance開發(fā)的另一款智能手機(jī)語(yǔ)音應(yīng)用Dragon,這項(xiàng)語(yǔ)音應(yīng)用支持多種語(yǔ)音,包括漢語(yǔ)普通話。
盡管與其他多數(shù)語(yǔ)音識(shí)別軟件一樣,中文版Dragon無(wú)法達(dá)到百分之百的準(zhǔn)確,但是總的來(lái)說(shuō)表現(xiàn)還是相當(dāng)驚人的。首先,漢語(yǔ)的聲調(diào)對(duì)語(yǔ)音識(shí)別來(lái)說(shuō)極具挑戰(zhàn)性,漢語(yǔ)普通話僅有400個(gè)單章節(jié)發(fā)音,是按照聲調(diào)來(lái)區(qū)分不同單詞的。這會(huì)意味著什么呢?
以媽媽的“媽”為例,“媽”字讀一聲“mā”,讀四聲就是“罵”(mà),讀三聲則為“馬”(mǎ),而所有這些字的發(fā)音都像“ma”,只是聲調(diào)不同,所表示的意思也是大相徑庭。開發(fā)一款能夠識(shí)別“媽媽罵馬”(māmā mà mǎ)的句子的軟件是件非常困難的事。
盡管漢語(yǔ)普通話是中國(guó)的國(guó)語(yǔ),但是漢語(yǔ)有七大方言和無(wú)數(shù)的地方口音。Nuance負(fù)責(zé)Dragon應(yīng)用開發(fā)的副總裁吉姆•吳(Jim Wu)表示:“在中國(guó)大陸,每個(gè)人都有不同的口音,我們所面臨的挑戰(zhàn)之一就是確保該語(yǔ)音識(shí)別系統(tǒng)能夠識(shí)別那些說(shuō)普通話且口音較輕的用戶的語(yǔ)音!
Nuance總部位于美國(guó)馬薩諸塞州伯靈頓,公司2011財(cái)年實(shí)現(xiàn)營(yíng)收14億美元。Nuance在推出英文版Dragon 應(yīng)用后不久,便于2011年3月推出了兩款免費(fèi)的漢語(yǔ)普通話版Dragon應(yīng)用,6月份又推出了廣東話和臺(tái)灣話版的Dragon應(yīng)用。Dragon Dictation應(yīng)用可以轉(zhuǎn)錄文本、電子郵件、Facebook和Twitter信息。Dragon Search應(yīng)用則可以用于互聯(lián)網(wǎng)搜索。與Siri不同,Dragon無(wú)法與用戶實(shí)現(xiàn)互動(dòng)。
使用Dragon應(yīng)用時(shí),用戶需要點(diǎn)擊一個(gè)虛擬“按鈕”來(lái)開始和停止錄音。Nuance首席營(yíng)銷官彼得•馬奧尼(Peter Mahoney)表示,所有處理都是在服務(wù)器上進(jìn)行的,用戶的語(yǔ)音信息是在被傳輸?shù)椒⻊?wù)器上后,由服務(wù)器來(lái)收聽、錄制,然后將文本信息傳回到設(shè)備上的。
對(duì)于像“最近的星巴克咖啡廳在哪里”和“我要去市場(chǎng)”這樣的一些基本語(yǔ)句,Dragon識(shí)別起來(lái)沒有什么問(wèn)題。但對(duì)于許多用戶來(lái)說(shuō),真正的樂趣是測(cè)試設(shè)備的識(shí)別極限,看看這項(xiàng)技術(shù)能夠在多大程度上匹配人類的語(yǔ)言和思想。因此,我用漢語(yǔ)繞口令來(lái)挑戰(zhàn)Dragon應(yīng)用的極限:媽媽騎馬,馬慢,媽媽罵馬。這句話的發(fā)音就是“Māmā qí mǎ, mǎ màn, māmā mà m!。Dragon能夠捕捉到大部分正確的發(fā)音,但是并不能給出正確的單詞。Dragon給出的結(jié)果是:媽媽起碼,媽媽媽媽嗎?嗎?,這里面的一個(gè)問(wèn)題就是這些單詞的發(fā)音都是“ma”。
馬奧尼表示,盡管Dragon還不能完全準(zhǔn)確地識(shí)別語(yǔ)音,但是這項(xiàng)應(yīng)用具備自主學(xué)習(xí)和改進(jìn)的功能。由于所有語(yǔ)音處理都是在服務(wù)器上進(jìn)行的,因此Dragon收集用戶語(yǔ)音數(shù)據(jù)來(lái)學(xué)習(xí)語(yǔ)言的結(jié)構(gòu)和詞語(yǔ)的組合。Dragon還習(xí)慣每個(gè)用戶的地方口音,因此使用越多,Dragon識(shí)別語(yǔ)音就越準(zhǔn)確。馬奧尼還表示:“這些錄音將保存下來(lái),我們可以使用自動(dòng)化工具對(duì)結(jié)果進(jìn)行分析。有時(shí)候,你需要用錄音讓人們進(jìn)行對(duì)比,看看怎樣才能做得更好!
騰訊科技
相關(guān)閱讀: