發(fā)表評論分享按鈕

手機語音搜索亟待突破中文識別技術瓶頸

2012/02/21

  “娛樂式嘗鮮”利于產品升級改進

  在手機語音搜索這一年度移動互聯網熱點領域,蘋果公司依舊是先行者。此前,蘋果公司推出了iPhone 4S,并在其中集成了Siri模塊——這使得用戶可以通過語音對手機進行控制,同時也可以通過語音進行搜索。蘋果公司巨大的行業(yè)示范效應使得手機語音搜索的市場被引爆,各類語音搜索的應用迅速涌現。

  近日,HTC旗艦級新機HTC Endeavour被曝出包含了一項名為“HTC Speak”的語音助理軟件;國內熱門移動互聯網應用訂餐小秘書也推出了支持語音搜索餐廳功能的Android版及iPhone版客戶端。此前,百度、谷歌、騰訊、UC、科大訊飛等都陸續(xù)推出了自有移動語音搜索應用,一時間語音搜索似乎成為了未來智能終端的必備選項。

  事實上,與國外不同,目前國內手機語音搜索市場雖然已具備了一定的用戶需求與初步的技術積累,但仍處在市場導入期階段。由于目前的技術現狀無法準確識別國內用戶相關需求,用戶多將其作為嘗鮮的娛樂工具而非應用工具,可以看到,我國手機語音搜索應用從起步到成熟仍將有較長的路要走。

  Siri成功培養(yǎng)用戶習慣

  雖未被廣泛普及,但目前國內手機語音搜索的市場發(fā)展基礎已經形成。

  首先,手機語音搜索迎合國內手機用戶需求。用戶在使用手機時,有相當比例的時間處在移動狀態(tài)下,在這種狀態(tài)下,用戶視覺的使用需要在使用手機與其它行為(如觀察路況等)間進行分配,因而無法專注地使用手機。而語音搜索則解決了這一問題,用戶可以通過“說”來提交需求,通過“聽”來獲得反饋,而不會影響用戶正常行為。

  其次,Siri成功引發(fā)了用戶語音搜索使用興趣,國內手機語音搜索市場發(fā)展的引爆點已經出現。在過去十多年中,蘋果公司一直作為行業(yè)引領者而存在,每當其推出了新產品、新應用后,用戶對其高度認可,并將其作為流行趨勢來對待,而市場上也隨之會出現一系列的“借鑒者”,在產品的外觀、功能等諸多方面進行借鑒?梢钥吹,當Siri被集成到iPhone 4S中后,在其它各類應用市場上,迅速出現了上百種與語音相關的應用,并且凡是涉及到搜索的(包括搜索引擎以及各類應用中所涉及到的搜索功能),也無一例外地加上了語音搜索模塊。

  第三,中文語音搜索的技術基礎已初步形成。語音搜索并非蘋果公司所獨創(chuàng),核心技術也并非完全掌握在蘋果公司處,這就使得語音搜索的廣泛應用成為可能。語音搜索從技術本質而言,是先對用戶所說的語句進行語音識別,再根據識別的結果進行搜索,并反饋用戶相應結果。目前,科大訊飛、谷歌等企業(yè)歷經多年的發(fā)展,通過語音庫、語義庫的構建,已經能夠較好地識別用戶的語音;而語義庫的構建,也實現了機器對人自然語言的解讀,為更加精確反饋搜索結果奠定了基礎。同時,移動互聯網與云計算的發(fā)展,也使得基于在線龐大語音、語義庫,實現精準識別成為可能。

  中文識別難上加難

  盡管手機語音搜索市場基礎已經形成,但是短期內市場無法規(guī)模推廣,其根本原因在于目前技術仍不成熟。

  眾所周知,每個人的口音均有一定的差別,能夠準確識別用戶在說什么,本身就是一件很困難的事,而中文的同音不同字情況較多,將用戶的語句識別為哪些詞組,還需要考慮上下文的具體情況,相比英文、德文等拉丁語系的一個發(fā)音明確對應一個單詞而言,中文的識別難度無疑會更高。同時,在中文中,同樣的一句話,在不同的語境中,具備了不同的含義,識別難度會更大,很難實現以自然語言進行搜索,并準確反饋搜索結果。

  此外,為了調用語音、語義庫,以更加精準地理解用戶的意思,目前不少語音搜索服務商的做法是將用戶所說的語音上傳到服務器,由服務器進行識別,但這對網絡的速度、服務器的處理能力等提出了較高的要求。

  筆者曾對目前較為流行的谷歌語音搜索應用進行測試,發(fā)現其對標準普通話的理解尚可,但如果發(fā)音稍不準確或者出現一些較為冷僻的詞匯,則識別準確度就會出現明顯下降,需要手工調整;同時,在光纖接入的Wi-Fi環(huán)境下,識別一句完整的話也需要數十秒的等待時間。

  音調類搜索或密集涌現

  從長期發(fā)展趨勢上看,當語音搜索技術達到成熟時,手機將成為用戶的智能助理,用戶可以用自然語言向手機發(fā)出命令,手機快速完成用戶的請求,包括執(zhí)行相關應用、反饋相關信息等,而目前的應用如Siri,雖然具備了相應的理念,但尚不能完全實現相應的功能,特別是基于中文的應用。

  為了推動手機語音搜索產品加速步入成熟階段,在現階段,將有諸多廠商,按照手機語音搜索成熟階段的理念提供相應產品,并不斷優(yōu)化。這些產品主要包括手機輸入法、搜索框的輸入、手機語音應用等。它們在初期或許并不成熟,用戶需要努力用標準的普通話發(fā)音,而不能用自己所常使用的說話方式,并且未必能夠得到精確的反饋結果,因此,此類產品往往被用戶嘗鮮式使用,并被當作一種娛樂工具而非應用工具,但是,在產品被用戶使用的過程中,廠商能夠不斷采集用戶的聲音、用戶語言,從而形成較為完善的語音庫、語義庫,使得產品能夠逐步趨向成熟。

  同時,手機語音搜索的另一個發(fā)展方向是音調搜索,例如用戶想搜索一首音樂,但他只能記得部分的聲音片段,如果他能夠哼唱出音調,那么搜索工具同樣能夠支持搜索。預計在未來,此類產品將不斷涌現。

  總之,審視手機語音搜索的商業(yè)模式,筆者認為其不能構建獨立的商業(yè)模式,而將更多作為一種技術手段,支撐其它各類型應用更好地發(fā)展,并且在不斷的信息搜集中,實現ICT產業(yè)的重要發(fā)展目標之一,即人工智能的深入突破。

通信世界周刊



相關閱讀:
華為與芒果網合推最新應用軟件“勢力邦” 2012-02-21
盛大語音平臺為開發(fā)者插上聲音的翅膀 2012-02-17
智能手機安全堪憂 安卓平臺危險最大 2012-02-15
全球智能手機銷量首超PC 移動互聯網引發(fā)跨界風 2012-02-15
LinkedIn移動領域發(fā)展迅速 欲將廣告植入應用 2012-02-10

熱點專題:  移動互聯網