掌控語音就將掌控一切。語音之“熱”是真正的產業(yè)良機還是過度炒作?中國語音企業(yè)該選擇怎樣的成長路徑?如何揚長避短與國際巨頭一較高下?
科大訊飛立體云、捷通華聲套餐云、云知聲靈巧云和百度開放云……且看各門各派如何搶灘中國智能語音市場。
這是一個最好的時代,這是一個聲控的時代,這是個光明的季節(jié),也是個希望的春日。
從幾年前蘋果Siri將語音迅速升溫推至消費者面前,到現(xiàn)在語音助手幾乎已成為智能手機、汽車電子、智能家居的標配,從人們過去在路邊招手打車到現(xiàn)在先用微信與出租車師傅說好再出門……似乎,智能語音產業(yè)已經(jīng)迎來生機盎然的春天。語音一時間成為輿論的焦點:“語音將徹底替代鼠標、鍵盤”,“語音將成為移動互聯(lián)網(wǎng)主流信息入口”,“誰掌控語音誰就將掌控一切”……看好、贊揚語音之聲不絕于耳。
但一個技術從萌芽期開始不斷發(fā)展,要醞釀多久才會到爆發(fā)期?智能語音產業(yè)是真的到爆發(fā)期了,還是被提前過度炒作了?智能語音產業(yè)現(xiàn)狀和未來發(fā)展方向如何?中國智能語音企業(yè)又該如何選擇適合自己的成長路徑?帶著這些疑問,本報記者先后采訪多位智能語音專家,力求探知一二。
莫錯失趕超良機
智能語音是新一代的人機交互技術手段之一。就像人與人之間對話交流一樣,智能語音是要通過語音實現(xiàn)人與機器之間的交互,即機器能聽懂,并能回答提問,實現(xiàn)對話互動。“智能語音技術主要包括語音識別、自然語言理解和語音合成三個環(huán)節(jié),完成讓機器聽懂人說話,再讓機器說人話的過程。這種交互需要基于海量的語料庫,通過模型實現(xiàn)語音識別和語義理解,包括對語法、分詞、情景,甚至是情緒等的理解,再通過知識庫系統(tǒng)找到答案,然后通過語音合成技術說出答案,來回交互。”在接受記者采訪時,中國語音產業(yè)聯(lián)盟副秘書長李德升這樣給出他對智能語音的理解。
百度語音首席研究員賈磊在第十八屆中國國際軟件博覽會的演講中介紹,百度語音就是通過語音識別、語義理解和后臺資源來實現(xiàn)“你說我聽”、“你說我想”和“你說我做”的過程,打造人機交互的閉環(huán)過程。
人機智能語音交互,說起來容易做起來難。20世紀50年代,AT&T開發(fā)出第一個語音識別系統(tǒng)Audry;20世紀80年代,智能語音技術研究由傳統(tǒng)的基于標準模型匹配的技術思路開始轉向基于統(tǒng)計模型的技術思路;21世紀初,智能語音從技術研究走向實用并進入產業(yè)化,進入呼叫中心、家電、汽車等領域;而近期,以蘋果Siri發(fā)布為重要引爆點,智能語音應用才開始向移動互聯(lián)網(wǎng)等新興領域延伸,產業(yè)進而不斷積累、發(fā)展。
智能語音技術是人工智能的研究領域之一,其原理涉及聲學、語言學、數(shù)字信號處理和計算機科學等多個學科,研究周期長,投入成本大,技術壁壘高。全球和中國智能語音市場基本形成寡頭壟斷的格局。隨著智能語音產業(yè)的快速發(fā)展,產業(yè)競爭進一步加劇,也吸引了IT巨頭和中小創(chuàng)業(yè)團隊爭相進入,與傳統(tǒng)語音技術提供商共同角逐智能語音市場。
在國際市場,既有像Nuance這樣的占據(jù)全球62%語音市場的傳統(tǒng)語音技術巨頭,也有谷歌、蘋果、微軟、IBM等IT巨頭的競爭參與。在國內市場,李德升告訴記者,目前我國語音技術廠商基本分為三類:一類是傳統(tǒng)語音技術廠商,一般從科研院所基礎研究脫胎,包括像科大訊飛(中國科技大學)、捷通華聲(清華大學、中科院聲學所、北京大學)、中科模識(中科院自動化所)、中科信利(中科院聲學所)等;第二類是互聯(lián)網(wǎng)廠商,包括百度、騰訊、搜狗等,它們?yōu)榻o其廣大的互聯(lián)網(wǎng)用戶提供更好的增值服務,普遍采用戰(zhàn)略合作或者收購等方式,掌握智能語音技術,推廣語音服務;第三類是創(chuàng)業(yè)企業(yè),像云知聲、思必馳等,它們專注于某些行業(yè)領域,比如汽車、家電、教育、社交網(wǎng)絡來推廣自己的語音技術和產品。
近幾年來,移動互聯(lián)網(wǎng)蓬勃發(fā)展,基于互聯(lián)網(wǎng)海量數(shù)據(jù)的深度神經(jīng)網(wǎng)絡技術有力推進,智能家電、汽車電子、可穿戴設備等領域加速應用,汽車、醫(yī)療、智能家居、教育等行業(yè)應用不斷拓展,智能語音作為新的信息入口,開始引領產業(yè)重大變革。
這一兩年來,我國智能語音市場也是風起云涌:2012年8月中國移動以13.6億元戰(zhàn)略投資科大訊飛,科大訊飛受二級市場機構投資者追捧市值超過200億元;云知聲創(chuàng)立僅一年就先后獲得兩輪投資,其中一次融資金額高達1億元;2013年5月,捷通華聲宣布來自百度、清華大學戰(zhàn)略投資;2013年8月,百度正式宣布向開發(fā)者開放語音生態(tài)系統(tǒng),包括底層的語音識別技術應用程序開發(fā)接口(API)、百度語音助手軟件開發(fā)工具包(SDK);同樣在這個月騰訊在微信5.0中增加語音輸入功能,一出來便風靡大眾,微信APP已經(jīng)成為消費者每天必刷的強大APP之一;直到最近,2014年4月12日,云知聲組織創(chuàng)業(yè)公司牽頭成立“全智能交互聯(lián)盟”;2014年4月29日,科大訊飛的訊飛輸入法繼支持粵語、四川話、河南話等方言之后宣布支持東北話語音輸入;5月20日晚,錘子科技首款智能手機Smartisan T1發(fā)布,借科大訊飛智能語音技術實現(xiàn)語音搜索、語音輸入等特色功能……整個產業(yè)一片欣欣向榮。
“智能語音是人機智能交互的手段之一,而人機智能交互是目前中國技術企業(yè)有可能趕超國際的為數(shù)不多的產業(yè)機遇之一。產業(yè)變革是以技術為先導的。在PC/互聯(lián)網(wǎng)時代,我國技術企業(yè)在計算機技術尤其是操作系統(tǒng)等方面,因為起步晚,趕超微軟、谷歌等國際技術公司比較難,但在智能交互這個技術領域,相對而言,目前中西方起步差不多,如果我們能把握好現(xiàn)在的機會,好好練內功,發(fā)展我們自己的包括智能語音在內的交互技術,也許在這方面我們可以真正和國際公司一較高下,真正從中國制造走向中國創(chuàng)造。”北京捷通華聲語音技術有點公司(簡稱捷通華聲)董事長張連毅這樣告訴記者。
與張連毅持相同觀點的還有科大訊飛信息科技股份有限公司(簡稱科大訊飛)副總裁江濤和北京云知聲信息技術有限公司(簡稱云知聲)CEO黃偉。在他們看來,智能語音是難得的一次產業(yè)良機,錯過語音,中國技術企業(yè)很難再有機會趕超國際了。