智能語音技術(shù)是人工智能的研究領(lǐng)域之一,其原理涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、計算機科學(xué)等多個學(xué)科,研究周期長、投入成本大,技術(shù)壁壘高,全球和中國語音市場基本形成寡頭壟斷格局。隨著智能語音產(chǎn)業(yè)的快速發(fā)展,產(chǎn)業(yè)競爭進一步加劇,吸引IT巨頭和中小創(chuàng)業(yè)團隊爭相進入,和傳統(tǒng)語音技術(shù)提供商共同角逐智能語音市場。
一、基本形成寡頭壟斷格局
就全球市場而言,谷歌、蘋果等IT巨頭的強勢進入,加上傳統(tǒng)語音技術(shù)廠商長期的技術(shù)和用戶積累,市場基本上形成了寡頭壟斷格局。2012年,Nuance、谷歌、微軟、蘋果、IBM、科大訊飛五家龍頭企業(yè)占據(jù)超過95.0%的市場份額。其中,Nuance自2005年與ScanSoft公司合并后,成為全球最大的語音技術(shù)廠商,憑借自身先進的語音識別、自然語言理解技術(shù)以及優(yōu)秀的語音解決方案,占有全球62.0%的語音市場。截至2012年底,其在全球擁有超過100家分公司或辦事處,業(yè)務(wù)覆蓋美國、英國、澳大利亞、奧地利、加拿大、德國、印度、中國等30多個國家和地區(qū),業(yè)務(wù)涉及醫(yī)療保健、手機及消費者、企業(yè)服務(wù)等多個領(lǐng)域。谷歌憑借搜索方面的優(yōu)勢,通過對智能語音技術(shù)的持續(xù)大規(guī)模投入,將其應(yīng)用在移動搜索、可穿戴設(shè)備等領(lǐng)域,后來居上,占據(jù)18.9%的市場份額。微軟作為較早從事智能語音技術(shù)研究的企業(yè),其語音服務(wù)器在政府、金融、醫(yī)療、制造業(yè)等領(lǐng)域均得到應(yīng)用。近年來,微軟將其語音技術(shù)在游戲、即時翻譯、Windows Phone等產(chǎn)品中推廣應(yīng)用,市場份額不斷擴大,達到6.6%。蘋果長期以來致力于智能語音技術(shù)研發(fā)及其在電子終端上的應(yīng)用和推廣,早在1984年就推出了第一臺會說話的計算機Macintosh,于2010年收購Siri,2011年推出了內(nèi)置語音助手軟件Siri的iPhone 4s,成功掀起了智能語音產(chǎn)業(yè)熱潮。2012年,蘋果憑借Siri迅速搶占全球智能語音市場,占據(jù)近4.2%的市場份額。IBM是最早進入語音領(lǐng)域的企業(yè)之一,通過在語音識別和機器翻譯產(chǎn)品方面的持續(xù)發(fā)力,占據(jù)超過4.0%的市場份額?拼笥嶏w作為中文智能語音的引領(lǐng)者,占據(jù)全球約3.2%的市場份額。
圖1 2012年全球智能語音企業(yè)市場份額
資料來源:工業(yè)和信息化部電子科學(xué)技術(shù)情報研究所
在中國智能語音市場,鑒于中國傳統(tǒng)文化和中文的特殊性,且得益于國內(nèi)科研院所、企業(yè)扎實的研究基礎(chǔ),中文智能語音技術(shù)處于國際領(lǐng)先水平,形成了一批優(yōu)秀智能語音企業(yè),提供面向多領(lǐng)域、全行業(yè)的智能語音技術(shù)及服務(wù),核心技術(shù)包括語音合成、語音識別、語義理解、聲紋識別等多個方面,業(yè)務(wù)涉及移動互聯(lián)網(wǎng)、智能家電、智能客服等多個領(lǐng)域,覆蓋教育、汽車、金融、醫(yī)療等多個行業(yè),以科大訊飛、百度、Nuance、捷通華聲為代表的寡頭壟斷格局基本形成。其中科大訊飛憑借多年的技術(shù)和用戶積累,以54.3%的市場份額穩(wěn)居行業(yè)龍頭的位置。百度憑借在互聯(lián)網(wǎng)領(lǐng)域的優(yōu)勢,后來居上,成功在智能語音市場占據(jù)了重要位置,市場份額達到13.0%。百度自2010年進入智能語音領(lǐng)域以來,其語音搜索用戶已經(jīng)占據(jù)其移動搜索用戶的1/10。蘋果憑借Siri與iPhone系列產(chǎn)品的綁定銷售,占據(jù)中國約11.7%的市場份額。Nuance憑借其雄厚的技術(shù)實力和強大的市場拓展能力,以5.4%的市場份額在中國市場仍占據(jù)一席之地,但其市場份額已經(jīng)出現(xiàn)一定下滑,這主要是受制于中文智能語音的技術(shù)門檻。目前其在中國的主要市場為移動互聯(lián)網(wǎng)和車載市場。如為蘋果Siri提供技術(shù)支持,以及為寶馬、奔馳等進口汽車廠商提供智能語音技術(shù)支持。但其在呼叫中心等傳統(tǒng)領(lǐng)域的市場份額大幅下降,目前主要依靠華為、思科等硬件廠商仍占有少量份額。捷通華聲、中科信利、中科模識作為行業(yè)的先行軍,憑借其雄厚的技術(shù)背景,繼續(xù)在智能語音市場占據(jù)重要位置。
圖2 2012年中國智能語音市場份額
資料來源:工業(yè)和信息化部電子科學(xué)技術(shù)情報研究所
二、傳統(tǒng)技術(shù)企業(yè)依托科研院所仍居主導(dǎo)地位
以學(xué)帶研、以研促產(chǎn)、產(chǎn)學(xué)研用密切結(jié)合是智能語音產(chǎn)業(yè)發(fā)展最為典型的特點。作為科研驅(qū)動型行業(yè),智能語音技術(shù)研究最早起源于貝爾實驗室,斯坦福、卡內(nèi)基梅隆等學(xué)校的研究為智能語音產(chǎn)業(yè)發(fā)展奠定了堅實的基礎(chǔ),蘋果Siri的雛形便是源自于斯坦福研究院聯(lián)合麻省理工學(xué)院、卡內(nèi)基梅隆大學(xué)等多家機構(gòu)承擔(dān)的美國國防高級研究計劃局(DARPA)的CALO項目。Nuance也是源于斯坦福研究院的STAR實驗室。
在中文智能語音市場,基本形成了基礎(chǔ)研究與產(chǎn)業(yè)應(yīng)用協(xié)同發(fā)展的局面。圍繞科研院所形成的傳統(tǒng)技術(shù)廠商呈現(xiàn)高度集聚發(fā)展的特性,依托科研院所的技術(shù)優(yōu)勢,他們在行業(yè)中仍居主導(dǎo)地位。以中國科學(xué)院聲學(xué)所、中國科學(xué)院自動化所、中國科技大學(xué)、清華大學(xué)、北京大學(xué)、社科院語言所為代表的科研院所作為最早從事智能語音及相關(guān)技術(shù)的研究機構(gòu),長期以來專注于語音理論研究和技術(shù)研發(fā),形成了領(lǐng)先的中文智能語音技術(shù)體系。一方面,他們自己成立智能語音控股公司,形成了真正的產(chǎn)學(xué)研一體化,如中科院自動化所的中科模識、中科院聲學(xué)所的中科信利、清華大學(xué)的得意音通。另一方面,他們與企業(yè)結(jié)成了廣泛的合作關(guān)系,為其提供技術(shù)支持,如百度與中科院聲學(xué)所在2010年初就聯(lián)合成立了百度—中科院聲學(xué)所聯(lián)合實驗室。另外,這些科研院所培養(yǎng)出來的人才也逐漸成為技術(shù)領(lǐng)軍人才,成為產(chǎn)業(yè)發(fā)展的中流砥柱。
圖3 主要傳統(tǒng)語音技術(shù)企業(yè)及其支撐科研院所
資料來源:工業(yè)和信息化部電子科學(xué)技術(shù)情報研究整理
2010年,科大訊飛推出語音云服務(wù),并憑借在語音識別和語音合成及行業(yè)應(yīng)用等方面深度的積累,2012年收入7.8億元,其中語音及相關(guān)業(yè)務(wù)收入超過5.3億元,合作伙伴超過2000家,語音云用戶超過3億。捷通華聲、中科信利、中科模識等企業(yè)具有在語音領(lǐng)域多年的技術(shù)和用戶積累,是智能語音產(chǎn)業(yè)的中堅力量。捷通華聲是最早成立的智能語音企業(yè)之一,憑借其在語音合成、手寫識別等智能人機交互技術(shù)方面的優(yōu)勢,與三大運營商、華為、中興等多家企業(yè)達成合作,業(yè)務(wù)領(lǐng)域覆蓋金融、電信、航空等多個領(lǐng)域。中科模識是中科院自動化所的經(jīng)濟實體,自動化所依靠模式識別國家重點實驗室,在語音識別領(lǐng)域具有近30年的研究歷史。目前有各類研發(fā)人員近100多人,研究范圍涉及語音識別、語音合成、對話管理和理解、多語言翻譯等。中科信利是中科院聲學(xué)所的經(jīng)濟實體,聲學(xué)所是中國聲學(xué)研究的奠基單位之一。公司目前擁有研發(fā)隊伍130余人、授權(quán)發(fā)明專利42個。公司長期專注語音識別研究,注重研究與實用相結(jié)合,除與百度合作之外,還通過把語音技術(shù)授權(quán)給騰訊、阿里巴巴、YY語音、UCweb、聯(lián)想、長虹、步步高、諾亞舟、索貝、大洋等客戶,其語音技術(shù)服務(wù)的用戶群體迅速擴大。
三、IT巨頭強勢進入搶占語音信息流入口
伴隨著智能語音發(fā)展的熱潮,通過主導(dǎo)智能語音技術(shù)服務(wù)而擁有信息技術(shù)應(yīng)用和語音信息流的關(guān)鍵入口成為IT企業(yè)競爭的熱點和焦點。近年來,以谷歌、蘋果、微軟、百度、騰訊、搜狗為代表的IT巨頭紛紛通過自主研發(fā)和合作研發(fā)推出自己的語音產(chǎn)品,加大對語音市場的爭奪。
谷歌通過在語音領(lǐng)域的大力投入,以及其強大的知識圖譜和用戶積累,在語音市場占據(jù)重要位置,并率先掌握了全球語音信息流入口。截至目前,其智能語音技術(shù)在輸入法、語音控制、翻譯、網(wǎng)頁搜索等應(yīng)用中進行了深度整合,于2010、2011、2012年相繼推出支持語音搜索等功能的Voice Action,Google Now、Google Search、谷歌眼鏡等產(chǎn)品,并開放了語音識別的API供開發(fā)者使用,在最新推出的Moto X中內(nèi)置了隨時待命的語音助理。蘋果在2011年10月將語音助手Siri作為iPhone 4S的核心功能推出,力圖掌握移動互聯(lián)網(wǎng)信息流入口。2013年8月,蘋果成立自己的語音小組,試圖擺脫對Nuance語音技術(shù)的依賴,代表其正式進軍智能語音行業(yè)。微軟將智能語音技術(shù)與Windows操作系統(tǒng)和Windows Phone系統(tǒng)結(jié)合,把語音交互作為其核心交互模式,試圖將對信息技術(shù)應(yīng)用和語音信息流入口掌控從桌面延伸到移動互聯(lián)網(wǎng)領(lǐng)域。同時,微軟實時語音翻譯軟件已具雛形,可實現(xiàn)26種語言互譯,這為其搶占全球語音市場占得先機。
國內(nèi)如百度、搜狗、騰訊等IT巨頭先后涉足智能語音領(lǐng)域,并先后推出自己產(chǎn)品,力爭搶得智能語音信息流入口先機。百度2010年開始進行智能語音及相關(guān)技術(shù)研發(fā),憑借其強大用戶積累,用戶規(guī)模迅速擴大。2010年9月,百度基于中科院聲學(xué)所語音識別技術(shù)在國內(nèi)推出了第一個基于云端識別的移動互聯(lián)網(wǎng)應(yīng)用--“掌上百度”,拉開了移動互聯(lián)網(wǎng)語音應(yīng)用的序幕。2012年12月,百度推出自主研發(fā)的語音助手,截止到2013年6月,其語音搜索用戶已占其移動搜索總用戶的1/10。2013年8月,百度正式宣布將向開發(fā)者開放語音生態(tài)系統(tǒng),此次的開放分三個層次,一是最底層的語音識別技術(shù)應(yīng)用程序編程接口(API)的開放,包括合成技術(shù)、理解技術(shù)、認證技術(shù)、指紋技術(shù)等,開發(fā)者可以調(diào)用API實現(xiàn)語音識別功能。二是百度語音助手軟件開發(fā)工具包(SDK)開放,向開發(fā)者提供開發(fā)工具包,實際上是對語音識別標準化服務(wù)進行封裝,識別結(jié)果做關(guān)鍵詞抽取,搜索結(jié)果進行結(jié)構(gòu)化數(shù)據(jù)返回,最終對接服務(wù)和應(yīng)用。第三層的開放主要面向能力弱的開發(fā)者,將百度語音助手直接安裝在硬件上即可使用。9月,百度與三星達成合作,將其語音助手內(nèi)置在智能手表Galaxy Gear上,為其進入智能穿戴設(shè)備領(lǐng)域奠定了基礎(chǔ)。搜狗于2012年12月正式推出語音助手,成為國內(nèi)第一家涉足移動智能語音服務(wù)領(lǐng)域的搜索廠商。2013年2月,搜狗語音助手聯(lián)合微信開發(fā)首款微信語音應(yīng)用——搜狗語音助手微信版。9月,搜狗語音助手接入搜狗知立方數(shù)據(jù)。2013年8月,騰訊為進一步提升用戶體驗水平和數(shù)據(jù)資源整合,在微信5.0中增加語音輸入功能,其語音團隊打造的語音技術(shù)成果正式亮相。隨后,網(wǎng)易聯(lián)合中國電信推出易信,強大的語音功能和優(yōu)質(zhì)的效果成為其主要賣點之一。
四、中小創(chuàng)業(yè)團隊?wèi){技術(shù)和產(chǎn)品創(chuàng)新快速成長
中小創(chuàng)業(yè)團隊借智能語音東風(fēng)趁勢而起,以云知聲、紫冬銳意、光年無限、聚熵智能為代表的創(chuàng)業(yè)團隊?wèi){借其較強的技術(shù)和產(chǎn)品創(chuàng)新優(yōu)勢迅速成長,并逐漸在市場中占據(jù)重要位置,發(fā)展?jié)摿^大。其中,云知聲作為智能語音領(lǐng)域的新銳企業(yè)快速成長,依托強大的語音識別和自然語言理解技術(shù),僅一年就推出了自己的語音產(chǎn)品和語音云平臺,與搜狗、樂視等1000多家企業(yè)展開合作,業(yè)務(wù)遍及移動互聯(lián)網(wǎng)、車載、智能電視等多個領(lǐng)域。紫冬銳意以中國科學(xué)院自動化研究所技術(shù)為背景,2012年發(fā)布國內(nèi)首個集成中英文語音識別、中英文語音合成、多語言翻譯技術(shù)的“紫冬語音云平臺”,同時發(fā)布國內(nèi)首款基于云識別的同聲翻譯軟件——紫冬口譯。聚熵智能、光年無限等企業(yè)專注于自然語言理解技術(shù)和產(chǎn)品創(chuàng)新,通過與科大訊飛等傳統(tǒng)語音企業(yè)的合作,迅速搶占市場,已經(jīng)在智能語音領(lǐng)域占據(jù)重要位置。據(jù)易觀數(shù)據(jù),截止2013年5月27日,蟲洞語音助手、智能360的累計下載量已分別達到1325.3萬、1117.3萬。