亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

您當(dāng)前的位置是:  首頁(yè) > 新聞 > 專家觀點(diǎn) >
 首頁(yè) > 新聞 > 專家觀點(diǎn) >

普強(qiáng)信息何國(guó)濤:做語(yǔ)音識(shí)別就要快、準(zhǔn)和專注

2017-04-26 09:43:23   作者:   來(lái)源:i黑馬   評(píng)論:0  點(diǎn)擊:


  語(yǔ)音識(shí)別是“最具前途”的領(lǐng)域
  從北京大學(xué)和美國(guó)費(fèi)城大學(xué)分別獲得計(jì)算機(jī)系碩士學(xué)位后,何國(guó)濤曾在HP、Aruba等公司從事Opencall、Voice XML、無(wú)線網(wǎng)關(guān)等產(chǎn)品的研究和開(kāi)發(fā),HP多媒體服務(wù)器的語(yǔ)音識(shí)別技術(shù),就是他所在的小組研發(fā)的。
  而也就是在Aurba,何國(guó)濤結(jié)識(shí)了蒲瑤。后者本科畢業(yè)于中國(guó)科技大學(xué),是科大訊飛CEO劉慶峰同系校友,同樣也是從事語(yǔ)音識(shí)別相關(guān)產(chǎn)品的研發(fā)。
  2008年,科大訊飛上市,一度壟斷國(guó)內(nèi)語(yǔ)音識(shí)別市場(chǎng)的半壁江山。但那時(shí)的語(yǔ)音識(shí)別創(chuàng)業(yè)領(lǐng)域,還是一片待開(kāi)發(fā)的處女地。后來(lái)被蘋果收購(gòu)的Siri也成立沒(méi)有多久,而何國(guó)濤卻動(dòng)了創(chuàng)業(yè)的念頭。
  “我剛畢業(yè)時(shí),根本還沒(méi)有人會(huì)說(shuō)自己是學(xué)人工智能相關(guān)的。因?yàn)槟且馕吨I(yè)。”何國(guó)濤說(shuō)。“也有很多人質(zhì)疑,總是說(shuō)這個(gè)方向不對(duì),那個(gè)技術(shù)不好。而我們就決定,自己出來(lái),在這個(gè)領(lǐng)域做一些事情。”
  何國(guó)濤和蒲瑤最終還是決定,在語(yǔ)音識(shí)別領(lǐng)域做下去。“創(chuàng)業(yè),我認(rèn)為一是要有技術(shù)壁壘,二就是要有能夠賺錢的市場(chǎng)。我在惠普接觸了客戶需求,也懂得應(yīng)用,我認(rèn)為,語(yǔ)音識(shí)別仍然是最具前途的領(lǐng)域之一,而當(dāng)時(shí),其他人要進(jìn)入這塊領(lǐng)域,也并非容易。”為了解決核心算法,何國(guó)濤還“挖”來(lái)了自己的師弟——IBM Almaden研究中心的李全忠博士。后者一直從事數(shù)據(jù)庫(kù)及云計(jì)算研究,還獲得過(guò)IBM發(fā)明成就獎(jiǎng)。
  于是,普強(qiáng)信息最初的創(chuàng)始團(tuán)隊(duì)形成了。何國(guó)濤擔(dān)任CEO,負(fù)責(zé)公司運(yùn)營(yíng);李全忠博士任CTO,負(fù)責(zé)核心算法的研究;蒲瑤(普強(qiáng)信息VP)負(fù)責(zé)產(chǎn)品。2009年,普強(qiáng)信息在美國(guó)加州硅谷成立,并獲得了EDA之父黃炎松博士的100萬(wàn)美元A輪投資。第二年,普強(qiáng)信息設(shè)立了中國(guó)運(yùn)營(yíng)公司,在硅谷和中關(guān)村都設(shè)有技術(shù)研發(fā)中心。2013年,普強(qiáng)獲得戈壁領(lǐng)投500萬(wàn)美元B輪投資,2016年獲得四維圖新領(lǐng)投的近億人民幣的C輪融資。
  目前,普強(qiáng)研發(fā)團(tuán)隊(duì)占公司人員的80%左右,其中博士、碩士以上學(xué)歷者超過(guò)30%。
  挑戰(zhàn)語(yǔ)音大數(shù)據(jù)分析
  何國(guó)濤對(duì)公司的發(fā)展方向有長(zhǎng)期的思考。“小公司做事要專注,現(xiàn)在普強(qiáng)一百多人只做垂直領(lǐng)域,包括車載和電話信道語(yǔ)音識(shí)別,而且要做到最好。其實(shí)這很簡(jiǎn)單,就集中優(yōu)勢(shì)力量做好一個(gè)小事情。”
  普強(qiáng)在自身的語(yǔ)音識(shí)別和語(yǔ)義分析技術(shù)基礎(chǔ)上,就鎖定了兩個(gè)方向:語(yǔ)音大數(shù)據(jù)和車載。
  當(dāng)前,由于智能設(shè)備的大量應(yīng)用,大量數(shù)據(jù),尤其是呼叫中心等領(lǐng)域,大部分?jǐn)?shù)據(jù)都是語(yǔ)音和圖像等非結(jié)構(gòu)化數(shù)據(jù)。普強(qiáng)力圖提供語(yǔ)音大數(shù)據(jù)分析能力,為企業(yè)解決非結(jié)構(gòu)化數(shù)據(jù)分析的需求。
  2010年,普強(qiáng)面向呼叫中心推出了“千語(yǔ)語(yǔ)音識(shí)別引擎系統(tǒng)”和“千語(yǔ)千尋語(yǔ)音分析系統(tǒng)”。
  據(jù)介紹,普強(qiáng)已經(jīng)為金融、電信、保險(xiǎn)等多個(gè)行業(yè),提供了準(zhǔn)確度較高的電話信道的ASR(語(yǔ)音識(shí)別)引擎。針對(duì)呼叫中心座席與客戶的對(duì)話,千語(yǔ)千尋系統(tǒng)的算法和模型接入后,能將不同地域口音的來(lái)電轉(zhuǎn)換成文字,還能根據(jù)不同的系統(tǒng)用戶需求,標(biāo)注出關(guān)鍵用詞。
  李全忠博士向黑智(VR-2014)介紹,“千語(yǔ)語(yǔ)音識(shí)別引擎系統(tǒng)”開(kāi)發(fā)應(yīng)用了深度神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)語(yǔ)音切分技術(shù)和對(duì)識(shí)別結(jié)果的算法,進(jìn)行語(yǔ)速探測(cè)、情緒識(shí)別等,以及對(duì)講話對(duì)象、時(shí)間邊界等進(jìn)行分割,不僅提高了語(yǔ)音識(shí)別結(jié)果,也可以輔助企業(yè)進(jìn)一步挖掘和分析海量語(yǔ)音數(shù)據(jù)。
  當(dāng)坐席和客戶通話時(shí),接入了普強(qiáng)的千語(yǔ)千尋系統(tǒng)模型,不僅能將不同方言的來(lái)電轉(zhuǎn)換成文字,還能根據(jù)不同的系統(tǒng)用戶需求,標(biāo)注出關(guān)鍵用詞,并針對(duì)其進(jìn)行統(tǒng)計(jì)和專業(yè)化分析,挖掘客戶需求;對(duì)客戶流失進(jìn)行預(yù)警分析,挖掘客戶投訴原因,進(jìn)行干預(yù);或者替代人工質(zhì)檢。何國(guó)濤舉例說(shuō),例如某保險(xiǎn)公司就有2萬(wàn)左右名保險(xiǎn)銷售,管理者需要知道如何提高銷售成功率,客戶投訴的是什么問(wèn)題,客戶購(gòu)買保險(xiǎn)服務(wù)的原因是什么等。“千尋”把這些問(wèn)題都細(xì)化成文字,以解決客戶的需求,提升公司工作效率和營(yíng)銷轉(zhuǎn)化率。
  進(jìn)行語(yǔ)音大數(shù)據(jù)分析,最基本的一點(diǎn)就是數(shù)據(jù)。李全忠表示,普強(qiáng)在呼叫中心電話線領(lǐng)域積累了十多年的數(shù)據(jù),對(duì)電話語(yǔ)音數(shù)據(jù)處理和標(biāo)注的積累,在業(yè)內(nèi)是首屈一指的。
  而對(duì)語(yǔ)音分析,最關(guān)鍵的比拼點(diǎn),則是“快”和“準(zhǔn)”。“準(zhǔn)確度和識(shí)別速度往往要平衡,在不損失精度的前提下,我們可以做到最快,系統(tǒng)的全文識(shí)別率可達(dá)85%以上,關(guān)鍵詞識(shí)別率達(dá)95%以上。”李全忠博士說(shuō)。他表示,千語(yǔ)千尋語(yǔ)音分析系統(tǒng)目前中文語(yǔ)音分析速度,是國(guó)內(nèi)最快的。它擁有的文本分析引擎和索引處理技術(shù),能夠?qū)崿F(xiàn)分析操作在秒級(jí)以內(nèi)完成,而業(yè)內(nèi)多數(shù)語(yǔ)音公司的產(chǎn)品則要半小時(shí)甚至更久,千語(yǔ)千尋比之,要高出一個(gè)數(shù)量級(jí)。
  除識(shí)別引擎及分析系統(tǒng)外,與國(guó)內(nèi)外廠商相比,普強(qiáng)的優(yōu)勢(shì)是擁有多年呼叫中心工作經(jīng)驗(yàn)的專家們所組成的專業(yè)咨詢團(tuán)隊(duì),以及完整的識(shí)別設(shè)備和工具,來(lái)協(xié)助客戶進(jìn)行定制化應(yīng)用服務(wù),以保障企業(yè)最高的投資報(bào)酬率。
  而據(jù)何國(guó)濤對(duì)黑智(VR-2014)透露,目前普強(qiáng)在業(yè)界公開(kāi)招投標(biāo)的項(xiàng)目中,始終保持著最高的中標(biāo)率。
  聯(lián)手四維圖新,切入車載場(chǎng)景
  經(jīng)過(guò)十多年的發(fā)展,四維圖新已成為國(guó)內(nèi)數(shù)字地圖內(nèi)容、車聯(lián)網(wǎng)和動(dòng)態(tài)交通信息服務(wù)、基于位置的大數(shù)據(jù)垂直應(yīng)用服務(wù)主要提供商之一。其數(shù)字地圖一直主導(dǎo)中國(guó)前裝車載導(dǎo)航市場(chǎng),獲得大量、東風(fēng)日產(chǎn)、北京現(xiàn)代等主流車廠的訂單。而和四維圖新的聯(lián)手,顯然加快了普強(qiáng)切入車載場(chǎng)景,迅速滲透車廠和車機(jī)系統(tǒng)集成商,積累大數(shù)據(jù)的步伐。
\
  2015年,普強(qiáng)聯(lián)手四維圖新和騰訊,共同開(kāi)發(fā)智能車聯(lián)網(wǎng)大數(shù)據(jù)系統(tǒng)WeDrive。其中,四維負(fù)責(zé)導(dǎo)航,騰訊負(fù)責(zé)內(nèi)容,普強(qiáng)主攻前裝。
  這套智能車載語(yǔ)音系統(tǒng),是由“云+端+芯片”組成的。普強(qiáng)自主研發(fā)的是離線、在線的兩個(gè)聲學(xué)模型,其他的為集成。
  陣列麥克風(fēng)可抑制噪音回音,進(jìn)行聲源定位。車載降噪DSP芯片可進(jìn)行車載降噪去回聲,這也是普強(qiáng)的投資方——美國(guó)的一家芯片公司提供的。“他們只做芯片,花了大概一億美金做了十年,這就是壁壘。”
  “從前端麥克風(fēng)技術(shù),包括硬件的DSP處理三到四個(gè)麥克風(fēng),到后端的云端,整個(gè)一條脈絡(luò)已經(jīng)打通了,基本上這個(gè)解決方案是最優(yōu)的。”李全忠說(shuō)。
  另外,普強(qiáng)還可以做嵌入式識(shí)別,車機(jī)識(shí)別的系統(tǒng)直接在車機(jī)里面做,不用跑到云端。車載需要保證穩(wěn)定性、安全性,對(duì)嵌入式識(shí)別壓力非常大。普強(qiáng)會(huì)針對(duì)不同的系統(tǒng)和車機(jī)本身的噪音特性,分低中高端方案,量身定制識(shí)別算法。“把這些都優(yōu)化進(jìn)去,才能做到最佳,當(dāng)然也要滿足用戶識(shí)別率的需求。”李全忠表示。
  目前,普強(qiáng)車載語(yǔ)音系統(tǒng)已經(jīng)被集成進(jìn)多家國(guó)內(nèi)主流車廠。普強(qiáng)最近也把嵌入式的算法嵌到四維收購(gòu)的公司杰發(fā)科技,后者占后裝市場(chǎng)的70%,大幅提高了市占率。
  用戶需求優(yōu)先的“田忌賽馬”戰(zhàn)術(shù)
  在何國(guó)濤看來(lái),“專注”還有另外一層含義,即要準(zhǔn)確理解用戶的需求。而對(duì)人工智能創(chuàng)業(yè)公司而言,算法并不是唯一,更重要的是,理解用戶的產(chǎn)品需求。從產(chǎn)品、界面、工作流到用戶層面的交互設(shè)計(jì),都要圍繞它進(jìn)行。比如,對(duì)車載產(chǎn)品而言,車速變化時(shí),會(huì)影響到語(yǔ)音識(shí)別的準(zhǔn)確率;車開(kāi)得快,根本不會(huì)出現(xiàn)車旁邊有個(gè)人在走路的情況;車開(kāi)得慢,就要小心旁邊打球的小孩……
  針對(duì)用戶對(duì)產(chǎn)品的強(qiáng)需求出發(fā),何國(guó)濤為普強(qiáng)提出了“田忌賽馬”的戰(zhàn)術(shù)。“算法肯定有最快的,但是在語(yǔ)音交互領(lǐng)域,準(zhǔn)確率相差一兩個(gè)點(diǎn)并沒(méi)有本質(zhì)差別。原來(lái)從GMM跳到DNN,相對(duì)準(zhǔn)確率增加了20%到30%,是很大的提升。可是現(xiàn)在大家使用的都是神經(jīng)網(wǎng)絡(luò),準(zhǔn)確率達(dá)到95%或者96%,對(duì)用戶有什么區(qū)別?我們沒(méi)有必要做20個(gè)系統(tǒng)功能,都保證96%的準(zhǔn)確率。”
  在車載領(lǐng)域,普強(qiáng)重點(diǎn)做的是導(dǎo)航、電話、音樂(lè)這幾個(gè)系統(tǒng)功能。“在車?yán)锶藱C(jī)交互的時(shí)候,一般用戶50%以上%的需求是在導(dǎo)航上,40%以上是打電話,還有10%是聽(tīng)音樂(lè)、聽(tīng)收音機(jī)、查股票等。如果把這3個(gè)主要需求都做到近100%的準(zhǔn)確率,那么整個(gè)系統(tǒng)的準(zhǔn)確率就能超過(guò)90%。如果大家都只有100人,別人每個(gè)功能5個(gè)人,普強(qiáng)的3個(gè)功能每個(gè)都有30個(gè)人并且做到最好,這就是所謂的田忌賽馬。”何國(guó)濤說(shuō)。
  中國(guó)一年生產(chǎn)約2700萬(wàn)輛新車,如果人機(jī)交互的系統(tǒng)每輛車收取一百塊,市場(chǎng)規(guī)模能達(dá)到27億。如何能在這片藍(lán)海中切到大塊蛋糕?按照何國(guó)濤的設(shè)想,未來(lái)普強(qiáng)會(huì)將多種交互方式融合,讓車像人一樣具備視覺(jué)、聽(tīng)覺(jué)等多種感知能力。比如人可以用手勢(shì)調(diào)節(jié)聲音大小、調(diào)控座椅位置。要把這些技術(shù)很順暢地切到場(chǎng)景里面,這些工作更多是需要工程師來(lái)實(shí)現(xiàn)。“算法是第一步,剩下10%的事情,需要再花90%的時(shí)間做好。”

專題

屏南县| 隆回县| 乐安县| 浮梁县| 封开县| 重庆市| 信阳市| 宝鸡市| 突泉县| 宁乡县| 宁强县| 噶尔县| 孟州市| 连平县| 明水县| 千阳县| 抚顺县| 宁晋县| 南乐县| 东海县| 霍邱县| 宜兰市| 清水河县| 岗巴县| 康马县| 措勤县| 来凤县| 寻甸| 霍山县| 乌拉特中旗| 五峰| 永德县| 洪湖市| 绥化市| 东丽区| 寻乌县| 宁强县| 三亚市| 海阳市| 古蔺县| 宜兰县|