亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

您當(dāng)前的位置是：首頁(yè) > 資訊 > 文章精選 >

首頁(yè)|資訊|文章精選|商城|黃頁(yè)|會(huì)展|訪談|人才|供求|專家團(tuán)隊(duì)|周刊|呼叫中心|企業(yè)通信|通信業(yè)務(wù)

首頁(yè) > 資訊 > 文章精選 >

標(biāo)貝科技：功能性時(shí)代已過去，可選擇性才是語(yǔ)音合成未來(lái)

2019-09-19 09:33:11 作者：宋婉心來(lái)源：搜狐科技《智研所》欄目評(píng)論：0 　點(diǎn)擊：

　　AIoT正在成為科技公司們爭(zhēng)搶的下一座城池。

　　2016年開始，智能手機(jī)行業(yè)紅利開始見頂，手機(jī)廠商可爭(zhēng)奪的存量市場(chǎng)不斷被壓縮，這時(shí)，硬件領(lǐng)域的新機(jī)會(huì)延伸到了智能音箱、智能家電，以及可穿戴設(shè)備。智能硬件也相應(yīng)地成為互聯(lián)網(wǎng)的新入口，國(guó)內(nèi)外多家巨頭已早早開始爭(zhēng)奪這部分還未被完全挖掘的用戶入口。

　　其中，語(yǔ)音識(shí)別及語(yǔ)音交互毫無(wú)疑問是各智能硬件最重要的控制手段之一，同時(shí)也是人工智能技術(shù)到目前為止落地最快的應(yīng)用之一。

　　以智能音箱為例，僅2018年四季度，全球智能音箱出貨量增長(zhǎng)95％達(dá)到3850萬(wàn)臺(tái)，超過2017全年總量。2018年出貨量更是達(dá)到8620萬(wàn)臺(tái)，同比增長(zhǎng)100%以上。Strategy Analytics預(yù)測(cè)，2019年全球智能音箱的出貨量將超過1.34億，到2024年將增加到2.8億。

　　搜狐科技“智研所”沙龍第6期邀請(qǐng)到標(biāo)貝科技CTO李秀林進(jìn)行主題演講——《語(yǔ)音合成—引爆智能語(yǔ)音交互的導(dǎo)火索》

　　以下是演講精編：

　　李秀林：大家好，非常高興通過搜狐科技與大家溝通語(yǔ)音合成的一個(gè)主題，那么今天我與大家分享的題目是“語(yǔ)音合成引爆智能語(yǔ)音交互的導(dǎo)火索”。

（智研所現(xiàn)場(chǎng)）

　　首先做一下自我介紹，我叫李秀林，中國(guó)科學(xué)院聲學(xué)所博士，標(biāo)貝科技聯(lián)合創(chuàng)始人兼CTO，負(fù)責(zé)整體語(yǔ)音技術(shù)框架。之前十幾年我基本都是在語(yǔ)音行業(yè)，之前在百度、滴滴都是主要從事語(yǔ)音相關(guān)的研究工作以及探索在出行互聯(lián)網(wǎng)行業(yè)不同的應(yīng)用。

　　給大家介紹一下標(biāo)貝科技，是一家專注于智能語(yǔ)音合成和數(shù)據(jù)服務(wù)的人工智能公司，這家公司依托自己自有的高質(zhì)量的數(shù)據(jù)來(lái)開發(fā)自有的高品質(zhì)的語(yǔ)音合成系統(tǒng)。我們可以提供多場(chǎng)景、多類別的高品質(zhì)語(yǔ)音合成解決方案，在我們的解決方案當(dāng)中我們會(huì)結(jié)合用戶的需求和我們的技術(shù)去為用戶量身定制他所需要的聲音。

　　我們先來(lái)看一下整個(gè)語(yǔ)音交互的市場(chǎng)，根據(jù)前瞻經(jīng)濟(jì)學(xué)人的數(shù)據(jù)表明，近些年語(yǔ)音行業(yè)的發(fā)展非�？焖�，在2019年中國(guó)智能語(yǔ)音市場(chǎng)規(guī)模將突破200億元，2023年預(yù)計(jì)將達(dá)到600多億元，這個(gè)市場(chǎng)發(fā)展是非常迅速的，這也可以從一個(gè)側(cè)面反映出語(yǔ)音行業(yè)的火爆程度。語(yǔ)音交互是由三個(gè)主要的環(huán)節(jié)組成的，一個(gè)是語(yǔ)音合成，一個(gè)是語(yǔ)音識(shí)別，那么連接起來(lái)的是語(yǔ)義理解。通過這三項(xiàng)技術(shù)就可以讓我們的硬件設(shè)備有會(huì)聽、會(huì)說、會(huì)思考，具備與人交互的能力，去滿足一些真實(shí)的場(chǎng)景，實(shí)現(xiàn)AI技術(shù)的真正落地。

　　大家從樣音可以聽到，其實(shí)我們提供了不同的聲音，有不同的特點(diǎn)，可以為用戶去匹配不同的聲音，這也是我們這幾年所做的所思的所想的。

　　再下面介紹一個(gè)案例，為央視財(cái)經(jīng)頻道所做的工作，我們提供了兩個(gè)聲音，其中一個(gè)在交易時(shí)間時(shí)段的“曉鯨”智能機(jī)器人，實(shí)際上從它的形象來(lái)看應(yīng)該是一個(gè)小孩的形象，可能比較活潑，我們結(jié)合這個(gè)產(chǎn)品的特點(diǎn)定制了一個(gè)小孩的聲音。此外，主持人的聲音或者是她的時(shí)間非常有限，我們專門為著名的主持人李雨霏打造了她自己的聲音，也是上線了對(duì)應(yīng)的產(chǎn)品。

（央視財(cái)經(jīng)-《交易時(shí)間》欄目節(jié)選）

　　通過這些展示其實(shí)我們想陳述一個(gè)觀點(diǎn)，語(yǔ)音合成隨著技術(shù)的發(fā)展，它的合成效果越來(lái)越好，那么它在交互過程中的作用實(shí)際上是越來(lái)越重要的。所以我們說“無(wú)合成，不交互”，語(yǔ)音合成的語(yǔ)音是信息的載體，所有的機(jī)器反饋的信息都會(huì)通過語(yǔ)音的展示形式反饋給用戶。

　　另外，我們可以提供多種多樣的展現(xiàn)形式，讓語(yǔ)音不再生硬，不再呆板，變得非常靈活，可以有多種多樣的展現(xiàn)形態(tài)。從效果來(lái)說，它更媲美真人，讓大家在一定程度上覺得是真假難辯的一個(gè)程度。所以說通過這種即時(shí)的響應(yīng)，讓語(yǔ)音交互變得更加即時(shí)，體驗(yàn)更加好一些。

　　接下來(lái)簡(jiǎn)單回顧一下語(yǔ)音合成的技術(shù)發(fā)展，在19世紀(jì)80年代，當(dāng)時(shí)類似鋼琴一樣的設(shè)施，需要去彈奏才能合成出來(lái)某些特定的聲音。進(jìn)入20世紀(jì)80年代之后，通過一些計(jì)算機(jī)技術(shù)可以對(duì)聲音進(jìn)行編碼，通過共振峰合成的形式來(lái)合成出語(yǔ)音。90年代之后計(jì)算機(jī)技術(shù)發(fā)展越來(lái)越快，通過大量運(yùn)算、大量的存儲(chǔ)可以讓語(yǔ)音合成的效果進(jìn)一步提升，達(dá)到了一定程度上的商用可能。近期我們發(fā)現(xiàn)它已經(jīng)進(jìn)入一個(gè)自學(xué)習(xí)階段，這個(gè)階段會(huì)讓語(yǔ)音合成的應(yīng)用更加廣泛，后面會(huì)展開解釋。

　　先來(lái)看一下在運(yùn)算階段，實(shí)際上整個(gè)網(wǎng)絡(luò)分成幾個(gè)模塊，從圖中可以看到，利用音庫(kù)我們需要提取文本信息、基頻譜等等特征去訓(xùn)練一個(gè)模型，在這個(gè)階段最主要的計(jì)算特點(diǎn)是基于統(tǒng)計(jì)特征的一些模型，包括音碼可復(fù)模型、高斯混合模型，那么有了這些模型的指導(dǎo)，我們一個(gè)比較常見的商用系統(tǒng)就是拼接合成系統(tǒng)就把原始的錄音切成很小的片段，在合成階段把這些片段進(jìn)行有效地拼接，它的一個(gè)好處是合成的語(yǔ)音比較接近真人的音色，但是缺點(diǎn)也顯而易見，因?yàn)橐魩?kù)不可能非常大，音庫(kù)的制作周期長(zhǎng)耗費(fèi)大，所以拼接出來(lái)的語(yǔ)音特點(diǎn)往往是好的地方很好，有些地方不好的時(shí)候讓人感覺很不舒服，它的拼接并不流暢。

（標(biāo)貝科技CTO李秀林現(xiàn)場(chǎng)PPT）

　　從2016年開始，語(yǔ)音合成進(jìn)入了一個(gè)非常特殊的時(shí)期，我們把它命名為自學(xué)習(xí)的階段。那么這個(gè)階段主要特點(diǎn)是利用神經(jīng)網(wǎng)絡(luò)的技術(shù)，通過復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型去擬合聲音的生成過程。

　　比如在2016年WaveNet提出，給我們提供了一個(gè)新的考慮語(yǔ)音合成的特點(diǎn)，之前的語(yǔ)音基本都是按幀或者按照音節(jié)或者音子合成的，在這個(gè)框架下實(shí)際是逐點(diǎn)預(yù)測(cè)，一個(gè)16k采樣率的語(yǔ)音，每秒的語(yǔ)音需要對(duì)應(yīng)16000次的復(fù)雜運(yùn)算才能生成語(yǔ)音，但是它的音質(zhì)大大改善，遠(yuǎn)遠(yuǎn)超出之前的系統(tǒng)。

　　接下來(lái)2017年有端到端的Tacotron的方法，直接文本輸出語(yǔ)音，在這種模式下又讓很多機(jī)器學(xué)習(xí)的研發(fā)人員加入到語(yǔ)音合成的領(lǐng)域，從而使得這個(gè)行業(yè)的發(fā)展更加快速。

　　在2018年端到端的基礎(chǔ)上神經(jīng)網(wǎng)絡(luò)聲碼器大行其道，使得端到端加上神經(jīng)網(wǎng)絡(luò)聲碼器的方案受到廣泛采納。

　　從上述這三個(gè)主要的模型來(lái)看，整個(gè)的合成效果都是得到了很大的提升，它也為我們開拓了一些新的應(yīng)用領(lǐng)域的可能。

　　總結(jié)一下，就是傳統(tǒng)的語(yǔ)音合成方法，音庫(kù)制作、整個(gè)的系統(tǒng)制作流程都很復(fù)雜，成本比較高，周期比較長(zhǎng)，而且還有一些聲音的不盡如人意的情況，但是神經(jīng)網(wǎng)絡(luò)的方法其實(shí)也不是盡善盡美，我們現(xiàn)在看到的是神經(jīng)網(wǎng)絡(luò)的方法需要大量的計(jì)算、大量的數(shù)據(jù)，這些在滿足大量數(shù)據(jù)的情況下我們發(fā)現(xiàn)會(huì)有一些問題。

　　因?yàn)槲覀儸F(xiàn)在語(yǔ)音合成的數(shù)據(jù)基本是單個(gè)人去采集聲音，但是單個(gè)人采集聲音的量往往不會(huì)太大，可能幾萬(wàn)句話就是一個(gè)非常大的數(shù)據(jù)庫(kù)了。這種情況下我們發(fā)現(xiàn)它有些問題，所以我們提出一個(gè)解決的辦法，我們是在端到端的基礎(chǔ)上用它最核心的部分，也就是Attention的機(jī)制，整個(gè)系統(tǒng)我們不用端到端，希望文本的部分用文本的屬性，語(yǔ)音的部分用語(yǔ)音的屬性，這樣的話我們可以充分利用我們文本的數(shù)據(jù)積累去改善整個(gè)合成效果。

　　同時(shí)，在真正落地的時(shí)候，GPU在生產(chǎn)環(huán)境下落地其實(shí)是有一定困難的，我們也做了針對(duì)性的優(yōu)化，讓它在CPU情況下能夠進(jìn)行高效的合成。我們所做的具體的就是把輸入數(shù)據(jù)的緯度從數(shù)萬(wàn)維降低到數(shù)十維，我們對(duì)文本之前積累的數(shù)據(jù)模型進(jìn)行了非常好的整合與神經(jīng)網(wǎng)絡(luò)的后端進(jìn)行了一個(gè)適配，達(dá)到了一個(gè)比較好的效果。

　　接下來(lái)說一下產(chǎn)品技術(shù)體系，因?yàn)槲覀儽容^專注，做的主要是數(shù)據(jù)和語(yǔ)音合成，我們?cè)诩夹g(shù)層面把控好我們整個(gè)數(shù)據(jù)生產(chǎn)流程，從數(shù)據(jù)的設(shè)計(jì)、采集加工和質(zhì)檢，保證AI所需要的各項(xiàng)數(shù)據(jù)都是能夠高質(zhì)量對(duì)模型訓(xùn)練非常有價(jià)值，結(jié)合我們的算法、模型和架構(gòu)我們將這些數(shù)據(jù)轉(zhuǎn)換成可以直接落地的技術(shù)形態(tài)。

（標(biāo)貝科技CTO李秀林現(xiàn)場(chǎng)PPT）

　　根據(jù)上面的技術(shù)和產(chǎn)品，我們實(shí)際上構(gòu)造了三位一體的競(jìng)爭(zhēng)優(yōu)勢(shì)，也就是依托我們的核心數(shù)據(jù)壁壘以及我們的聲音超市、明星語(yǔ)音IP庫(kù)等等。

　　這就是我們聲音超市的一個(gè)界面，用戶可以從這里面直接體驗(yàn)不同的聲音，去選擇自己所喜歡的音色。到目前為止，我們?cè)诤铣煞矫嬉呀?jīng)積累了超過三千小時(shí)的合成數(shù)據(jù)庫(kù)，合成數(shù)據(jù)庫(kù)的錄制加工其實(shí)是非常復(fù)雜，對(duì)發(fā)音人的音色、一致性、環(huán)境等等都會(huì)有非常高的要求，那么后期還需要有文本層面的聲音層面的各種處理環(huán)節(jié)。

（標(biāo)貝科技CTO李秀林現(xiàn)場(chǎng)PPT）

　　現(xiàn)在語(yǔ)音條目已經(jīng)超過了兩百萬(wàn)條，定制庫(kù)已經(jīng)達(dá)到了兩百多個(gè)，包括中文、英文、韓文等不同的語(yǔ)言，每種語(yǔ)言又有不同的風(fēng)格不同的年齡特點(diǎn)。整體來(lái)說，在合成數(shù)據(jù)方面準(zhǔn)確率可以達(dá)到99.5%的標(biāo)注水平，在識(shí)別方面我們的量更大一些，準(zhǔn)確率也能達(dá)到99%。

　　我們認(rèn)為核心市場(chǎng)其實(shí)有五個(gè)，泛娛樂、智慧教育、智能客服、智能家居、有聲讀物，這五個(gè)方面目前我們也有諸多探索，也取得了一些比較好的成果。

　　語(yǔ)音合成我認(rèn)為或者說我們標(biāo)貝科技覺得現(xiàn)在走入一個(gè)新的階段，在這個(gè)階段不是說功能性的，功能性的時(shí)代已經(jīng)過去了，語(yǔ)音合成功能并不稀奇，現(xiàn)在最主要的是說我們需要讓用戶有更多的可選擇性，需要滿足個(gè)性化的需求。

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn)，與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立，不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考，并請(qǐng)自行承擔(dān)全部責(zé)任。

相關(guān)熱詞搜索：標(biāo)貝科技語(yǔ)音合成

上一篇:在客戶參與中，數(shù)字通信將超越語(yǔ)音嗎？

下一篇:最后一頁(yè)

相關(guān)閱讀：

·多語(yǔ)言語(yǔ)音合成和跨語(yǔ)言語(yǔ)音克隆2019-07-17 09:49:15

評(píng)論排行

推薦閱讀

專題

各大黨政科技媒體...: 各大黨政科技媒體爭(zhēng)相報(bào)道億聯(lián)網(wǎng)絡(luò)　[詳細(xì)]

2019中國(guó)客戶體驗(yàn)...: 　　由CTI論壇主辦的　將于2019年10月17日在深圳益田威...[詳細(xì)]

2019中國(guó)呼叫中心...: 　[詳細(xì)]

小i智慧學(xué)堂: 　　小i智慧學(xué)堂是一個(gè)AI應(yīng)用人才培養(yǎng)與發(fā)展平臺(tái)，致力...[詳細(xì)]

大家都在看

點(diǎn)擊排行
周排行
月排行

CTI論壇會(huì)員企業(yè)

Copyright(C) 1999-2019 CTI論壇北京網(wǎng)際星河信息技術(shù)有限責(zé)任公司版權(quán)所有

電話：+86-10-82012787，+86-10-82079677
傳真：+86-10-62041062
投稿：ctiforum@ctiforum.com
地址：北京市西城區(qū)新德街20號(hào)513室（100088）

網(wǎng)站首頁(yè) | 公司簡(jiǎn)介 | 聯(lián)系方式 | 工作機(jī)會(huì) | 廣告服務(wù) | 會(huì)員服務(wù) | 服務(wù)項(xiàng)目 | 專家團(tuán)隊(duì) | 版權(quán)聲明 | 投稿方法

Copyright(C) 1999-2019 CTI論壇北京網(wǎng)際星河信息技術(shù)有限責(zé)任公司版權(quán)所有

電話：+86-10-82012787，+86-10-82079677 傳真：+86-10-62041062 投稿：ctiforum@ctiforum.com
地址：北京市西城區(qū)新德街20號(hào)513室（100088）

經(jīng)營(yíng)性網(wǎng)站備案信息

京ICP證030771號(hào)

網(wǎng)絡(luò)110報(bào)警服務(wù)

京公網(wǎng)安備110102000104-1號(hào)

<blockquote id="amqiy"><input id="amqiy"></input></blockquote>

<abbr id="amqiy"><center id="amqiy"></center></abbr>

<center id="amqiy"></center>

<samp id="amqiy"><strong id="amqiy"></strong></samp>

<sup id="amqiy"><rt id="amqiy"></rt></sup>