亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

<center id="iygwy"><input id="iygwy"></input></center>

<fieldset id="iygwy"></fieldset>

您當(dāng)前的位置是：首頁(yè) > 新聞 > 國(guó)內(nèi) >

首頁(yè)|新聞|商城|黃頁(yè)|技術(shù)|行業(yè)|會(huì)展|訪談|人才|供求|社區(qū)|周刊|呼叫中心|企業(yè)通信|通信業(yè)務(wù)

首頁(yè) > 新聞 > 國(guó)內(nèi) >

深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語(yǔ)音轉(zhuǎn)寫技術(shù)

2016-08-10 15:19:55 作者：來(lái)源：訊飛研究院評(píng)論：0 　點(diǎn)擊cti：

　　導(dǎo)讀：目前最好的語(yǔ)音識(shí)別系統(tǒng)采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM，LongShort Term Memory），但是，這一系統(tǒng)存在訓(xùn)練復(fù)雜度高、解碼時(shí)延高的問(wèn)題，尤其在工業(yè)界的實(shí)時(shí)識(shí)別系統(tǒng)中很難應(yīng)用�？拼笥嶏w在今年提出了一種全新的語(yǔ)音識(shí)別框架——深度全序列卷積神經(jīng)網(wǎng)絡(luò)（DFCNN，Deep Fully Convolutional NeuralNetwork），更適合工業(yè)應(yīng)用。本文是對(duì)科大訊飛使用DFCNN應(yīng)用于語(yǔ)音轉(zhuǎn)寫技術(shù)的詳細(xì)解讀，其外還包含了語(yǔ)音轉(zhuǎn)寫中口語(yǔ)化和篇章級(jí)語(yǔ)言模型處理、噪聲和遠(yuǎn)場(chǎng)識(shí)別和文本處理實(shí)時(shí)糾錯(cuò)以及文字后處理等技術(shù)的分析。

深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語(yǔ)音轉(zhuǎn)寫技術(shù)

　　人工智能的應(yīng)用中，語(yǔ)音識(shí)別在今年來(lái)取得顯著進(jìn)步，不管是英文、中文或者其他語(yǔ)種，機(jī)器的語(yǔ)音識(shí)別準(zhǔn)確率在不斷上升。其中，語(yǔ)音聽(tīng)寫技術(shù)的發(fā)展最為迅速，目前已廣泛在語(yǔ)音輸入、語(yǔ)音搜索、語(yǔ)音助手等產(chǎn)品中得到應(yīng)用并日臻成熟。但是，語(yǔ)音應(yīng)用的另一層面，即語(yǔ)音轉(zhuǎn)寫，目前仍存在一定的難點(diǎn)，由于在產(chǎn)生錄音文件的過(guò)程中使用者并沒(méi)有預(yù)計(jì)到該錄音會(huì)被用于語(yǔ)音識(shí)別，因而與語(yǔ)音聽(tīng)寫相比，語(yǔ)音轉(zhuǎn)寫將面臨說(shuō)話風(fēng)格、口音、錄音質(zhì)量等諸多挑戰(zhàn)。

　　語(yǔ)音轉(zhuǎn)寫的典型場(chǎng)景包括，記者采訪、電視節(jié)目、課堂及交談式會(huì)議等等，甚至包括任何人在日常的工作生活中產(chǎn)生的任何錄音文件。語(yǔ)音轉(zhuǎn)寫的市場(chǎng)及想象空間是巨大的，想象一下，如果人類可以征服語(yǔ)音轉(zhuǎn)寫，電視節(jié)目可以自動(dòng)生動(dòng)字幕、正式會(huì)議可以自動(dòng)形成記要、記者采訪的錄音可以自動(dòng)成稿……人的一生中說(shuō)的話要比我們寫過(guò)的字多的多，如果有一個(gè)軟件能記錄我們所說(shuō)過(guò)的所有的話并進(jìn)行高效的管理，這個(gè)世界將會(huì)多么的讓人難以置信。

　　基于DFCNN的聲學(xué)建模技術(shù)

　　語(yǔ)音識(shí)別的聲學(xué)建模主要用于建模語(yǔ)音信號(hào)與音素之間的關(guān)系，科大訊飛繼去年12月21日提出前饋型序列記憶網(wǎng)絡(luò)(FSMN，F(xiàn)eed-forward Sequential Memory Network)作為聲學(xué)建�？蚣芎螅衲暝俅瓮瞥鋈碌恼Z(yǔ)音識(shí)別框架，即深度全序列卷積神經(jīng)網(wǎng)絡(luò)（DFCNN，Deep Fully Convolutional NeuralNetwork）。

　　目前最好的語(yǔ)音識(shí)別系統(tǒng)采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM，LongShort Term Memory），這種網(wǎng)絡(luò)能夠?qū)φZ(yǔ)音的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模，從而提高識(shí)別正確率。但是雙向LSTM網(wǎng)絡(luò)存在訓(xùn)練復(fù)雜度高、解碼時(shí)延高的問(wèn)題，尤其在工業(yè)界的實(shí)時(shí)識(shí)別系統(tǒng)中很難應(yīng)用。因而科大訊飛使用深度全序列卷積神經(jīng)網(wǎng)絡(luò)來(lái)克服雙向LSTM的缺陷。

　　CNN早在2012年就被用于語(yǔ)音識(shí)別系統(tǒng)，但始終沒(méi)有大的突破。主要的原因是其使用固定長(zhǎng)度的幀拼接作為輸入，無(wú)法看到足夠長(zhǎng)的語(yǔ)音上下文信息；另外一個(gè)缺陷將CNN視作一種特征提取器，因此所用的卷積層數(shù)很少，表達(dá)能力有限。

　　針對(duì)這些問(wèn)題，DFCNN使用大量的卷積層直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模。首先，在輸入端DFCNN直接將語(yǔ)譜圖作為輸入，相比其他以傳統(tǒng)語(yǔ)音特征作為輸入的語(yǔ)音識(shí)別框架相比具有天然的優(yōu)勢(shì)。其次，在模型結(jié)構(gòu)上，借鑒了圖像識(shí)別的網(wǎng)絡(luò)配置，每個(gè)卷積層使用小卷積核，并在多個(gè)卷積層之后再加上池化層，通過(guò)累積非常多的卷積池化層對(duì)，從而可以看到非常長(zhǎng)的歷史和未來(lái)信息。這兩點(diǎn)保證了DFCNN可以出色的表達(dá)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性，相比RNN網(wǎng)絡(luò)結(jié)構(gòu)在魯棒性上更加出色，同時(shí)可以實(shí)現(xiàn)短延時(shí)的準(zhǔn)在線解碼，從而可用于工業(yè)系統(tǒng)中。

深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語(yǔ)音轉(zhuǎn)寫技術(shù)

（DFCNN 結(jié)構(gòu)圖）

　　口語(yǔ)化和篇章級(jí)語(yǔ)言模型處理技術(shù)

　　語(yǔ)音識(shí)別的語(yǔ)言模型主要用于建模音素與字詞之間的對(duì)應(yīng)關(guān)系。由于人類的口語(yǔ)為無(wú)組織性的自然語(yǔ)言，人們?cè)谧杂蓪?duì)話時(shí)，通常會(huì)出現(xiàn)猶豫、回讀、語(yǔ)氣詞等復(fù)雜的語(yǔ)言現(xiàn)象，而以文字形式存在的語(yǔ)料通常為書面語(yǔ)，這兩種之間的鴻溝使得針對(duì)口語(yǔ)語(yǔ)言的語(yǔ)言模型建模面臨極大的挑戰(zhàn)。

　　科大訊飛借鑒了語(yǔ)音識(shí)別處理噪聲問(wèn)題采用加噪訓(xùn)練的思想，即在書面語(yǔ)的基礎(chǔ)上自動(dòng)引入回讀、倒裝、語(yǔ)氣詞等口語(yǔ)“噪聲”現(xiàn)象，從而可自動(dòng)生成海量口語(yǔ)語(yǔ)料，解決口語(yǔ)和書面語(yǔ)之間的不匹配問(wèn)題。首先，收集部分口語(yǔ)文本和書面文本語(yǔ)料對(duì)；其次，使用基于Encoder-Decoder的神經(jīng)網(wǎng)絡(luò)框架建模書面語(yǔ)文本與口語(yǔ)文本之間的對(duì)應(yīng)關(guān)系，從而實(shí)現(xiàn)了口語(yǔ)文本的自動(dòng)生成。

　　另外，上下文信息可以較大程度幫助人類對(duì)語(yǔ)言的理解，對(duì)于機(jī)器轉(zhuǎn)錄也是同樣的道理。因而，科大訊飛在去年12月21提出了篇章級(jí)語(yǔ)言模型的方案，該方案根據(jù)語(yǔ)音識(shí)別的解碼結(jié)果自動(dòng)進(jìn)行關(guān)鍵信息抽取，實(shí)時(shí)進(jìn)行語(yǔ)料搜索和后處理，用解碼結(jié)果和搜索到的語(yǔ)料形成特定語(yǔ)音相關(guān)的語(yǔ)言模型，從而進(jìn)一步提高語(yǔ)音轉(zhuǎn)寫的準(zhǔn)確率。

深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語(yǔ)音轉(zhuǎn)寫技術(shù)

　�。ㄆ录�(jí)語(yǔ)言模型流程圖）

　　噪聲和遠(yuǎn)場(chǎng)識(shí)別技術(shù)

　　語(yǔ)音識(shí)別的應(yīng)用遠(yuǎn)場(chǎng)拾音和噪聲干擾一直是兩大技術(shù)難題。例如在會(huì)議的場(chǎng)景下，如果使用錄音筆進(jìn)行錄音，離錄音筆較遠(yuǎn)說(shuō)話人的語(yǔ)音即為遠(yuǎn)場(chǎng)帶混響語(yǔ)音，由于混響會(huì)使得不同步的語(yǔ)音相互疊加，帶來(lái)了音素的交疊掩蔽效應(yīng)，從而嚴(yán)重影響語(yǔ)音識(shí)別效果；同樣，如果錄音環(huán)境中存在背景噪聲，語(yǔ)音頻譜會(huì)被污染，其識(shí)別效果也會(huì)急劇下降�？拼笥嶏w針對(duì)該問(wèn)題使用了單麥克及配合麥克風(fēng)陣列兩種硬件環(huán)境下的降噪、解混響技術(shù)，使得遠(yuǎn)場(chǎng)、噪聲情況下的語(yǔ)音轉(zhuǎn)寫也達(dá)到了實(shí)用門檻。

　　單麥克降噪、解混響

　　對(duì)采集到的有損失語(yǔ)音，使用混合訓(xùn)練和基于深度回歸神經(jīng)網(wǎng)絡(luò)降噪解混響結(jié)合的方法。即一方面對(duì)干凈的語(yǔ)音進(jìn)行加噪，并與干凈語(yǔ)音一起進(jìn)行混合訓(xùn)練，從而提高模型對(duì)于帶噪語(yǔ)音的魯棒性（編者注：Robust的音譯，即健壯和強(qiáng)壯之意）；另一方面，使用基于深度回歸神經(jīng)網(wǎng)絡(luò)進(jìn)行降噪和解混響，進(jìn)一步提高帶噪、遠(yuǎn)場(chǎng)語(yǔ)音的識(shí)別正確率。

深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語(yǔ)音轉(zhuǎn)寫技術(shù)

　　麥克風(fēng)陣列降噪、解混響

　　僅僅考慮在語(yǔ)音處理過(guò)程中的噪音可以說(shuō)是治標(biāo)不治本，如何從源頭上解決混響和降噪似乎才是問(wèn)題的關(guān)鍵。面對(duì)這一難題，科大訊飛研發(fā)人員通過(guò)在錄音設(shè)備上加上多麥克陣列，利用多麥克陣列進(jìn)行降噪與解混響。具體地，使用多個(gè)麥克風(fēng)采集多路時(shí)頻信號(hào)，利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)波束形成，從而在目標(biāo)信號(hào)的方向形成一個(gè)拾音波束，并衰減來(lái)自其他方向的反射聲。該方法與上述單麥克降噪和解混響的結(jié)合，可以進(jìn)一步顯著的提高帶噪、遠(yuǎn)場(chǎng)語(yǔ)音的識(shí)別正確率。

深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語(yǔ)音轉(zhuǎn)寫技術(shù)

　　文本處理實(shí)時(shí)糾錯(cuò)+文字后處理

　　前面所說(shuō)的都只是對(duì)于語(yǔ)音的處理技術(shù)，即將錄音轉(zhuǎn)錄成文字，但正如上文所述人類的口語(yǔ)為無(wú)組織性的自然語(yǔ)言，即使在語(yǔ)音轉(zhuǎn)寫正確率非常高的情況下，語(yǔ)音轉(zhuǎn)寫文本的可閱讀性仍存在較大的問(wèn)題，所以文本后處理的重要性就體現(xiàn)了出來(lái)。所謂文本后處理即對(duì)口語(yǔ)化的文本進(jìn)行分句、分段，并對(duì)文本內(nèi)容的流利性進(jìn)行處理，甚至進(jìn)行內(nèi)容的摘要，以利于更好的閱讀與編輯。

　　后處理Ⅰ：分句與分段

　　分句，即對(duì)轉(zhuǎn)寫文本按語(yǔ)義進(jìn)行子句劃分，并在子句之間加注標(biāo)點(diǎn)；分段，即將一篇文本切分成若干個(gè)語(yǔ)義段落，每個(gè)段落描述的子主題各不相同。

　　通過(guò)提取上下文相關(guān)的語(yǔ)義特征，同時(shí)結(jié)合語(yǔ)音特征，來(lái)進(jìn)行子句與段落的劃分；考慮到有標(biāo)注的語(yǔ)音數(shù)據(jù)較難獲得，在實(shí)際運(yùn)用中科大訊飛利用兩級(jí)級(jí)聯(lián)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)建模技術(shù)，從而較好的解決了分句與分段問(wèn)題。

　　后處理Ⅱ：內(nèi)容順滑

　　內(nèi)容順滑，又稱為不流暢檢測(cè)，即剔除轉(zhuǎn)寫結(jié)果中的停頓詞、語(yǔ)氣詞、重復(fù)詞，使順滑后的文本更易于閱讀。

　　科大訊飛通過(guò)使用泛化特征并結(jié)合雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)建模技術(shù)，使得內(nèi)容順滑的準(zhǔn)確率達(dá)到了實(shí)用階段。

復(fù)制網(wǎng)址收藏打印郵件微信新浪微博一鍵分享 QQ 更多

相關(guān)熱詞搜索：科大訊飛 DFCNN 語(yǔ)音轉(zhuǎn)寫語(yǔ)音識(shí)別

上一篇:鶴壁市12329客服熱線呼叫中心累計(jì)服務(wù)8萬(wàn)人次

下一篇:任我行CRM助力全程博雅打造智能幼兒教育平臺(tái)

相關(guān)閱讀：

·2016毅航互聯(lián)產(chǎn)品交流會(huì) [8月16日上海]2016-08-12 13:45:11
·中國(guó)移動(dòng)與科大訊飛聯(lián)合打造靈犀云智能語(yǔ)音云平臺(tái)2016-08-12 13:17:04
·2016年中國(guó)智能客戶中心行業(yè)峰會(huì)在貴陽(yáng)舉行2016-07-25 09:40:33
·科大訊飛與華為攜手共建智慧城市生態(tài)圈2016-07-22 10:17:43
·科大訊飛與奇瑞合作讓語(yǔ)音識(shí)別“跑”在路上2016-07-15 10:03:04
·浦發(fā)銀行攜手科大訊飛全國(guó)率先啟用客服機(jī)器質(zhì)檢2016-07-06 14:22:53
·科大訊飛輪值總裁胡郁：語(yǔ)言是通往人工智能的入口2016-06-28 16:31:07
·科大訊飛與安徽省立醫(yī)院共建醫(yī)學(xué)人工智能聯(lián)合實(shí)驗(yàn)室揭牌2016-06-23 15:55:39
·2016第六屆中國(guó)智能博覽會(huì) [9月23—25日]2016-06-21 14:51:34
·科大訊飛智元助力合肥南站智能化解決人車互擾2016-06-14 10:55:33

評(píng)論排行

推薦閱讀

專題

G-Summit客戶體驗(yàn)大會(huì): 為了讓眾多客戶了解當(dāng)前客戶體驗(yàn)和服務(wù)的市場(chǎng)導(dǎo)向、技術(shù)...[詳細(xì)]

Fintech火了銀行客...: 互聯(lián)網(wǎng)對(duì)金融業(yè)的沖擊毋庸置疑， "狼來(lái)了 ...[詳細(xì)]

2016世界移動(dòng)大會(huì)...: 由GSMA主辦的2016世界移動(dòng)大會(huì)-上海，以“移我所想” ...[詳細(xì)]

免費(fèi)試用JABRA B...: 免費(fèi)試用音質(zhì)卓越且堅(jiān)固耐用的Jabra BIZ 系列專業(yè)耳麥[詳細(xì)]

點(diǎn)擊排行
周排行
月排行

Copyright(C) 1999-2015 CTI論壇
All Rights Reserved CTI論壇版權(quán)所有

電話：+86-10-82012787，+86-10-82079677
傳真：+86-10-62041062
投稿：ctiforum@ctiforum.com
地址：北京市西城區(qū)新德街20號(hào)513室（100088）

網(wǎng)站首頁(yè) | 公司簡(jiǎn)介 | 聯(lián)系方式 | 工作機(jī)會(huì) | 廣告服務(wù) | 會(huì)員服務(wù) | 服務(wù)項(xiàng)目 | 專家團(tuán)隊(duì) | 版權(quán)聲明 | 投稿方法

Copyright(C) 1999-2015 CTI論壇 All Rights Reserved CTI論壇版權(quán)所有

電話：+86-10-82012787，+86-10-82079677
傳真：+86-10-62041062
投稿：ctiforum@ctiforum.com
地址：北京市西城區(qū)新德街20號(hào)513室（100088）

經(jīng)營(yíng)性網(wǎng)站備案信息

京ICP證030771號(hào)

網(wǎng)絡(luò)110報(bào)警服務(wù)

京公網(wǎng)安備110102000104-1號(hào)

屏南县| 湛江市| 筠连县| 会东县| 崇礼县| 沅陵县| 南皮县| 黑山县| 郯城县| 平湖市| 襄樊市| 诏安县| 新蔡县| 临泽县| 平果县| 韶山市| 板桥市| 德格县| 新营市| 浮梁县| 英德市| 闸北区| 徐州市| 永善县| 芮城县| 郓城县| 中阳县| 醴陵市| 手机| 屏东市| 旺苍县| 启东市| 胶州市| 陇南市| 花莲市| 修文县| 盐山县| 翼城县| 麻栗坡县| 仁怀市| 宣武区|

<strike id="g24e4"></strike>

<abbr id="g24e4"><button id="g24e4"></button></abbr><ul id="g24e4"><sup id="g24e4"></sup></ul>

<tfoot id="g24e4"></tfoot>

<abbr id="g24e4"><center id="g24e4"></center></abbr>

<dfn id="g24e4"><input id="g24e4"></input></dfn>