亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

<div id="6nyom"></div>

<bdo id="6nyom"></bdo>

<center id="6nyom"></center>

您當(dāng)前的位置是：首頁(yè) > 新聞 > 專家觀點(diǎn) >

首頁(yè)|新聞|商城|黃頁(yè)|技術(shù)|會(huì)展|訪談|人才|供求|社區(qū)|周刊|呼叫中心|企業(yè)通信|通信業(yè)務(wù)

首頁(yè) > 新聞 > 專家觀點(diǎn) >

靠“喂喂喂”來(lái)測(cè)試實(shí)時(shí)語(yǔ)音質(zhì)量靠譜嗎？

2016-11-02 09:48:16 作者：來(lái)源：CTI論壇評(píng)論：0 　點(diǎn)擊：

　　

　　陳若非，現(xiàn)在任職聲網(wǎng)Agora.io的音頻技術(shù)，負(fù)責(zé)整個(gè)音頻技術(shù)架構(gòu)。在香港城市大學(xué)讀博士期間是音頻方面的諸多重要會(huì)議和期刊的主編。這位同學(xué)在以前的工作經(jīng)驗(yàn)里積累了大量關(guān)于音頻的降噪、混合、雙麥等等這方面的工作經(jīng)。

　　大家下午好，很高興今天有機(jī)會(huì)和大家分享一下：讓我們的APP實(shí)現(xiàn)實(shí)時(shí)語(yǔ)音功能時(shí)，我們需要做哪些測(cè)試？要怎么樣做這些測(cè)試才能保證上線后是穩(wěn)定沒(méi)有問(wèn)題的。

　　有的開發(fā)者說(shuō)，他們自己做了實(shí)時(shí)語(yǔ)音的功能，在自己的測(cè)試中覺得沒(méi)有問(wèn)題，在公司測(cè)得都很好，也通過(guò)了。上線后，收到很多用戶反饋：為什么你的語(yǔ)音這么卡，為什么有回聲，為什么會(huì)有雜音？。他們才發(fā)現(xiàn)這些問(wèn)題其實(shí)并不是這么容易定位的，也不能像平時(shí)我們解BUG那樣快速修復(fù)這樣的問(wèn)題。再追溯回來(lái)他們發(fā)現(xiàn)這背后跟很多網(wǎng)絡(luò)相關(guān)的優(yōu)化、音頻底層的算法都有很大的關(guān)系，這一塊他們自己也解決不了，所以就會(huì)出現(xiàn)比較尷尬的局面。所以，希望在今天的演講之后可以給大家一些更豐富的手段，幫助大家去評(píng)估一下自己手里的音頻引擎效果是怎么樣的。

　　首先，我們來(lái)講講實(shí)時(shí)語(yǔ)音的發(fā)展。我相信大家對(duì)實(shí)時(shí)語(yǔ)音這樣的功能應(yīng)該比較了解。實(shí)時(shí)語(yǔ)音發(fā)展已經(jīng)有幾十年的歷史，近幾年越來(lái)越多的APP提供了這個(gè)功能，包括微信、陌陌。越來(lái)越多的用戶愿意使用實(shí)時(shí)語(yǔ)音功能，從側(cè)面說(shuō)明一個(gè)問(wèn)題，實(shí)時(shí)語(yǔ)音這個(gè)功能已經(jīng)達(dá)到可以商業(yè)化的地步了。

　　這背后，我們這兩年網(wǎng)絡(luò)基礎(chǔ)設(shè)施的升級(jí)，智能終端設(shè)備的更新?lián)Q代，包括現(xiàn)在流行的WebRTC技術(shù)的快速發(fā)展，都為實(shí)時(shí)語(yǔ)音野蠻省長(zhǎng)提供非常肥沃的土壤。我們非常高興地看到，除了社交之外，游戲、直播、在線醫(yī)療、在線教育這些行業(yè)對(duì)實(shí)時(shí)語(yǔ)音需求都是非常強(qiáng)烈。

　　那么問(wèn)題來(lái)了，當(dāng)我們有一個(gè)語(yǔ)音引擎在手里，我們已經(jīng)調(diào)通了，出聲了，到上線究竟還有多遠(yuǎn)？這個(gè)問(wèn)題其實(shí)是見仁見智的。我們跟一些開發(fā)者打交道下來(lái)，聽到比較多的兩種聲音是：我現(xiàn)在就想做視頻應(yīng)用，看臉的世界，出聲就可以；還有一種，我覺得音頻很重要，但是我不知道怎么測(cè)？我要如何來(lái)做測(cè)試才能保證上線后的穩(wěn)定？要回答這兩個(gè)問(wèn)題我們首先來(lái)看一下我們實(shí)時(shí)語(yǔ)音到底有哪些特征？

　　實(shí)時(shí)語(yǔ)音到底有哪些特征？

　　首先，實(shí)時(shí)語(yǔ)音的完備性要求非常高。我們不可否認(rèn)語(yǔ)音是溝通的本質(zhì)，是信息的載體。如果我們?cè)谕ㄔ捴姓Z(yǔ)音信息丟失了，這個(gè)對(duì)話是根本不能繼續(xù)下去的。這實(shí)際上說(shuō)明了，我們首先對(duì)實(shí)時(shí)語(yǔ)音的完備性要求是非常高的，而且用戶對(duì)這部分的音頻問(wèn)題容忍度是非常低的。

　　第二，實(shí)時(shí)語(yǔ)音其實(shí)是隨機(jī)性很大。我們要做基于互聯(lián)網(wǎng)的實(shí)時(shí)語(yǔ)音，也決定了我們繞不開網(wǎng)絡(luò)的丟包、延時(shí)的問(wèn)題，所以這部分又決定了實(shí)時(shí)語(yǔ)音其實(shí)是隨機(jī)性很大的。

　　第三，問(wèn)題的多元性。這個(gè)問(wèn)題怎么解釋？舉個(gè)例子，大家平時(shí)有人會(huì)給你報(bào)你的語(yǔ)音卡頓，到底是什么原因？你首先想到的肯定是網(wǎng)絡(luò)，網(wǎng)絡(luò)會(huì)卡頓。其實(shí)還有別的原因會(huì)引起卡頓，比如設(shè)備CPU負(fù)荷很高時(shí)，錄放音調(diào)度有問(wèn)題，也會(huì)導(dǎo)致聲音的卡頓。更隱性的問(wèn)題，比如回聲消除，兩個(gè)人同時(shí)說(shuō)話時(shí)，這邊開著外放，收回去的時(shí)候兩個(gè)聲音混在一起，過(guò)程中會(huì)有損傷，造成斷續(xù)。通過(guò)這些例子，可以想見，實(shí)時(shí)語(yǔ)音的問(wèn)題很難去定位。

　　最后，對(duì)錄放音設(shè)備的依賴。我們每個(gè)人都有自己的嘴和耳朵，設(shè)備也一樣，有揚(yáng)聲器和麥克風(fēng)，而且它還有更多的外設(shè)。所以，其實(shí)最后的聽感體驗(yàn)很大程度受到錄放音設(shè)備的制約，這也決定了音頻的問(wèn)題其實(shí)是碎片化的。

　　我們可以看到，這四個(gè)問(wèn)題其實(shí)都是很難搞的問(wèn)題，這也決定了用喂喂喂或者簡(jiǎn)單幾次測(cè)試不可能很好覆蓋整個(gè)音頻測(cè)試。

　　來(lái)總結(jié)一下，我們這里把影響語(yǔ)音質(zhì)量的因素分為三類：

　　網(wǎng)絡(luò)問(wèn)題：丟包，或者抖動(dòng)，都會(huì)導(dǎo)致聽感滯后或者斷續(xù)；

　　設(shè)備問(wèn)題：很突出，在一些低端的安卓機(jī)上，聲學(xué)設(shè)計(jì)并不理想。揚(yáng)聲器之間的耦合很大，或者揚(yáng)聲器的非線性很大，導(dǎo)致你的算法不能很好貫通在上面，導(dǎo)致聽感上有一些卡頓、毛刺的問(wèn)題。

　　物理環(huán)境：比如我在一個(gè)很吵的環(huán)境和你打電話，或者我在很小的房間跟你打電話感覺是不一樣的；還有遠(yuǎn)場(chǎng)拾音，比如做電視應(yīng)用，必須要在2米以外收音，這個(gè)時(shí)候麥克風(fēng)的拾音效果決定了音頻聽到的體驗(yàn)。

　　這么多復(fù)雜的問(wèn)題，業(yè)界一般怎么處理？

　　手機(jī)公司會(huì)有很大的消聲室，是用來(lái)規(guī)避一些不確定外界聲源的影響。還需要有人工頭、人工嘴和人工耳做高保真的放音和收音，四周有高保真的音響放出自由場(chǎng)的噪聲源，模擬不同網(wǎng)絡(luò)狀況。會(huì)測(cè)試回聲，語(yǔ)音在干凈或噪聲環(huán)境下的得分，雙降的性能。每個(gè)手機(jī)出場(chǎng)之前都會(huì)做這樣的測(cè)試。

　　但這一般開發(fā)者來(lái)說(shuō)門檻很高，這樣一套設(shè)備很貴，我們有沒(méi)有更經(jīng)濟(jì)合理的方法做測(cè)試？

　　我們也總結(jié)了一下，聲網(wǎng)在實(shí)踐中覺得比較適合開發(fā)者自己去做，在上線前自測(cè)的一些方法，這里也按我們之前提到的三個(gè)歸類，網(wǎng)絡(luò)、設(shè)備和物理環(huán)境講一下。

　　首先，網(wǎng)絡(luò)部分。有TC跟NetEM，都可以模擬，如果具體步驟不清楚的同學(xué)，可以查看這個(gè)教程。

　　你還在靠“喂喂喂”來(lái)測(cè)語(yǔ)音通話質(zhì)量嗎，看完這篇文章你就能掌握正確姿勢(shì)

　　這里面可能不能涵蓋所有的丟包，但是基本上也能測(cè)到語(yǔ)音在不同丟包下的表現(xiàn)，可以測(cè)到引擎的極限在哪里。聲網(wǎng)的引擎基本現(xiàn)在做到在TC下，30%的丟包是無(wú)感的，70%的丟包可以正常的通話。

　　還有一個(gè)比較重要的是：跨運(yùn)營(yíng)商的測(cè)試。這一點(diǎn)很多客戶是不重視的，自己在公司內(nèi)用P2P測(cè)覺得很好，一上線就有很多問(wèn)題。在中國(guó)，跨運(yùn)營(yíng)商的丟包，或者2G、3G、4G移動(dòng)網(wǎng)絡(luò)下會(huì)有很多問(wèn)題，建議大家在這方面做足夠測(cè)試再上線。

　　其次，設(shè)備的問(wèn)題。大家在一些平板電腦測(cè)試覺得聲學(xué)很好，調(diào)的也很好，底層也有算法。但是，到安卓之后就變得非常的麻煩。很多低端的安卓機(jī)，底層錄音的通路沒(méi)有調(diào)好，底噪很大。而且，聲學(xué)設(shè)計(jì)不夠好，有很多非線性的問(wèn)題需要適配。而這些問(wèn)題如果只是在一個(gè)比較高端的機(jī)器上測(cè)，可能是不會(huì)體現(xiàn)的。所以，如果你的目標(biāo)用戶中有很多這樣的機(jī)型，那么一定要在測(cè)試中把這一塊覆蓋好。同時(shí)，在聽筒、耳機(jī)、外放、藍(lán)牙，也需要去測(cè)，這些都是會(huì)影響用戶的體驗(yàn)的細(xì)節(jié)。

　　第三，物理場(chǎng)景。我們其實(shí)沒(méi)有辦法覆蓋非常多的場(chǎng)景，建議去下載一些語(yǔ)音降噪的序列、噪聲的序列，是免費(fèi)的，可以在不同的信噪比情況下用來(lái)測(cè)試。遠(yuǎn)場(chǎng)拾音，只要測(cè)一下不同的說(shuō)話距離就能感覺到不同的體驗(yàn)。

　　我相信通過(guò)這三步的測(cè)試，你的語(yǔ)音引擎是基本可用的。

　　另外，稍微講一下一些技術(shù)細(xì)節(jié)。

　　我們常說(shuō)的3A引擎是指：回聲消除、降噪和自動(dòng)增益控制，這是所有音頻引擎中必須有的模塊。在測(cè)回聲時(shí)，需要留意降完回聲之后殘留的程度；雙講透明度，就是兩個(gè)人同時(shí)說(shuō)話的時(shí)候會(huì)有多少聲音可以透過(guò)去；穩(wěn)定性是指在安卓上這些CPU比較高的情況之下可以穩(wěn)定運(yùn)行的一個(gè)時(shí)間，收斂時(shí)間。降噪，我降噪完聲音的殘留噪聲的程度和收斂時(shí)間。自動(dòng)增益控制關(guān)注兩個(gè)點(diǎn)，第一收音距離多遠(yuǎn)，第二，你把聲音推大，雜音也會(huì)推大，這個(gè)部分有沒(méi)有做特殊的處理？不然有人會(huì)說(shuō)，你的這個(gè)聲音是很大，但是背景音一起推起來(lái)了，這時(shí)需要一些算法來(lái)做的更好。如果在1米、2米情況下不用AGC聲音已經(jīng)非常小，這里面必須有算法支持它。

　　上圖的三個(gè)算法也是比較特殊場(chǎng)景下的算法，聲網(wǎng)在這三塊也做了比較多的工作。

　　可懂度增強(qiáng)：如果我在很噪雜的環(huán)境，對(duì)方傳過(guò)來(lái)的聲音是不吵的，但是我聽著還是很累，因?yàn)槲遗赃呌泻芏嘧屛曳中牡穆曇�。這個(gè)時(shí)候，我們需要去評(píng)估現(xiàn)在的環(huán)境下的有多噪雜，從而調(diào)整下行的信號(hào)讓你聽得更清楚。

　　盲源分離：指的是我們剛才的降噪說(shuō)得是平穩(wěn)噪聲，對(duì)應(yīng)在數(shù)學(xué)上也是用統(tǒng)計(jì)模型來(lái)做。但是在非平穩(wěn)信號(hào)下，可能需要有多麥技術(shù)來(lái)定位主講人聲源在哪，主要收主講人的聲音，其他的聲音屏蔽。

　　嘯叫抑制：真實(shí)環(huán)境中并不是很多。在做音頻測(cè)試時(shí)，如果兩個(gè)手機(jī)開著外放，你就會(huì)聽到很尖銳的雜音一直響。這怎么辦？其實(shí)很簡(jiǎn)單，只要把一臺(tái)插上耳機(jī)，把回環(huán)的通路打斷就不會(huì)叫。聲網(wǎng)自己做了嘯叫抑制的模塊，兩個(gè)手機(jī)都外放，即使不插耳機(jī)，我們也會(huì)把檢測(cè)到的尖銳雜音自動(dòng)壓下來(lái)。

　　如果做的應(yīng)用是比較特殊的場(chǎng)景，比如直播、游戲，我們還有特殊的點(diǎn)需要注意。

　　做直播，推流基本用44.1K，但聲音有效采樣取到多少才是真正重要的。左圖是32K的采樣，右圖那個(gè)雖然是44.1K的聲源，但其實(shí)有效頻率是8K，實(shí)際聽到的聲音會(huì)變悶的。

　　ASMR，就是用立體聲錄音去給聽眾聽到空間感的音頻。那聲網(wǎng)在手機(jī)平臺(tái)上，第一個(gè)做到立體聲錄音和播放。這意味著，主播可以現(xiàn)在拿著這個(gè)立體聲的設(shè)備走到街上，一輛車開過(guò)去，其實(shí)直播的聽眾戴了耳機(jī)就能感覺到從左到右的效果。

　　再講一下游戲，很特殊的場(chǎng)景。拿一個(gè)槍戰(zhàn)類的游戲舉例，在3D環(huán)境里可以聽到周圍有隊(duì)友開槍，可以聽到哪邊交火。如果玩家開了實(shí)時(shí)語(yǔ)音，自己開著外放。那么玩家開槍的聲音通過(guò)他的外放再被收回去，這部分回聲消除由于沒(méi)有參考信號(hào)就做不了。這個(gè)聲音傳過(guò)去會(huì)影響對(duì)方的判斷，直接降低玩家的游戲體驗(yàn)。

　　上線只是一個(gè)開始，上線之后，語(yǔ)音的碎片化問(wèn)題還會(huì)不斷出現(xiàn)。那么就需要做兩方面的統(tǒng)計(jì)。

　　全局監(jiān)控。來(lái)反饋全局質(zhì)量，是不是大部分用戶都比較好？上圖是聲網(wǎng)做的一個(gè)統(tǒng)計(jì)，反應(yīng)每天使用用戶大概比例，用什么網(wǎng)絡(luò)什么系統(tǒng)，音頻視頻打分如何，丟包率如何？如果你不是使用聲網(wǎng)的服務(wù)，你自己也需要做這樣一套系統(tǒng)，來(lái)改進(jìn)服質(zhì)量。

　　個(gè)例分析。全局反饋良好，但依然有用戶報(bào)問(wèn)題，我的聲音聽不到怎么辦？聲網(wǎng)在實(shí)踐當(dāng)中做了這樣一套系統(tǒng)，可以根據(jù)用戶ID去查詳細(xì)的通話信息：包括一些碼率、CPU的情、音頻錄音大小可以自己看得到，這樣子就能定位問(wèn)題。

　　以下是現(xiàn)場(chǎng)提問(wèn)

　　提問(wèn)：我問(wèn)一個(gè)關(guān)于降噪的問(wèn)題，你剛才的演示PPT里面沒(méi)有很清楚，降噪之后背景噪聲是消除越干凈越好？還是應(yīng)該是有一定的率？

　　陳若非：降噪有一個(gè)很大的問(wèn)題，你壓得越多噪聲越低，語(yǔ)音失真也越大，這是必然的。如果你有一個(gè)噪音，失真率很小，如果壓得很多，非常干凈，這個(gè)聲音頻率上會(huì)特別高，聽起來(lái)尖尖的，不是很舒服。所以這需要你在實(shí)踐中自己去調(diào)到一個(gè)你認(rèn)為最好的點(diǎn)，沒(méi)有絕對(duì)，我不知道這樣回答有沒(méi)有回答你的問(wèn)題？

復(fù)制網(wǎng)址收藏打印郵件微信新浪微博一鍵分享 QQ 更多

相關(guān)熱詞搜索：聲網(wǎng)Agora.io 實(shí)時(shí)語(yǔ)音

上一篇:數(shù)據(jù)保護(hù)功能是云計(jì)算平臺(tái)必不可少的組成部分

下一篇:最后一頁(yè)

相關(guān)閱讀：

·聲網(wǎng)Agora高澤華：VR實(shí)時(shí)語(yǔ)音，帶著最好的武器去戰(zhàn)斗2016-05-05 10:08:43

評(píng)論排行

推薦閱讀

專題

2016年中國(guó)國(guó)際信...: 由工業(yè)和信息化部和中國(guó)國(guó)際貿(mào)易促進(jìn)委員會(huì)主辦、中國(guó)郵...[詳細(xì)]

G-Summit客戶體驗(yàn)大會(huì): 為了讓眾多客戶了解當(dāng)前客戶體驗(yàn)和服務(wù)的市場(chǎng)導(dǎo)向、技術(shù)...[詳細(xì)]

Fintech火了銀行客...: 互聯(lián)網(wǎng)對(duì)金融業(yè)的沖擊毋庸置疑， "狼來(lái)了 ...[詳細(xì)]

2016世界移動(dòng)大會(huì)...: 由GSMA主辦的2016世界移動(dòng)大會(huì)-上海，以“移我所想” ...[詳細(xì)]

大家都在看

點(diǎn)擊排行
周排行
月排行

Copyright(C) 1999-2015 CTI論壇
All Rights Reserved CTI論壇版權(quán)所有

電話：+86-10-82012787，+86-10-82079677
傳真：+86-10-62041062
投稿：ctiforum@ctiforum.com
地址：北京市西城區(qū)新德街20號(hào)513室（100088）

網(wǎng)站首頁(yè) | 公司簡(jiǎn)介 | 聯(lián)系方式 | 工作機(jī)會(huì) | 廣告服務(wù) | 會(huì)員服務(wù) | 服務(wù)項(xiàng)目 | 專家團(tuán)隊(duì) | 版權(quán)聲明 | 投稿方法

Copyright(C) 1999-2015 CTI論壇 All Rights Reserved CTI論壇版權(quán)所有

電話：+86-10-82012787，+86-10-82079677 傳真：+86-10-62041062 投稿：ctiforum@ctiforum.com
地址：北京市西城區(qū)新德街20號(hào)513室（100088）

經(jīng)營(yíng)性網(wǎng)站備案信息

京ICP證030771號(hào)

網(wǎng)絡(luò)110報(bào)警服務(wù)

京公網(wǎng)安備110102000104-1號(hào)

六枝特区| 齐齐哈尔市| 牡丹江市| 祁东县| 佳木斯市| 石家庄市| 新野县| 平远县| 遂川县| 来安县| 绥芬河市| 吉隆县| 阳城县| 太原市| 壤塘县| 永康市| 云浮市| 霍州市| 建湖县| 荥经县| 故城县| 迁安市| 荔浦县| 迁西县| 大新县| 新干县| 东丰县| 大荔县| 浮梁县| 金乡县| 平谷区| 蒲江县| 阿拉尔市| 上思县| 武山县| 内丘县| 化州市| 镇雄县| 蒙自县| 微山县| 德昌县|

<sub id="4lysf"></sub>