亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

您當前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

2021 技術展望 | 實時互動場景下,音頻的技術變遷與機遇

2021-03-25 09:05:35   作者:   來源:聲網(wǎng)Agora   評論:0  點擊:


  線上會議、在線教育、電商直播等多個場景的興起,也使得實時互動技術從幕后走到臺前,得到了更多人的關注。編解碼、網(wǎng)絡傳輸、計算機視覺等 RTE 相關的一系列技術也正煥發(fā)出更強的生命力。2021 年,在深度學習、5G 等技術的加持下,RTE 會進一步催生哪些可能?
  聲網(wǎng)Agora 開發(fā)者社區(qū)聯(lián)合 InfoQ 共同策劃,邀請了聲網(wǎng)Agora 開發(fā)者社區(qū)中的多位技術專家,從視頻傳輸、計算機視覺、編解碼標準發(fā)展、WebRTC、機器學習、音頻技術等角度,共同撰寫「2021 實時互動技術展望系列」,一窺技術新趨勢。本文源于對聲網(wǎng)Agora 音頻體驗與工程總監(jiān)陳若非的采訪。本系列內(nèi)容由聲網(wǎng) Agora 開發(fā)者社區(qū) 與 InfoQ 聯(lián)合策劃,并由 InfoQ 審校,首發(fā)于 InfoQ。
  音頻技術中有很多細節(jié)會影響到實時互動的體驗。隨著技術和應用場景的變化,音頻也正在與更多的學科、技術結合。在實時互動場景下,哪些因素會影響音頻的體驗?相比于視頻技術,音頻技術是否發(fā)展較慢?面向 RTC 場景,音頻技術又需要作出哪些改變?……為了解答這些問題,我們采訪了聲網(wǎng) Agora 音頻體驗與工程總監(jiān)陳若非,請他來聊一聊在實時互動場景下音頻技術的變遷與機遇。
  Q:相對于研究網(wǎng)絡架構、大前端等方面的工程師來講,研究音頻的工程師比較少。具體來講,音頻工程師都會研究哪些相關技術?
  陳若非:聲音是信息和情感傳遞的載體,所以音頻相關的研究基本會圍繞如何讓信息和情感更好的被傳遞和感知理解展開的。音頻領域相對專業(yè)細分,但是我們細挖一下就會發(fā)現(xiàn)音頻相關的研究方向其實很多,涉及到的交叉學科也很廣。從交互對象來說我們可以分為兩類:人機交互的音頻和人人交互的音頻。從交互的實時性來分,又可以分成實時的交互和非實時的交互。人機交互主要研究如何讓機器更好的理解聲音和生成聲音,通過 ASR、MIR、TTS 等技術來實現(xiàn)人類希望機器完成的任務。人人交互的部分更多和人的感知系統(tǒng)關聯(lián),其優(yōu)化目標會圍繞如何讓人更好的感知音頻來展開。實時的人人音頻交互又在此基礎上提出了更多的約束條件,優(yōu)化需要用更低的延時、更小的計算量和因果系統(tǒng)下展開。我所在的聲網(wǎng)就主要聚焦于實時互動音頻領域的研究,所以我們會從采集播放、編解碼、前后處理、傳輸?shù)娜溌啡パ芯咳绾卧诒M可能低的延時和計算量下提供更好的音頻互動體驗。
  Q:聊技術變遷之前,首先梳理一下概念,在實時互動的場景下,哪些因素會影響音頻的體驗?
  陳若非:實時互動音頻是端到端,嘴到耳的體驗,所以全鏈路上所有的組成部分都有可能影響音頻體驗。我們可以從采、播、濾、壓、傳五個方面去分解技術對音頻體驗的影響。首先說采集,不同麥克風的聲學屬性差異就對音頻體驗有決定性的影響,從拾音的距離,方向性到精度。被拾取的聲音信號經(jīng)過模數(shù)轉換,信號采樣也會造成聲音的損失,采樣率越高聲音的細節(jié)就會保留的更好。所以一個高質(zhì)量的麥克風會從源頭上提供更好的音頻源。類似的,一個高質(zhì)量的播放設備可以更好的保留更多聲音細節(jié)。然后前后處理是音頻鏈路上非常重要的一環(huán),大家常聽到的 3A 技術都屬于這個范疇,前后處理對原始采集的信號或者即將要播放的信號做二次處理,來濾除其中的干擾信號,比如回聲、噪音、雜音、嘯叫等,同時對目標的音頻做音量和聽感上的增強。另外在一些音效玩法里,我們也會通過對信號的處理實現(xiàn)變聲、美聲等特定聲音效果。再說下編解碼和傳輸,這兩者是強耦合的。原理上編碼的采樣率和碼率越高,聲音的保真度就更好,聽端的體驗也更好。但現(xiàn)實中網(wǎng)絡的帶寬是有限制的,還會經(jīng)常出現(xiàn)丟包抖動等不利情況。好的編解碼算法可以通過對聲學模型和信息冗余的深入理解,在相對低的碼率下實現(xiàn)高品質(zhì)的聲音保留,從而保證在各種弱網(wǎng)情況下的穩(wěn)定表現(xiàn)。同時我們也需要通過開發(fā)信源信道的弱網(wǎng)對抗技術,在保證低延時的基礎上,減少丟包抖動帶來的聽感影響。
  Q:行業(yè)中有種看法,認為音頻技術相對于視頻技術,似乎發(fā)展會稍慢一些?你怎么看待目前音頻技術的發(fā)展?
  陳若非:技術的進步都是需求推動的。電話時代的音頻技術曾經(jīng)經(jīng)歷火熱的發(fā)展,一些經(jīng)典理論如線性預測、自適應濾波,很好的解決了一些基礎可用的問題,很多技術到今天還在被沿用。近幾十年 VOIP 的技術也得到了長足的發(fā)展,我們今天看到 VOIP 的分鐘數(shù)能在通信領域占據(jù)越來越大的份額,背后也離不開音頻研究人員長期的扎實工作和持續(xù)進步。音頻需要較高的技術門檻,全鏈路的木桶效應明顯,設備耦合重碎片化嚴重,改進主觀不易被感知,這些因素都決定了音頻想要出成果需要坐的住冷板凳,需要長期主義的堅持。
  近些年 AI 技術的興起給音頻注入了新的活力,也給很多長時間不好解決的問題提供了新的思路。人機語音交互成為了一個音頻領域新的熱點,相關的技術也蓬勃發(fā)展,目前在識別、合成等領域都取得了長足的進步。而在最近的幾年,也看到了不少 AI 技術和 RTC 領域結合的實踐成果,讓人看到了進一步提升音頻體驗的巨大空間。從外部環(huán)境來看,在看膩了千人一面的直播后,越來越多的人開始喜歡心理包袱更小,想象空間更大的音頻社交,近期的行業(yè)里也開始出現(xiàn)新的浪潮。相信在這種內(nèi)外因的結合下,會有更多的人開始研究實時互動音頻的體驗,也非常期待這個行業(yè)會給大家?guī)聿灰粯拥男麦w驗。
  Q:從實際來看,目前音頻在實時領域還存在哪些技術挑戰(zhàn)?
  陳若非:實時互動音頻領域還有很多技術挑戰(zhàn)需要我們的攻克。我這里提兩個大點。第一,碎片化。傳統(tǒng)的手機廠商是一臺臺調(diào)試算法和逐一通過聲學測試出廠的。如果我們要在不同設備、環(huán)境、網(wǎng)絡條件下提供一致性的高質(zhì)量音頻體驗,我們就需要尋找新的突破。在接下來萬物互聯(lián)的時代,這種需求會愈加強烈,而這方面技術的突破會帶來巨大的價值。第二,主觀性。音頻體驗是一個非常主觀的存在,每個人的感知差異和喜好也迥異。我們需要找到更好的方法來匹配這種個性化的喜好和提供更好的量化評價體系。
  Q:基于你對業(yè)界、學界的觀察,你認為音頻技術面向 RTC 場景,接下來需要作出哪些改變?(如算法、技術的結合等)
  陳若非:我認為實時互動音頻的未來應該有下面三個部分。第一,AI 和信號處理的深度融合。經(jīng)典的信號處理和聲學模型已經(jīng)能幫我們解決很多問題,當然也不少解決不好的問題。在 AI 的有效融合下,可以有效的補充傳統(tǒng)算法的不足,在合理的代價下更好的解決我們的問題,而非簡單視 AI 為靈丹妙藥包治百病。第二,符合時代的評價標準。目前很多音頻標準是給通訊設計的,真正如聚一堂的互動體驗需要對應的評價標準,如何更好的評價互動性,沉浸感是我們需要去探索的地方。第三,真正的沉浸感和伴隨感。人們開始不滿足于單純的信息交互,進一步的追求面對面的互動體驗和情感伴隨,而隨著網(wǎng)絡和設備條件的進一步成熟,這種未來也成為可能。音頻全鏈路都需要升級,從聲場的采集到還原,甚至增強現(xiàn)實,來創(chuàng)造出真正沉浸式伴隨的體驗,這也會將會是一條漫長的探索之路。我們在聲網(wǎng)一直致力于探索這些長年存在的行業(yè)難題,也歡迎各路有想法有追求的朋友聯(lián)系我,共同交流探索,共同敲開未來音頻之門。
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

相關閱讀:

專題

CTI論壇會員企業(yè)

高要市| 宁城县| 闻喜县| 邯郸县| 岳池县| 昆山市| 伊金霍洛旗| 抚顺市| 胶南市| 新沂市| 武汉市| 九寨沟县| 平果县| 怀化市| 偃师市| 崇文区| 横山县| 石嘴山市| 江西省| 西昌市| 灵台县| 翁牛特旗| 滨州市| 湄潭县| 顺义区| 灵寿县| 永德县| 萨嘎县| 双牌县| 曲靖市| 沙雅县| 班玛县| 叙永县| 莱西市| 上高县| 合作市| 嘉善县| 义马市| 定安县| 黔西县| 拉孜县|