自動語音識別(ASR)無處不在,我們經(jīng)常通過使用ASR技術(shù)的語音用戶界面與虛擬助理、電子設(shè)備和軟件應用程序進行交互。但更多時候,盡管ASR有了顯著的改進,但當我們與這些智能設(shè)備和應用程序交互時,仍然感覺缺少了一個要素。ASR介導的互動和我們正常的人與人之間的交流有很大區(qū)別,因為當我們與其他人互動時,我們會考慮他們的情緒狀態(tài)和表達,并相應地調(diào)整我們的反應、理解和行為。
人類的交流是豐富而復雜的。你可能聽說過經(jīng)常引用的7-38-55通訊規(guī)則。這個在20世紀60年代形成的公理聲稱,傳達我們交流的意圖和意義的重擔不是語言而是非語言線索。根據(jù)這一點,實際說出的單詞只占詞義的7%;語音表達和語調(diào)占38%;其余的55%的詞義是通過肢體語言傳達的。
我要指出的是,這條規(guī)則在所分配的百分比方面還沒有經(jīng)受住科學的審查,但它仍然很流行,并且包含了一個真理的核心,即從言語模式中可以收集到重要的信息信號。不僅是“什么”而且“如何”也很重要。當同時考慮信息的語義和情感狀態(tài)時,ASR技術(shù)的效果更好。
還要注意,我們這里的重點是語音情感識別,而不是通過使用情感標記注入語調(diào)和情感,使機器生成的語音聽起來更像人。自動生成接近人類語音的真實語音是一個受歡迎但不同的話題。如果當前的許多ASR應用程序看起來過于機械化或不切實際,那可能是因為它們對我們所說的話的解釋過于字面化,而對潛在的情感沒有感覺。
語音情感識別有著廣泛的應用領(lǐng)域,如下所述:
客戶支持和員工健康:分析語音通話以確定客戶的情緒狀態(tài)可以更好地處理客戶服務電話。例如,一個憤怒的客戶可以被引導到一個受過訓練的支持座席那里,以處理這種情況。一旦確定了情緒,軟件就可以進行編程,為心煩意亂的客戶定制一個對話腳本。
語音分析的座席談話可以提供線索,他們的壓力水平和情緒健康。對這些數(shù)據(jù)的時間序列分析可以識別客戶行為模式、員工和團隊激勵水平的變化和趨勢,以及其他可操作的見解。這些見解有助于提高員工敬業(yè)度和客戶滿意度。
冠狀病毒大流行導致了前所未有的遠程工作安排,這些安排會影響員工士氣;赟ER的分析應用程序可以幫助組織評估員工如何應對這些新工作條件可能產(chǎn)生的孤立感。
醫(yī)療保健和輔助機器人:在療養(yǎng)院和護理中心,為病人和老年人提供的伴侶機器人引起了很大的興趣。這些機器人可以了解他們所幫助的用戶的不同情緒狀態(tài),這將大大提高他們的接受度和采納率。另一個用例涉及自閉癥患者,他們很難識別與他們互動的人所表達的情感。SER應用程序可以提供單詞背后的情感線索。
E-learning應用程序:在線學習期間,學生可以體驗各種情緒狀態(tài),包括焦慮、困惑和無聊。關(guān)于學習者當前狀態(tài)的輸入,例如他們的興趣水平,可以用來改變教學節(jié)奏,或者可以促進不同的教學風格;所有這些都有助于提高學生的參與度并導致更好的學習結(jié)果。
體育和電子游戲:SER可以通過分析評論和生成精彩片段,幫助識別體育游戲或比賽的關(guān)鍵時刻和激動人心的部分。用戶通過佩戴數(shù)字化身來進行視頻游戲,這些化身的表情和動作可以根據(jù)用戶表達的情感進行修改,從而使游戲體驗更具趣味性和吸引力。
這并不是一份詳盡的清單。事實上,SER的用例可以在涉及語音的各種其他人機交互場景中找到。SER的基礎(chǔ)是能夠正確地推導出潛在的情緒,但這究竟是如何工作的?SER如何補充書面語篇的情感分析?挑戰(zhàn)和限制是什么?
作為一個長達幾十年的研究領(lǐng)域,SER有許多傳統(tǒng)的技術(shù),但我們也看到了新的深度學習方法的應用。人工智能和深度學習方法如何幫助我們提高SER?我們將在《語音技術(shù)》(Speech Technology)的春季版上探討這些話題。
聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
作者:Kashyap Kompella
原文網(wǎng)址:https://www.speechtechmag.com/Articles/Columns/Interact/Speech-Emotion-Recognition-The-Next-Step-in-the-User-Experience-145605.aspx