首頁>>廠商>>語音識別與合成>>科大訊飛

語音界面設計感想一二

陳焱 2004/08/31

  作為一家專業(yè)的語音及語言技術(shù)提供商,科大訊飛公司專門成立了一個部門進行語音應用的嘗試性開發(fā)和應用跟蹤。用戶體驗作為一個重要的環(huán)節(jié)貫穿每一個新的CTI應用系統(tǒng)從最初的開發(fā)設計到最后走向最終用戶的全過程。在眾多的用戶體驗中,我們注意到語音界面的設計直接影響到了整個系統(tǒng)的易用性、高效性和用戶對系統(tǒng)服務的直觀感受即系統(tǒng)的親切性。在這里,我們將一些關(guān)于語音界面設計的感想表述出來和CTI界的朋友們一同分享,希望更多的CTI系統(tǒng)設計者們能共同推動人性化語音應用環(huán)境的發(fā)展。

  語音界面是用戶為了獲取信息和自動應答系統(tǒng)進行的對話過程。畢竟是同機器的對話,用戶并不想和機器聊天,獲取信息才是最終目的。因而,語音界面最基本的要求應該是通過簡潔易懂的對話讓用戶最快最準確的獲取其需要的信息。在此基礎上,再通過語言的不同表達方式、配合符合對話場景的音樂音效等手段創(chuàng)造出更自然更親切的對話環(huán)境,使用戶感受到體貼的服務。

  對話設計中最容易碰到的就是易懂和易用之間的矛盾。有些語音界面用戶要和系統(tǒng)進行七八次對答才能實現(xiàn)某個功能,但又覺得如果不問這么多問題無法收集全客戶的查詢條件。這中間的矛盾似乎很難協(xié)調(diào),但設計者往往忽略了當前所處的語言環(huán)境,而不能通過最簡潔有效的對答獲取信息。結(jié)合所處的語言環(huán)境,可以縮減掉很多冗余的信息,順著對話的語勢,不僅可以設計出簡短的對話,也能營造出一個很自然的對話氛圍,讓使用者減少與機器對話的抵觸感。

  在措辭表達方面,應該盡量避免拖沓冗長的句式,盡量用短句來表達意思。若需要表達信息的句子確實很長,建議將最有用的信息放在最後。因為聽者對短句比對長句的理解容易;對聽到的最近的語音印象較深。

  語音界面的自然、親切在錄好的提示音而言比較容易實現(xiàn),只要在發(fā)音人的音色和發(fā)音風格上加以注意就可以達到令人滿意的效果。

  音色的選擇主要考慮的是在電話信道中的傳播效果。過于低沉或音域窄而尖銳的聲音轉(zhuǎn)成8k或6k的時候損失較大,一些音頭或音尾會缺失掉,導致某些提示音在電話中聽的不是很清楚。發(fā)音悅耳,擲地有聲的音色,可以讓聽眾很輕松的聽清內(nèi)容,且不易產(chǎn)生疲勞感。
發(fā)音風格的選擇是要根據(jù)語音服務的內(nèi)容和面向的聽眾而定的。娛樂節(jié)目和信息服務系統(tǒng)在報讀風格上就有較大的差異,前者需要活潑夸張的語言來表達,而后者則要清晰、流暢、平穩(wěn)中突出強調(diào)用戶查詢的結(jié)果。體育節(jié)目面對的是體育愛好者,需要快節(jié)奏的風格,而幼兒教育類節(jié)目面對的是年齡較小的孩子,要采用親切的循循善誘的發(fā)音風格等。因此,在定風格的時候要根據(jù)內(nèi)容和服務群體樂于接受的基調(diào)來確定。

  錄制提示音的時候,也有一些需要注意的地方。錄音環(huán)境要保持安靜,錄音時,播音員應始終維持相同的狀態(tài),最好能夠一次錄完所有的提示音,如果不能一次錄完,則需對錄音設備、錄音音量、噪聲范圍等進行量化規(guī)定,以防止多次錄音的效果不一致。錄音的數(shù)據(jù)應該進行降噪、去雜音、能量規(guī)整和預留靜寂段等處理,以保證使用時的效果。

  除了錄好提示音之外,語音合成和語音識別技術(shù)的應用,在語音界面的設計中也占了重要的部分。合成系統(tǒng)代替了動態(tài)信息和海量信息的報讀,由于是機器的聲音,很容易讓人產(chǎn)生不自然的感覺。其實,有些很不自然的合成效果是因為沒有能正確的使用合成系統(tǒng)而導致的,并不能體現(xiàn)出合成系統(tǒng)真正應該達到的自然度。那在使用合成系統(tǒng)時怎樣發(fā)揮出合成系統(tǒng)真正的水平,盡可能提升合成的自然度呢?

  合成文本是合成語音的基礎,因此合成文本是否規(guī)范可直接影響到合成的效果。首先文本內(nèi)容中應該沒有錯別字,也沒有不合理的標點符號。因為漢語的分詞斷句是憑借字詞和標點符號來完成的,如果出現(xiàn)錯誤就會導致不合理的停連。其次,合成的文本應該是連續(xù)的句子,而不是單獨的字詞或詞組分別合成再進行拼接。有些查詢結(jié)果可能是固定文本和動態(tài)文本結(jié)合的,設計者會認為固定文本使用提示音效果會更好,就將固定文本和動態(tài)文本剝離開,單獨合成動態(tài)信息再和固定語音相拼接,導致動態(tài)文本合成效果很差,拼接起來效果就會更差。例如:"您有500元可消費"被分成了"您有"、"500元"、"可消費"單獨合成再拼接的效果就會不如直接合成"您有500元可消費"的效果好。因為作為字詞的合成和作為句子中的一部分合成出的語音,其與前后語音的環(huán)境是不一樣的,因而輕重長短等韻律也是不一樣的。

  合成的語音和提示音一起使用時,往往因為二者的區(qū)別較大而引起聽感上的差異,使合成音顯得不自然。這種差異可以通過與提示音的互相調(diào)節(jié)而有所改善。最好可以做到提示音和合成音的發(fā)音人相同,這樣二者間的過渡在音色上不會有太大的出入。如果不能做到同一發(fā)音人,那要盡量讓二者在音色上相接近,語速要保持一致。此外,由于錄音的自然度比合成音高,容易引起聽者的注意,可以適當調(diào)高合成音的音量,使合成音能夠引起聽感上的關(guān)注。在科大訊飛最新推出的InterPhonic 3.0系統(tǒng)中就提供了提示音資源管理工具,可以方便的在合成系統(tǒng)的實時合成中添加提示音,并可對提示音進行音量調(diào)整使之與合成語音的銜接自然流暢。

  此外,我們還可通過一些參數(shù)設置和規(guī)則的約束調(diào)整合成的韻律,科大訊飛的合成系統(tǒng)提供了語速、音量、音高、停頓等多種參數(shù)的設置,這些設置可通過CSSML(中文語音標記語言)對句子進行韻律風格的控制。例如,當需要強調(diào)某個句子中的特定信息的時候,可以調(diào)整語速、音高、停頓等韻律控制參數(shù),在金額查詢、選擇問句、信息確認中都可以使用參數(shù)調(diào)節(jié)來突出強調(diào)。

  通過添加背景音樂和特殊音效的方式,也可以提高語音服務的親切度和自然度。經(jīng)過測試表明,音樂可以轉(zhuǎn)移人們對合成音中的一些微瑕的注意力,因而在大段的合成信息播報時配上風格相近的背景音樂,可以明顯的改善合成語音的自然度。而在一些重要信息的播報時配上音效可以提高人們對音效后播報信息的注意力。而且,在和機器對話時間過長時,人們的注意力就會分散,背景音樂和音效都可以有效的緩解聽覺疲勞。

  識別技術(shù)的應用可以省卻大量的查詢選擇,因而是語音界面設計中一個簡化菜單層次的有效手段。一般來說提高識別的準確率的方法是這樣,首先結(jié)合應用地理環(huán)境、實際場景、客戶群進行語法優(yōu)化,其次使用N_best、置信度等技術(shù)提高識別結(jié)果準確度,最后進行全面的tuning來對識別效果進行調(diào)優(yōu)。語法優(yōu)化是根據(jù)識別使用區(qū)域的語言習慣,對語法進行的調(diào)整,可以增加常用的詞匯擴大識別的范圍,例如北方人"俺"也可識別成"我"。使用N_best技術(shù),識別系統(tǒng)會給出多個選擇,然后讓用戶進行按鍵確認,這樣對于比較相似的選項造成的識別率問題可以得到很好的解決。設置置信度評分管理機制對識別結(jié)果進行劃分并進入不同的應答流程,既可以提高識別率也可以節(jié)省反復的詢問流程。當分數(shù)過低時可直接排除,達到一定的分數(shù)可通過詢問獲取使用者更多的信息進行確認,如果分數(shù)高過設置的范圍可直接認為識別正確。當系統(tǒng)使用一段時間后,我們還可以收集前期用戶使用過程的全部錄音數(shù)據(jù)進行參數(shù)的調(diào)整試驗,直到計算出最合適的參數(shù)設置。

  優(yōu)化語音合成的效果,提高語音識別的準確率,再將提示音和二者配合的恰到好處,就可以構(gòu)成一個貼近自然交流狀態(tài)的人性化的語音應用界面?拼笥嶏w公司以專業(yè)的態(tài)度在應用中不斷的完善其語音應用系統(tǒng),并致力于語音應用標準化工作的推動和實施,為語音界面設計者提供更便捷更實用的效果優(yōu)化和系統(tǒng)管理工具,讓語音界面設計工作變得更加輕松有效。

科大訊飛公司供稿 原文刊登在《客戶世界》



相關(guān)鏈接:
訊飛暢言語音教具系統(tǒng)榮獲“創(chuàng)新軟件產(chǎn)品” 2009-09-08
科大訊飛嵌入式語音新產(chǎn)品發(fā)布會在深圳舉行 2009-09-07
“會說話”的顯示屏提升居民小區(qū)信息服務水平 2009-09-07
訊飛語音助力太平人壽客服中心 2009-08-28
訊飛語音助力CDMA手機競爭終端市場 2009-08-14

分類信息:     文摘   技術(shù)_語音合成_文摘