文本-可視語音轉(zhuǎn)換及其應(yīng)用_語音合成_CTI論壇

首頁>>>技術(shù)>>>語音應(yīng)用>>>語音合成(TTS)　　語音合成產(chǎn)品

文本-可視語音轉(zhuǎn)換及其應(yīng)用

王志明蔡蓮紅 2001/06/04

　　語音信號、視覺信號和文字是人類信息和知識的主要載體，也是人類進(jìn)行學(xué)習(xí)和交流的重要工具。在電子和通信技術(shù)迅速發(fā)展的今天，多種媒體之間的交互作用越來越受到人們的重視，如語音合成(text-to-speech)與自動語音識別實現(xiàn)了文字和語音的互相轉(zhuǎn)換；自動機(jī)器唇讀、圖像輔助語音識別和音視頻聯(lián)合編碼則利用了語音和圖像之間的內(nèi)在聯(lián)系。

　　經(jīng)過數(shù)十年的發(fā)展，語音合成技術(shù)已經(jīng)走入實用階段，在信息咨詢、電話銀行、車站播報系統(tǒng)等各個方面有了廣泛的應(yīng)用。近年來出現(xiàn)了另一種多媒體研究熱潮，即把聲音和文字、圖像集成在一起，形成直接由文本到可視語音的轉(zhuǎn)換(text-to-visual speech，TTVS)，使人們在聽計算機(jī)說話的同時能看到一個合成的人臉，使人機(jī)交互界面更為友好、和諧。

　　對視覺語音（visual speech）的研究正是這樣一種綜合考慮聲音和圖像的多媒體技術(shù)。視覺語音是指人們在用語言交流時所表達(dá)出的面部表情和動作，它能在一定程度上傳達(dá)人們想要表達(dá)的意思，并能幫助人們加深對語言的理解。研究表明，在環(huán)境噪聲較大或聽者有聽力障礙的情況下，如果在給出聲音信息的同時能給出一個“講話的頭”（talking head），即表現(xiàn)說話者面部表情和嘴部、眼部等變化情況，則會大大改善人們對聲音的理解。在人機(jī)交互的過程中，如果人們面對的不是單純的文本，而是一個會說話的人物形象，則使人覺得計算機(jī)界面更為友善，方便人們與計算機(jī)的交流。近幾年來，對視覺語音的研究越來越受到人們的重視，已成為多媒體和人機(jī)交互技術(shù)研究領(lǐng)域相當(dāng)活躍的研究方向。

TTVS的實現(xiàn)

對于TTVS，其實現(xiàn)方法可分為以下兩類：

　　基于參數(shù)控制的方法首先對人臉建立一個網(wǎng)格模型，包括多個多邊形(一般是三角形)和頂點。由一組參數(shù)來控制每個頂點的運(yùn)動，再通過圖像變形技術(shù)實現(xiàn)人臉上各個像素點的運(yùn)動，來生成人們說話時的各種面部表情。該方法的優(yōu)點是需要的數(shù)據(jù)量小、控制靈活、可移植性強(qiáng);缺點是合成的圖像往往帶有人工制作的痕跡，但對于這一點，各國研究者正在努力改善。

　　基于數(shù)據(jù)驅(qū)動的方法類似于語音合成中的波形拼接合成法。通過對人們說話時可能出現(xiàn)的各種表情進(jìn)行錄像，從中提取大量的原始數(shù)據(jù)，建立圖像數(shù)據(jù)庫。在合成時從庫中選擇合適的圖像進(jìn)行拼接，并進(jìn)行一些消除圖像邊緣效應(yīng)和抖動的處理，生成動態(tài)的連續(xù)的說話者的面部表情。該方法的優(yōu)點是合成的人臉圖像質(zhì)量高，較為逼真、自然;缺點是在建立模型的訓(xùn)練階段需要大量的原始數(shù)據(jù)，生成的數(shù)據(jù)庫需要保存大量的圖像數(shù)據(jù)，且所有數(shù)據(jù)完全是針對某個特定人的，無法移植到其他人身上。

　　現(xiàn)在運(yùn)行的系統(tǒng)中多為參數(shù)控制系統(tǒng)，其中控制參數(shù)也多采用MPEG-4所定義的人臉動畫參數(shù)(facial animation parameter,FAP)。MPEG-4制定了一整套人臉模型化描述方法，包括用于定義人臉模型的面部定義參數(shù)(facial define parameters,FDP)和一組用于定義人臉面部動作的人臉動畫參數(shù)FAP。其中FDP通過對人臉上84個特征點的位置信息來定義人臉模型，這些點不僅包括外表看得見的人臉特征點，還包括了舌頭、牙齒等口腔內(nèi)器官的特征點，如圖1所示。

　　FAP一共有68個參數(shù)，包括兩個高級參數(shù)和66個低級參數(shù)。高級參數(shù)是視位(viseme)和表情(expression)，視位分為15個，分別表示人們發(fā)某一音位時的面部動作;表情分為高興、悲傷、憤怒、害怕、厭惡、驚奇六種。66個低級參數(shù)用來控制部分FDP特征點的運(yùn)動，進(jìn)而形成各種復(fù)雜的人臉動作。這些標(biāo)準(zhǔn)的制定極大地推動了參數(shù)控制合成方法的發(fā)展，使這種方法在人機(jī)交互、計算機(jī)網(wǎng)絡(luò)交談、游戲動畫等方面得到更為廣泛的應(yīng)用，圖2 是參數(shù)控制的TTVS系統(tǒng)的基本框架。

　

　

圖1 MPEG所定義的FDP特征點

　

圖2 TTVS系統(tǒng)的基本框架

VSonic系統(tǒng)

　　目前，國內(nèi)外眾多研究機(jī)構(gòu)和公司均十分關(guān)注TTVS的研究，如MIT、AT&T、Microsoft、Motorola等。目前，清華大學(xué)計算機(jī)系已經(jīng)開發(fā)出了具有自主版權(quán)的漢語TTVS系統(tǒng)。

　　清華大學(xué)計算機(jī)系致力于人機(jī)語音交互的研究始于1979年。在20年的研究中，得到了國家自然科學(xué)基金、國家863計劃、國家重點攻關(guān)項目和軍事預(yù)研項目的資助，取得了一系列國內(nèi)外領(lǐng)先的研究成果，并多次獲獎。在語音合成方面，我們深入地研究了聲學(xué)模型、韻律模型、文本分析、韻律描述語言等語音合成中的關(guān)鍵技術(shù)，并于1993年推出了漢語TTS軟件產(chǎn)品。1999年實現(xiàn)了基于數(shù)據(jù)驅(qū)動的漢語TTS系統(tǒng)Sonic，獲得了高自然度的語音輸出。

　　為了增強(qiáng)TTS系統(tǒng)界面的友善性，清華大學(xué)計算機(jī)系于2000年著手研究漢語語音的可視化，為其原有的Sonic系統(tǒng)配上發(fā)音人的頭像，形成了新的漢語文本-可視語音轉(zhuǎn)換系統(tǒng)VSonic，系統(tǒng)界面如圖3所示。

　

　

圖3 VSonic系統(tǒng)運(yùn)行界面

　　在VSonic系統(tǒng)中，人臉模型是一個由三角形組成的二維網(wǎng)格人臉模型，整個模型共包括約220個點和350個三角形，如圖4所示。模型中的頂點涵蓋了由MPEG-4定義的主要FDP特征點，模型的驅(qū)動參數(shù)是標(biāo)準(zhǔn)的FAP參數(shù)。人臉合成是以單一的真實人臉正面照片為基礎(chǔ)，在FAP參數(shù)的控制下對人臉圖像進(jìn)行變形處理(warping)，首先求得FDP特征點的運(yùn)動向量，再通過其余點與這些點的位置及拓?fù)潢P(guān)系求得模型中所有頂點的運(yùn)動向量。根據(jù)頂點的運(yùn)動向量和對三角形的平面近似，利用雙線性插值方法求得所有像素點的運(yùn)動向量，從而使人臉“動”起來。對于口腔內(nèi)的圖像，我們采用固定的模型，具有真實的牙齒和口腔內(nèi)圖像紋理，并能根據(jù)開口度的大小和上下唇的突出度來調(diào)整亮度。

　　系統(tǒng)由語音合成部分提供時間同步信息，實現(xiàn)完全同步的語音和圖像播放。系統(tǒng)中語音的發(fā)音速度可調(diào)，圖像以固定的幀速率播放，不受語音快慢的影響。當(dāng)語音速度加快時，每個音節(jié)的圖像幀數(shù)將減少；反之，當(dāng)語音速度放慢時每個音節(jié)的圖像幀數(shù)將增加。圖像的幀速率可根據(jù)系統(tǒng)性能來調(diào)節(jié)，使系統(tǒng)在各種性能的機(jī)器上均能保持語音與圖像的同步。

　

　

圖4 人臉網(wǎng)格模式

　　除了能夠生成各種各樣的說話口形外，VSonic還能表現(xiàn)出眨眼等簡單的面部動作，以增強(qiáng)系統(tǒng)的自然性。系統(tǒng)的另一特點是其可移植性非常好，可以使人臉模型從一張人臉更換到另一張人臉。只要有一張正面人臉照片，借助系統(tǒng)提供的工具，經(jīng)過簡單的鼠標(biāo)操作即可在數(shù)分鐘內(nèi)實現(xiàn)系統(tǒng)中人臉模型的更換。

TTVS的應(yīng)用和展望

　　文本-可視語音轉(zhuǎn)換系統(tǒng)不僅提高了人機(jī)交互界面的友善性，豐富了人們的生活，還在許多領(lǐng)域中有著重要的實際意義。下面我們介紹幾種TTVS在實際生活中的應(yīng)用。

（1）制作虛擬電視節(jié)目主持人

　　這是TTVS一個很好的應(yīng)用實例。虛擬電視節(jié)目主持人在許多國家已經(jīng)走上了屏幕，引起了廣大觀眾的極大興趣。圖5是英國報業(yè)聯(lián)合通訊社推出的第一個虛擬新聞播報員“阿娜諾娃”(Ananova)。

（2）增強(qiáng)語音的可懂性

　　實驗表明，在噪聲環(huán)境下，能看到說話者的人臉相當(dāng)于提高了8～12dB的語音信噪比。因此，在環(huán)境噪聲較大的情況下，如在工廠車間、高速運(yùn)行的交通工具上或戰(zhàn)爭前線進(jìn)行人機(jī)交互時，如果在機(jī)器給出語音的同時能給出一個合成的人臉，則能大大改善人們對語音的理解。另外，在聽話者有聽力障礙的情況下，也有類似的效果。

　

圖5 Ananova

（3）網(wǎng)上聊天

　　現(xiàn)在網(wǎng)上聊天主要是通過窗口中的文本進(jìn)行交流，如果人們在網(wǎng)上聊天也可以像實際生活中聊天一樣，既可以聽到聲音，又可以看到說話者的人臉，將會大大增強(qiáng)使用者的興趣并方便交流。但現(xiàn)在網(wǎng)絡(luò)帶寬不能滿足實時傳輸聲音和圖像數(shù)據(jù)的需求，如果在用戶的計算機(jī)上安裝了TTVS系統(tǒng)，則可以在網(wǎng)上只傳送文本信息，而在本地由TTVS合成語音和圖像，使用戶既聽到聲音又看到說話者的人臉。若在文本中再加入少量的標(biāo)注信息，還可以使人臉表現(xiàn)出各種各樣的表情。再進(jìn)一步，如果在用戶的計算機(jī)上安裝上話筒和相應(yīng)的語音識別軟件，則用戶可以脫離鍵盤，就像日常生活中一樣，與對方面對面地聊天。

　　另外，在越來越廣泛的商業(yè)、娛樂人機(jī)交互的過程中，如新產(chǎn)品介紹、電子游戲等，如果人們面對的不是單純的文本或聲音，而是一個會說話的人物形象，則使人覺得更為親切，更容易接受，從而提高商業(yè)銷售額，給企業(yè)帶來巨大的經(jīng)濟(jì)利益。

　　總之，TTVS技術(shù)的出現(xiàn)是多媒體技術(shù)迅速發(fā)展的產(chǎn)物，也迎合了社會發(fā)展的需求。它給人們的生活增添了新的色彩，使計算機(jī)更人性化，人們與計算機(jī)的交流變得更為簡單。相信在不久的將來，它將會在眾多的技術(shù)、商業(yè)和娛樂領(lǐng)域得到廣泛的應(yīng)用，并逐步進(jìn)入我們每個人的生活。

《計算機(jī)世界》 2001/06/04

相關(guān)鏈接:

統(tǒng)一消息平臺中的語音技術(shù) 2001-06-04

數(shù)據(jù)挖掘走入語音處理 2001-06-04

神經(jīng)網(wǎng)絡(luò)與漢語TTS韻律模型 2001-06-01

語音技術(shù)的拓展與展望 2001-06-01

語音門戶:讓網(wǎng)絡(luò)接入更便捷 2001-05-11

自贡市| 霍山县| 兴业县| 云和县| 于都县| 五峰| 广昌县| 禄劝| 开鲁县| 荥阳市| 泰宁县| 平乡县| 游戏| 通海县| 台北县| 冕宁县| 讷河市| 启东市| 文水县| 类乌齐县| 辽阳县| 垦利县| 越西县| 日土县| 辽源市| 峨山| 鹤峰县| 鄂尔多斯市| 宁明县| 曲周县| 滕州市| 甘肃省| 右玉县| 大足县| 美姑县| 克山县| 通城县| 南涧| 西乡县| 卢湾区| 高青县|