首頁>>>技術(shù)>>>語音應(yīng)用>>>語音合成(TTS)  語音合成產(chǎn)品

 

數(shù)據(jù)挖掘走入語音處理

王瑋 蔡蓮紅 2001/06/04

數(shù)據(jù)挖掘技術(shù)

  數(shù)據(jù)挖掘(data mining)技術(shù)是對(duì)數(shù)據(jù)庫采取半自動(dòng)的方式,尋找特定的模式、關(guān)聯(lián)規(guī)則、變化規(guī)律、異常信息等具有統(tǒng)計(jì)意義的結(jié)構(gòu)和事件。自20世紀(jì)90年代以來,數(shù)據(jù)挖掘就成為最具活力的研究領(lǐng)域之一,吸引了眾多研究者從事這方面的研究。

1.?dāng)?shù)據(jù)挖掘方法的特點(diǎn)

  數(shù)據(jù)挖掘方法與統(tǒng)計(jì)方法的不同之處主要體現(xiàn)在:通常的統(tǒng)計(jì)方法是在已有的假設(shè)基礎(chǔ)上,從大量的數(shù)據(jù)中得到驗(yàn)證,而數(shù)據(jù)挖掘則是從大量的數(shù)據(jù)中得到嶄新的模式、結(jié)論和假設(shè);數(shù)據(jù)挖掘方法是純粹的給予數(shù)據(jù)驅(qū)動(dòng)的方式,而統(tǒng)計(jì)方法則更多地引入人為因素并加以分析。探索式數(shù)據(jù)分析是統(tǒng)計(jì)方法中與數(shù)據(jù)挖掘最相似的分支,但它所面向的數(shù)據(jù)集還是比數(shù)據(jù)挖掘?qū)ο笮〉枚唷?/font>

2.?dāng)?shù)據(jù)挖掘的過程

  數(shù)據(jù)挖掘過程可粗略地分為:?jiǎn)栴}定義(task definition)、數(shù)據(jù)準(zhǔn)備和預(yù)處理(data preparation and preprocessing)、數(shù)據(jù)挖掘(data mining)以及結(jié)果的解釋和評(píng)估(interpretation and evaluation)等階段。

  問題定義 在該過程中,數(shù)據(jù)挖掘人員必須與領(lǐng)域?qū)<壹白罱K用戶緊密協(xié)作,一方面明確實(shí)際工作對(duì)數(shù)據(jù)挖掘的要求,另一方面通過對(duì)各種學(xué)習(xí)算法的對(duì)比進(jìn)而確定可用的學(xué)習(xí)算法。后續(xù)的學(xué)習(xí)算法選擇和數(shù)據(jù)集準(zhǔn)備都是在此基礎(chǔ)上進(jìn)行的。

  數(shù)據(jù)挖掘 該階段首先根據(jù)對(duì)問題的定義明確挖掘的任務(wù)或目的,如分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等。之后要決定使用什么樣的算法。選擇實(shí)現(xiàn)算法要考慮兩個(gè)因素:一是不同的數(shù)據(jù)有不同的特點(diǎn),因此,需要用與之相關(guān)的算法來挖掘;二是要根據(jù)用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求,有的用戶可能希望獲取描述型的(descriptive)、容易理解的知識(shí)(采用規(guī)則表示的挖掘方法顯然要好于神經(jīng)網(wǎng)絡(luò)之類的方法),而有的用戶只是希望獲取預(yù)測(cè)準(zhǔn)確度盡可能高的預(yù)測(cè)型(predictive)知識(shí),并不在意獲取的知識(shí)是否易于理解。

  結(jié)果解釋和評(píng)估 數(shù)據(jù)挖掘階段發(fā)現(xiàn)的模式,經(jīng)過評(píng)估,可能存在冗余或無關(guān)的模式,這時(shí)需要將其剔除;模式也有可能不滿足用戶要求,這時(shí)則需要整個(gè)發(fā)現(xiàn)過程回退到前續(xù)階段,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,甚至換一種算法等。

3.挖掘結(jié)果質(zhì)量評(píng)價(jià)

  數(shù)據(jù)挖掘結(jié)果質(zhì)量的好壞有兩個(gè)影響因素:一是所采用的數(shù)據(jù)挖掘技術(shù)的有效性,二是用于挖掘的數(shù)據(jù)的質(zhì)量和數(shù)據(jù)量。如果選擇了錯(cuò)誤的數(shù)據(jù)或不適當(dāng)?shù)膶傩,或(qū)?shù)據(jù)進(jìn)行了不適當(dāng)?shù)霓D(zhuǎn)換,則挖掘結(jié)果不會(huì)好。整個(gè)挖掘過程是一個(gè)不斷反饋的過程。

4.主要模型

(1) 關(guān)聯(lián)規(guī)則模型

  發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)之間的相互關(guān)系是十分重要的,根據(jù)這種關(guān)系可以使用戶從數(shù)據(jù)中找到有意義的模式和趨勢(shì)。以超級(jí)市場(chǎng)為例,每個(gè)記錄包含了一次采購商品的列表,其中關(guān)聯(lián)關(guān)系告訴我們兩件或更多商品之間的關(guān)系。如80%的顧客購買了面包和牛奶,其中有60%的顧客在買面包的同時(shí)買了牛奶。我們把這種面包和牛奶之間的關(guān)聯(lián)關(guān)系用下列規(guī)則方式表示為:面包→ 牛奶 |60%,80%)。數(shù)據(jù)項(xiàng)的關(guān)聯(lián)關(guān)系也可以在多個(gè)項(xiàng)之間產(chǎn)生,例如:面包、牛奶 甜醬 | 60%,40%)等。目前采用的典型關(guān)聯(lián)算法有Aprioir算法和PHP散列表算法等。

(2) 神經(jīng)網(wǎng)絡(luò)模型

  神經(jīng)網(wǎng)絡(luò)方法是模擬人腦神經(jīng)元結(jié)構(gòu),以MP模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ)而建立的,主要有三大類多種神經(jīng)網(wǎng)絡(luò)模型。

  前饋式網(wǎng)絡(luò) 以感知機(jī)、反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表,可用于預(yù)測(cè)、模式識(shí)別等方面。

  反饋式網(wǎng)絡(luò) Hopfield的離散模型和連續(xù)模型為代表,分別用于聯(lián)想記憶和優(yōu)化計(jì)算。

  自組織網(wǎng)絡(luò) ART模型、Kohonen模型為代表,用于聚類。

  神經(jīng)網(wǎng)絡(luò)的知識(shí)體現(xiàn)在網(wǎng)絡(luò)連接的權(quán)值上,是一個(gè)分布式矩陣結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計(jì)算上(包括反復(fù)迭代或累加計(jì)算)。

(3) 粗糙集理論模型

  粗糙集理論是一種研究不精確、不確定性知識(shí)的數(shù)學(xué)工具,由波蘭科學(xué)家Z.Pawlak1982年首先提出。粗糙集的研究主要基于分類。分類和概念(concept)同義,一種類別對(duì)應(yīng)于一個(gè)概念(類別一般表示為外延即集合,而概念常以內(nèi)涵的形式表示如規(guī)則描述)。知識(shí)由概念組成,如果某知識(shí)中含有不精確概念,則該知識(shí)不精確。粗糙集對(duì)不精確概念的描述方法是:通過上近似概念和下近似概念這兩個(gè)精確概念來表示。一個(gè)概念(或集合)的下近似(lower approximation)概念(或集合)指的是,其下近似中的元素肯定屬于該概念;一個(gè)概念(或集合)的上近似(upper approximation)概念(或集合)指的是,其上近似中的元素可能屬于該概念。粗糙集方法有幾個(gè)優(yōu)點(diǎn):不需要預(yù)先知道額外信息,如統(tǒng)計(jì)中要求的先驗(yàn)概率和模糊集中要求的隸屬度;算法簡(jiǎn)單、易于操作。

在語音信號(hào)處理中的應(yīng)用

  目前,數(shù)據(jù)挖掘研究主要集中在對(duì)新的算法及新的類型的研究上。由于對(duì)數(shù)據(jù)挖掘方法的研究不僅涉及數(shù)據(jù)挖掘的算法,同時(shí)對(duì)于需要處理的數(shù)據(jù)類型也有很高的要求,傳統(tǒng)的數(shù)據(jù)挖掘的對(duì)象主要是超級(jí)市場(chǎng)中貨籃型數(shù)據(jù)及經(jīng)濟(jì)型數(shù)據(jù),幾乎很少涉及語音數(shù)據(jù)的挖掘研究。這一方面是由于語音數(shù)據(jù)非常復(fù)雜,包含很多信息,如基頻信息、時(shí)長信息、幅度信息、位置信息以及重音信息等,簡(jiǎn)單來說就是同一個(gè)音節(jié)在不同的語句中會(huì)表現(xiàn)出不同的信息特征,即不同的語境會(huì)使音節(jié)自身的屬性值發(fā)生變化,且語音數(shù)據(jù)是一種時(shí)序數(shù)據(jù),在一句話中音節(jié)的排列是有先后順序的,同時(shí)語音音節(jié)之間也存在著很強(qiáng)的音聯(lián)關(guān)系。所有這些信息特征對(duì)整個(gè)合成系統(tǒng)輸出的可懂度以及自然度會(huì)產(chǎn)生很大影響。

  另一方面,語音數(shù)據(jù)挖掘的研究需要研究者在語音合成工作積累的基礎(chǔ)上才能有效地進(jìn)行。由于數(shù)據(jù)挖掘技術(shù)對(duì)處理對(duì)象的要求很高,因此,直接錄制音節(jié)的波形文件是無法處理的,必須經(jīng)過嚴(yán)格的預(yù)處理過程,如對(duì)錄音波形進(jìn)行音節(jié)切分和音節(jié)標(biāo)注,這需要大量的人力和物力資源。沒有強(qiáng)大的語音處理能力的積累是不可能的。清華大學(xué)語音處理實(shí)驗(yàn)室長期從事語音信號(hào)的研究,具有豐富的語音數(shù)據(jù)源,即我們通常所說的“熟語料”,這使基于數(shù)據(jù)驅(qū)動(dòng)的挖掘研究成為可能。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于語音信號(hào)處理可以解決部分現(xiàn)階段較難解決的語音技術(shù)難題,同時(shí)盡可能減少人為經(jīng)驗(yàn)因素對(duì)語音處理的影響,完成對(duì)語音處理從定性到定量的轉(zhuǎn)變。因此,將數(shù)據(jù)挖掘方法應(yīng)用于語音合成具有重要的意義和廣闊的前景。

1.關(guān)聯(lián)規(guī)則模型獲得漢語韻律參數(shù)之間的關(guān)聯(lián)關(guān)系

  語音合成經(jīng)歷了長期的研究發(fā)展過程,完成了從實(shí)驗(yàn)室向市場(chǎng)應(yīng)用的過渡,但是,合成系統(tǒng)輸出的語音機(jī)器味仍然比較濃,與人類自然流暢的發(fā)音相比還有較大的差距。這其中主要是受到系統(tǒng)中韻律模塊研究的制約,由于韻律模塊無法對(duì)復(fù)雜的韻律特征進(jìn)行有效描述,因此,合成系統(tǒng)的輸出就受到了很大的影響。

  韻律特征主要是指音節(jié)的時(shí)長、基頻的包絡(luò)變化、能量的變化及適當(dāng)?shù)耐nD等眾多參數(shù)屬性,在這些屬性中,對(duì)合成系統(tǒng)的自然度影響最顯著的是音節(jié)的基頻變化和音長的變化。目前,合成系統(tǒng)中的基頻變化規(guī)律大多是根據(jù)語言學(xué)的研究得出的一些定性的描述,這些定性規(guī)則能夠?yàn)楹铣蛇^程提供一些參考,但是無法在合成過程中直接使用這些規(guī)則,而且這些規(guī)則也很難覆蓋所有的基頻變化現(xiàn)象,同時(shí)對(duì)這些規(guī)則的維護(hù)和完善也很困難,在具體應(yīng)用中仍存在較大的不足。由于韻律規(guī)則在語音合成中發(fā)揮著重要作用,迫切需要采用新的處理方法加以解決。

  數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)規(guī)則模型可以很好地發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間存在的相互關(guān)系,同時(shí)有大量的挖掘算法可供選擇,因此,基于關(guān)聯(lián)規(guī)則的模型可以從大規(guī)模語音庫中提取更為全面和準(zhǔn)確的語音韻律相互關(guān)系。首先通過對(duì)“熟語料”庫中基頻數(shù)據(jù)和時(shí)長數(shù)據(jù)進(jìn)行預(yù)處理,離散化成相應(yīng)的屬性值,獲得前后音節(jié)的基頻信息和時(shí)長信息之間的關(guān)聯(lián)關(guān)系,從而加以指導(dǎo)合成系統(tǒng)的選音,滿足在不同語境下音節(jié)參數(shù)變化的需求。

2.?dāng)?shù)據(jù)挖掘技術(shù)獲得漢語韻律的變化規(guī)律

  在傳統(tǒng)的語音研究中,往往是用手工得到語音的基頻,求出其調(diào)值,然后根據(jù)不同情況下調(diào)值的變化得到連續(xù)變調(diào)規(guī)律,再將其應(yīng)用于語音合成系統(tǒng)中進(jìn)行韻律控制。這是在定性基礎(chǔ)上進(jìn)行的研究,存在很多不足之處。一方面,由于語音數(shù)據(jù)的變化隨機(jī)性很大,對(duì)少量的語音數(shù)據(jù)進(jìn)行處理不能得到較為全面的變調(diào)規(guī)律,而大量語音數(shù)據(jù)如果完全用人工來處理,工作量會(huì)很大;另一方面,用人工進(jìn)行語音數(shù)據(jù)處理,往往會(huì)由于一些先入為主的概念而很難得到較為完全的規(guī)律。

  基于語音合成中的基音同步疊加技術(shù),可利用數(shù)據(jù)挖掘技術(shù)進(jìn)行韻律變化規(guī)律的學(xué)習(xí),采用數(shù)據(jù)挖掘技術(shù)中的神經(jīng)網(wǎng)絡(luò)方法、數(shù)據(jù)項(xiàng)聚類以及粗糙集理論的有機(jī)結(jié)合進(jìn)行綜合評(píng)判,利用神經(jīng)網(wǎng)絡(luò)具有的自組織和自學(xué)習(xí)特性,將經(jīng)過聚類處理的語音基頻數(shù)據(jù)和時(shí)長數(shù)據(jù)分別轉(zhuǎn)化成神經(jīng)網(wǎng)絡(luò)的輸入和輸出節(jié)點(diǎn),經(jīng)過網(wǎng)絡(luò)學(xué)習(xí)來獲得一些典型的基頻曲線和時(shí)長映射關(guān)系。由于神經(jīng)網(wǎng)絡(luò)自身理論還存在不夠完善的地方,因此,可以輔助以粗糙集理論進(jìn)行適當(dāng)?shù)男拚垣@得期望的模式。在這些映射的基礎(chǔ)上,可通過簡(jiǎn)單的變換獲得典型模式,利用這些典型模式,就可在定量的基礎(chǔ)上,對(duì)基頻的變化規(guī)律從較高層次進(jìn)行韻律規(guī)則的研究。

3.基于數(shù)據(jù)驅(qū)動(dòng)方式的重音確定

  在連續(xù)語流中,各音節(jié)的響亮程度并不完全相同,有的音節(jié)聽起來比其他音節(jié)重,簡(jiǎn)單地說,這就是重音。以詞為考查對(duì)象,音位學(xué)可劃分為正常重音、對(duì)比重音和弱重音。人們?cè)诳谡Z交流中,常把在表情傳意方面較重要的詞讀得重些,把其余的詞讀得輕些。語句重音是指由于句子語法結(jié)構(gòu)、邏輯語義或心理情感表達(dá)的需要而產(chǎn)生的句子中的重讀音,它不同于詞重音,因?yàn)樵~重音只出現(xiàn)在詞結(jié)構(gòu)中。語句重音一般分為三種:語音重音、邏輯重音、心理重音。

  通常研究者認(rèn)為,重音的聲學(xué)征兆主要表現(xiàn)在時(shí)長、音高與音強(qiáng)三個(gè)方面,也往往是三者的結(jié)合。不同語言的重音特點(diǎn)不一樣,對(duì)于漢語,老一輩語音學(xué)家趙元任先生認(rèn)為,“漢語重音首先是延長持續(xù)時(shí)間和擴(kuò)大調(diào)域,其次才是增加強(qiáng)度!爆F(xiàn)代語音學(xué)家也認(rèn)為,漢語重音主要表現(xiàn)在時(shí)長的增加(或者說是基音周期數(shù)的增加);其次是調(diào)域的擴(kuò)大和音高的提升,調(diào)型完整地展開;與發(fā)音強(qiáng)度的關(guān)系并不是主要的。

  以上都是定性的分析,從定性到定量的轉(zhuǎn)換是采用基于數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行,從大量語料數(shù)據(jù)本身的特點(diǎn)來分析重音,并且依據(jù)重音的特點(diǎn)輔助以韻律學(xué)規(guī)律,合成更自然的語音信號(hào)。

  數(shù)據(jù)挖掘是一種在大量數(shù)據(jù)庫中發(fā)現(xiàn)隱藏新知識(shí)的計(jì)算技術(shù)方法。數(shù)據(jù)挖掘提取的是定性的模型,并且很容易被轉(zhuǎn)化為邏輯規(guī)則或用可視化的形式表達(dá)。因此,將數(shù)據(jù)挖掘與人機(jī)交互接口緊密聯(lián)系在一起將對(duì)計(jì)算機(jī)語音信號(hào)處理的研究工作產(chǎn)生巨大的推動(dòng)力,為語音信號(hào)處理提供了一條嶄新的研究途徑?梢灶A(yù)見,采用數(shù)據(jù)挖掘方法可以較好地解決目前語音信號(hào)處理中部分難點(diǎn)問題,從而進(jìn)一步提高語音合成和語音識(shí)別技術(shù)的實(shí)用化程度。

《計(jì)算機(jī)世界》 2001/06/04



相關(guān)鏈接:
統(tǒng)一消息平臺(tái)中的語音技術(shù) 2001-06-04
文本-可視語音轉(zhuǎn)換及其應(yīng)用 2001-06-04
神經(jīng)網(wǎng)絡(luò)與漢語TTS韻律模型 2001-06-01
語音技術(shù)的拓展與展望 2001-06-01
語音門戶:讓網(wǎng)絡(luò)接入更便捷 2001-05-11
保山市| 昌都县| 铁岭市| 麦盖提县| 交城县| 乌鲁木齐市| 苍梧县| 洛浦县| 荔波县| 临泉县| 金沙县| 莆田市| 淮安市| 会泽县| 鹤峰县| 庆云县| 锦屏县| 宝应县| 平利县| 永胜县| 富民县| 抚顺市| 崇左市| 梅河口市| 田东县| 辛集市| 东台市| 新和县| 三台县| 枝江市| 罗山县| 那坡县| 金华市| 五大连池市| 无极县| 桃园县| 杭锦后旗| 红原县| 镇康县| 姚安县| 松潘县|