數(shù)據(jù)挖掘走入語(yǔ)音處理_語(yǔ)音合成_語(yǔ)音識(shí)別

首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音合成(TTS)　　語(yǔ)音合成產(chǎn)品

數(shù)據(jù)挖掘走入語(yǔ)音處理

王瑋蔡蓮紅 2001/06/04

數(shù)據(jù)挖掘技術(shù)

　　數(shù)據(jù)挖掘（data mining）技術(shù)是對(duì)數(shù)據(jù)庫(kù)采取半自動(dòng)的方式，尋找特定的模式、關(guān)聯(lián)規(guī)則、變化規(guī)律、異常信息等具有統(tǒng)計(jì)意義的結(jié)構(gòu)和事件。自20世紀(jì)90年代以來(lái)，數(shù)據(jù)挖掘就成為最具活力的研究領(lǐng)域之一，吸引了眾多研究者從事這方面的研究。

1．?dāng)?shù)據(jù)挖掘方法的特點(diǎn)

　　數(shù)據(jù)挖掘方法與統(tǒng)計(jì)方法的不同之處主要體現(xiàn)在:通常的統(tǒng)計(jì)方法是在已有的假設(shè)基礎(chǔ)上，從大量的數(shù)據(jù)中得到驗(yàn)證，而數(shù)據(jù)挖掘則是從大量的數(shù)據(jù)中得到嶄新的模式、結(jié)論和假設(shè);數(shù)據(jù)挖掘方法是純粹的給予數(shù)據(jù)驅(qū)動(dòng)的方式，而統(tǒng)計(jì)方法則更多地引入人為因素并加以分析。探索式數(shù)據(jù)分析是統(tǒng)計(jì)方法中與數(shù)據(jù)挖掘最相似的分支，但它所面向的數(shù)據(jù)集還是比數(shù)據(jù)挖掘?qū)ο笮〉枚唷?/font>

2．?dāng)?shù)據(jù)挖掘的過(guò)程

　　數(shù)據(jù)挖掘過(guò)程可粗略地分為：?jiǎn)栴}定義（task definition）、數(shù)據(jù)準(zhǔn)備和預(yù)處理（data preparation and preprocessing）、數(shù)據(jù)挖掘（data mining）以及結(jié)果的解釋和評(píng)估（interpretation and evaluation）等階段。

　　問(wèn)題定義在該過(guò)程中，數(shù)據(jù)挖掘人員必須與領(lǐng)域?qū)＜壹白罱K用戶緊密協(xié)作，一方面明確實(shí)際工作對(duì)數(shù)據(jù)挖掘的要求，另一方面通過(guò)對(duì)各種學(xué)習(xí)算法的對(duì)比進(jìn)而確定可用的學(xué)習(xí)算法。后續(xù)的學(xué)習(xí)算法選擇和數(shù)據(jù)集準(zhǔn)備都是在此基礎(chǔ)上進(jìn)行的。

　　數(shù)據(jù)挖掘該階段首先根據(jù)對(duì)問(wèn)題的定義明確挖掘的任務(wù)或目的，如分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等。之后要決定使用什么樣的算法。選擇實(shí)現(xiàn)算法要考慮兩個(gè)因素：一是不同的數(shù)據(jù)有不同的特點(diǎn)，因此，需要用與之相關(guān)的算法來(lái)挖掘;二是要根據(jù)用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求，有的用戶可能希望獲取描述型的（descriptive）、容易理解的知識(shí)（采用規(guī)則表示的挖掘方法顯然要好于神經(jīng)網(wǎng)絡(luò)之類的方法），而有的用戶只是希望獲取預(yù)測(cè)準(zhǔn)確度盡可能高的預(yù)測(cè)型（predictive）知識(shí)，并不在意獲取的知識(shí)是否易于理解。

　　結(jié)果解釋和評(píng)估數(shù)據(jù)挖掘階段發(fā)現(xiàn)的模式，經(jīng)過(guò)評(píng)估，可能存在冗余或無(wú)關(guān)的模式，這時(shí)需要將其剔除;模式也有可能不滿足用戶要求，這時(shí)則需要整個(gè)發(fā)現(xiàn)過(guò)程回退到前續(xù)階段，如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值，甚至換一種算法等。

3．挖掘結(jié)果質(zhì)量評(píng)價(jià)

　　數(shù)據(jù)挖掘結(jié)果質(zhì)量的好壞有兩個(gè)影響因素：一是所采用的數(shù)據(jù)挖掘技術(shù)的有效性，二是用于挖掘的數(shù)據(jù)的質(zhì)量和數(shù)據(jù)量。如果選擇了錯(cuò)誤的數(shù)據(jù)或不適當(dāng)?shù)膶傩裕驅(qū)?shù)據(jù)進(jìn)行了不適當(dāng)?shù)霓D(zhuǎn)換，則挖掘結(jié)果不會(huì)好。整個(gè)挖掘過(guò)程是一個(gè)不斷反饋的過(guò)程。

4．主要模型

(1) 關(guān)聯(lián)規(guī)則模型

　　發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間的相互關(guān)系是十分重要的，根據(jù)這種關(guān)系可以使用戶從數(shù)據(jù)中找到有意義的模式和趨勢(shì)。以超級(jí)市場(chǎng)為例，每個(gè)記錄包含了一次采購(gòu)商品的列表，其中關(guān)聯(lián)關(guān)系告訴我們兩件或更多商品之間的關(guān)系。如80%的顧客購(gòu)買了面包和牛奶，其中有60%的顧客在買面包的同時(shí)買了牛奶。我們把這種面包和牛奶之間的關(guān)聯(lián)關(guān)系用下列規(guī)則方式表示為:面包→ 牛奶 |（60%，80%）。數(shù)據(jù)項(xiàng)的關(guān)聯(lián)關(guān)系也可以在多個(gè)項(xiàng)之間產(chǎn)生，例如：面包、牛奶 → 甜醬 | （60%，40%）等。目前采用的典型關(guān)聯(lián)算法有Aprioir算法和PHP散列表算法等。

(2) 神經(jīng)網(wǎng)絡(luò)模型

　　神經(jīng)網(wǎng)絡(luò)方法是模擬人腦神經(jīng)元結(jié)構(gòu)，以MP模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ)而建立的，主要有三大類多種神經(jīng)網(wǎng)絡(luò)模型。

　　前饋式網(wǎng)絡(luò) 以感知機(jī)、反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表，可用于預(yù)測(cè)、模式識(shí)別等方面。

　　反饋式網(wǎng)絡(luò) 以Hopfield的離散模型和連續(xù)模型為代表，分別用于聯(lián)想記憶和優(yōu)化計(jì)算。

　　自組織網(wǎng)絡(luò) 以ART模型、Kohonen模型為代表，用于聚類。

　　神經(jīng)網(wǎng)絡(luò)的知識(shí)體現(xiàn)在網(wǎng)絡(luò)連接的權(quán)值上，是一個(gè)分布式矩陣結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計(jì)算上（包括反復(fù)迭代或累加計(jì)算）。

(3) 粗糙集理論模型

　　粗糙集理論是一種研究不精確、不確定性知識(shí)的數(shù)學(xué)工具，由波蘭科學(xué)家Z.Pawlak于1982年首先提出。粗糙集的研究主要基于分類。分類和概念（concept）同義，一種類別對(duì)應(yīng)于一個(gè)概念（類別一般表示為外延即集合，而概念常以內(nèi)涵的形式表示如規(guī)則描述）。知識(shí)由概念組成，如果某知識(shí)中含有不精確概念，則該知識(shí)不精確。粗糙集對(duì)不精確概念的描述方法是:通過(guò)上近似概念和下近似概念這兩個(gè)精確概念來(lái)表示。一個(gè)概念（或集合）的下近似（lower approximation）概念（或集合）指的是，其下近似中的元素肯定屬于該概念；一個(gè)概念（或集合）的上近似（upper approximation）概念（或集合）指的是，其上近似中的元素可能屬于該概念。粗糙集方法有幾個(gè)優(yōu)點(diǎn):不需要預(yù)先知道額外信息，如統(tǒng)計(jì)中要求的先驗(yàn)概率和模糊集中要求的隸屬度;算法簡(jiǎn)單、易于操作。

在語(yǔ)音信號(hào)處理中的應(yīng)用

　　目前，數(shù)據(jù)挖掘研究主要集中在對(duì)新的算法及新的類型的研究上。由于對(duì)數(shù)據(jù)挖掘方法的研究不僅涉及數(shù)據(jù)挖掘的算法，同時(shí)對(duì)于需要處理的數(shù)據(jù)類型也有很高的要求，傳統(tǒng)的數(shù)據(jù)挖掘的對(duì)象主要是超級(jí)市場(chǎng)中貨籃型數(shù)據(jù)及經(jīng)濟(jì)型數(shù)據(jù)，幾乎很少涉及語(yǔ)音數(shù)據(jù)的挖掘研究。這一方面是由于語(yǔ)音數(shù)據(jù)非常復(fù)雜，包含很多信息，如基頻信息、時(shí)長(zhǎng)信息、幅度信息、位置信息以及重音信息等，簡(jiǎn)單來(lái)說(shuō)就是同一個(gè)音節(jié)在不同的語(yǔ)句中會(huì)表現(xiàn)出不同的信息特征，即不同的語(yǔ)境會(huì)使音節(jié)自身的屬性值發(fā)生變化，且語(yǔ)音數(shù)據(jù)是一種時(shí)序數(shù)據(jù)，在一句話中音節(jié)的排列是有先后順序的，同時(shí)語(yǔ)音音節(jié)之間也存在著很強(qiáng)的音聯(lián)關(guān)系。所有這些信息特征對(duì)整個(gè)合成系統(tǒng)輸出的可懂度以及自然度會(huì)產(chǎn)生很大影響。

　　另一方面，語(yǔ)音數(shù)據(jù)挖掘的研究需要研究者在語(yǔ)音合成工作積累的基礎(chǔ)上才能有效地進(jìn)行。由于數(shù)據(jù)挖掘技術(shù)對(duì)處理對(duì)象的要求很高，因此，直接錄制音節(jié)的波形文件是無(wú)法處理的，必須經(jīng)過(guò)嚴(yán)格的預(yù)處理過(guò)程，如對(duì)錄音波形進(jìn)行音節(jié)切分和音節(jié)標(biāo)注，這需要大量的人力和物力資源。沒(méi)有強(qiáng)大的語(yǔ)音處理能力的積累是不可能的。清華大學(xué)語(yǔ)音處理實(shí)驗(yàn)室長(zhǎng)期從事語(yǔ)音信號(hào)的研究，具有豐富的語(yǔ)音數(shù)據(jù)源，即我們通常所說(shuō)的“熟語(yǔ)料”，這使基于數(shù)據(jù)驅(qū)動(dòng)的挖掘研究成為可能。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于語(yǔ)音信號(hào)處理可以解決部分現(xiàn)階段較難解決的語(yǔ)音技術(shù)難題，同時(shí)盡可能減少人為經(jīng)驗(yàn)因素對(duì)語(yǔ)音處理的影響，完成對(duì)語(yǔ)音處理從定性到定量的轉(zhuǎn)變。因此，將數(shù)據(jù)挖掘方法應(yīng)用于語(yǔ)音合成具有重要的意義和廣闊的前景。

1．關(guān)聯(lián)規(guī)則模型獲得漢語(yǔ)韻律參數(shù)之間的關(guān)聯(lián)關(guān)系

　　語(yǔ)音合成經(jīng)歷了長(zhǎng)期的研究發(fā)展過(guò)程，完成了從實(shí)驗(yàn)室向市場(chǎng)應(yīng)用的過(guò)渡，但是，合成系統(tǒng)輸出的語(yǔ)音機(jī)器味仍然比較濃，與人類自然流暢的發(fā)音相比還有較大的差距。這其中主要是受到系統(tǒng)中韻律模塊研究的制約，由于韻律模塊無(wú)法對(duì)復(fù)雜的韻律特征進(jìn)行有效描述，因此，合成系統(tǒng)的輸出就受到了很大的影響。

　　韻律特征主要是指音節(jié)的時(shí)長(zhǎng)、基頻的包絡(luò)變化、能量的變化及適當(dāng)?shù)耐ｎD等眾多參數(shù)屬性，在這些屬性中，對(duì)合成系統(tǒng)的自然度影響最顯著的是音節(jié)的基頻變化和音長(zhǎng)的變化。目前，合成系統(tǒng)中的基頻變化規(guī)律大多是根據(jù)語(yǔ)言學(xué)的研究得出的一些定性的描述，這些定性規(guī)則能夠?yàn)楹铣蛇^(guò)程提供一些參考，但是無(wú)法在合成過(guò)程中直接使用這些規(guī)則，而且這些規(guī)則也很難覆蓋所有的基頻變化現(xiàn)象，同時(shí)對(duì)這些規(guī)則的維護(hù)和完善也很困難，在具體應(yīng)用中仍存在較大的不足。由于韻律規(guī)則在語(yǔ)音合成中發(fā)揮著重要作用，迫切需要采用新的處理方法加以解決。

　　數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)規(guī)則模型可以很好地發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間存在的相互關(guān)系，同時(shí)有大量的挖掘算法可供選擇，因此，基于關(guān)聯(lián)規(guī)則的模型可以從大規(guī)模語(yǔ)音庫(kù)中提取更為全面和準(zhǔn)確的語(yǔ)音韻律相互關(guān)系。首先通過(guò)對(duì)“熟語(yǔ)料”庫(kù)中基頻數(shù)據(jù)和時(shí)長(zhǎng)數(shù)據(jù)進(jìn)行預(yù)處理，離散化成相應(yīng)的屬性值，獲得前后音節(jié)的基頻信息和時(shí)長(zhǎng)信息之間的關(guān)聯(lián)關(guān)系，從而加以指導(dǎo)合成系統(tǒng)的選音，滿足在不同語(yǔ)境下音節(jié)參數(shù)變化的需求。

2．?dāng)?shù)據(jù)挖掘技術(shù)獲得漢語(yǔ)韻律的變化規(guī)律

　　在傳統(tǒng)的語(yǔ)音研究中，往往是用手工得到語(yǔ)音的基頻，求出其調(diào)值，然后根據(jù)不同情況下調(diào)值的變化得到連續(xù)變調(diào)規(guī)律，再將其應(yīng)用于語(yǔ)音合成系統(tǒng)中進(jìn)行韻律控制。這是在定性基礎(chǔ)上進(jìn)行的研究，存在很多不足之處。一方面，由于語(yǔ)音數(shù)據(jù)的變化隨機(jī)性很大，對(duì)少量的語(yǔ)音數(shù)據(jù)進(jìn)行處理不能得到較為全面的變調(diào)規(guī)律，而大量語(yǔ)音數(shù)據(jù)如果完全用人工來(lái)處理，工作量會(huì)很大;另一方面，用人工進(jìn)行語(yǔ)音數(shù)據(jù)處理，往往會(huì)由于一些先入為主的概念而很難得到較為完全的規(guī)律。

　　基于語(yǔ)音合成中的基音同步疊加技術(shù)，可利用數(shù)據(jù)挖掘技術(shù)進(jìn)行韻律變化規(guī)律的學(xué)習(xí)，采用數(shù)據(jù)挖掘技術(shù)中的神經(jīng)網(wǎng)絡(luò)方法、數(shù)據(jù)項(xiàng)聚類以及粗糙集理論的有機(jī)結(jié)合進(jìn)行綜合評(píng)判，利用神經(jīng)網(wǎng)絡(luò)具有的自組織和自學(xué)習(xí)特性，將經(jīng)過(guò)聚類處理的語(yǔ)音基頻數(shù)據(jù)和時(shí)長(zhǎng)數(shù)據(jù)分別轉(zhuǎn)化成神經(jīng)網(wǎng)絡(luò)的輸入和輸出節(jié)點(diǎn)，經(jīng)過(guò)網(wǎng)絡(luò)學(xué)習(xí)來(lái)獲得一些典型的基頻曲線和時(shí)長(zhǎng)映射關(guān)系。由于神經(jīng)網(wǎng)絡(luò)自身理論還存在不夠完善的地方，因此，可以輔助以粗糙集理論進(jìn)行適當(dāng)?shù)男拚垣@得期望的模式。在這些映射的基礎(chǔ)上，可通過(guò)簡(jiǎn)單的變換獲得典型模式，利用這些典型模式，就可在定量的基礎(chǔ)上，對(duì)基頻的變化規(guī)律從較高層次進(jìn)行韻律規(guī)則的研究。

3．基于數(shù)據(jù)驅(qū)動(dòng)方式的重音確定

　　在連續(xù)語(yǔ)流中，各音節(jié)的響亮程度并不完全相同，有的音節(jié)聽起來(lái)比其他音節(jié)重，簡(jiǎn)單地說(shuō)，這就是重音。以詞為考查對(duì)象，音位學(xué)可劃分為正常重音、對(duì)比重音和弱重音。人們?cè)诳谡Z(yǔ)交流中，常把在表情傳意方面較重要的詞讀得重些，把其余的詞讀得輕些。語(yǔ)句重音是指由于句子語(yǔ)法結(jié)構(gòu)、邏輯語(yǔ)義或心理情感表達(dá)的需要而產(chǎn)生的句子中的重讀音，它不同于詞重音，因?yàn)樵~重音只出現(xiàn)在詞結(jié)構(gòu)中。語(yǔ)句重音一般分為三種:語(yǔ)音重音、邏輯重音、心理重音。

　　通常研究者認(rèn)為，重音的聲學(xué)征兆主要表現(xiàn)在時(shí)長(zhǎng)、音高與音強(qiáng)三個(gè)方面，也往往是三者的結(jié)合。不同語(yǔ)言的重音特點(diǎn)不一樣，對(duì)于漢語(yǔ)，老一輩語(yǔ)音學(xué)家趙元任先生認(rèn)為，“漢語(yǔ)重音首先是延長(zhǎng)持續(xù)時(shí)間和擴(kuò)大調(diào)域，其次才是增加強(qiáng)度�！爆F(xiàn)代語(yǔ)音學(xué)家也認(rèn)為，漢語(yǔ)重音主要表現(xiàn)在時(shí)長(zhǎng)的增加（或者說(shuō)是基音周期數(shù)的增加）；其次是調(diào)域的擴(kuò)大和音高的提升，調(diào)型完整地展開；與發(fā)音強(qiáng)度的關(guān)系并不是主要的。

　　以上都是定性的分析，從定性到定量的轉(zhuǎn)換是采用基于數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行，從大量語(yǔ)料數(shù)據(jù)本身的特點(diǎn)來(lái)分析重音，并且依據(jù)重音的特點(diǎn)輔助以韻律學(xué)規(guī)律，合成更自然的語(yǔ)音信號(hào)。

　　數(shù)據(jù)挖掘是一種在大量數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱藏新知識(shí)的計(jì)算技術(shù)方法。數(shù)據(jù)挖掘提取的是定性的模型，并且很容易被轉(zhuǎn)化為邏輯規(guī)則或用可視化的形式表達(dá)。因此，將數(shù)據(jù)挖掘與人機(jī)交互接口緊密聯(lián)系在一起將對(duì)計(jì)算機(jī)語(yǔ)音信號(hào)處理的研究工作產(chǎn)生巨大的推動(dòng)力，為語(yǔ)音信號(hào)處理提供了一條嶄新的研究途徑�？梢灶A(yù)見(jiàn)，采用數(shù)據(jù)挖掘方法可以較好地解決目前語(yǔ)音信號(hào)處理中部分難點(diǎn)問(wèn)題，從而進(jìn)一步提高語(yǔ)音合成和語(yǔ)音識(shí)別技術(shù)的實(shí)用化程度。

《計(jì)算機(jī)世界》 2001/06/04

文本-可視語(yǔ)音轉(zhuǎn)換及其應(yīng)用 2001-06-04

神經(jīng)網(wǎng)絡(luò)與漢語(yǔ)TTS韻律模型 2001-06-01

語(yǔ)音技術(shù)的拓展與展望 2001-06-01

語(yǔ)音門戶:讓網(wǎng)絡(luò)接入更便捷 2001-05-11