大數(shù)據(jù)特性對(duì)統(tǒng)計(jì)應(yīng)用上的際遇和沖擊
大數(shù)據(jù)的獨(dú)特性對(duì)傳統(tǒng)的統(tǒng)計(jì)方法發(fā)出了挑戰(zhàn),刺激著新的,適用于大數(shù)據(jù)分析的統(tǒng)計(jì)方法的發(fā)展。本文提到的一些際遇和問(wèn)題,一部分是作者自己的觀點(diǎn),一部分摘自其他文章( (Fan, Han, & Liu, 2014) (Wang & Wang, 2014)。
相較于統(tǒng)計(jì)文章的專業(yè)寫作手法,作者試圖用更淺顯易懂的說(shuō)法來(lái)介紹這些問(wèn)題,讓一般的讀者對(duì)此也能有一定的了解并對(duì)此產(chǎn)生興趣。傳統(tǒng)數(shù)據(jù)一般來(lái)說(shuō)是樣本量遠(yuǎn)遠(yuǎn)大于感興趣的因素,比如一數(shù)據(jù)有200條記錄關(guān)于個(gè)人是否有心血管病,可能相關(guān)因素為性別,年齡,血壓。這兒只有4個(gè)因素,但樣本量為 200(200>>4)。
而大數(shù)據(jù)則擁有海量的樣本及相當(dāng)多的因素。還是用心血管的例子,現(xiàn)在比如我們有了幾萬(wàn)條記錄的樣本量,但同時(shí)也擁有了上百個(gè)的因素,各種以前沒(méi)法收集的因素都收集了,像運(yùn)動(dòng)與否,運(yùn)動(dòng)量如何,運(yùn)動(dòng)類型,飲食習(xí)慣,飲食內(nèi)容,喝酒與否,喝什么酒,喝酒習(xí)慣次數(shù)等等。這使統(tǒng)計(jì)中對(duì)數(shù)據(jù)的研究應(yīng)用得到了新的際遇同時(shí)也面臨了新的挑戰(zhàn)。
數(shù)據(jù)異質(zhì)性(heterogeneity)
數(shù)據(jù)異質(zhì)性,可以簡(jiǎn)單理解成一個(gè)大樣本數(shù)據(jù)里有很多小樣本,每個(gè)小樣本有著不同的數(shù)據(jù)特征,比如小樣本的平均值有高有低,離散程度有密有疏,就好象海洋中有著不同溫度,不同密度的各種洋流一樣。我們不能簡(jiǎn)單的只在大樣本的層面進(jìn)行統(tǒng)計(jì)分析,這樣得出的結(jié)果如果被用于對(duì)小樣本或樣本中的個(gè)體的估計(jì)或預(yù)測(cè)時(shí)就會(huì)出現(xiàn)偏差,因?yàn)槊總(gè)小樣本可能有著一些它自己獨(dú)特的特征。
在數(shù)據(jù)樣本小的時(shí)候,里面的小樣本相應(yīng)的就更小。 這種情況下小樣本里的數(shù)據(jù)記錄可能只有一,兩個(gè),它們只能被當(dāng)作異常值處理,無(wú)法分析。而在大數(shù)據(jù)里,這種具有獨(dú)特特征的數(shù)據(jù)記錄收集出現(xiàn)多了,就擁有了被統(tǒng)計(jì)分析的條件,從而使我們更好地探究特定因素的關(guān)聯(lián)性,理解這些數(shù)據(jù)異質(zhì)性。比如有些只在特定人群里發(fā)生的極其罕見(jiàn)的疾病,大數(shù)據(jù)使我們得以研究發(fā)病原因,發(fā)病風(fēng)險(xiǎn)因素;理解為什么有些治療方法對(duì)某些人群有利,而同樣的方法對(duì)另一人群卻有害,等等。
同樣,由于海量樣本和巨多的因素存在于大數(shù)據(jù)里,信息的復(fù)雜度也會(huì)增加不少,受復(fù)雜度的影響,可能導(dǎo)致統(tǒng)計(jì)上的過(guò)度擬合(overfitting)。過(guò)度擬合就是指我們建立了一個(gè)復(fù)雜的統(tǒng)計(jì)模型,它能很好的描述現(xiàn)有數(shù)據(jù)的情況,但當(dāng)我們想把這模型應(yīng)用到預(yù)測(cè)新數(shù)據(jù)時(shí),它的表現(xiàn)卻相當(dāng)差。比如圖九所示:
圖九
圖九左邊上的曲線是我們針對(duì)藍(lán)點(diǎn) (當(dāng)作現(xiàn)有數(shù)據(jù)) 做出的模型,基本上能很好的描述藍(lán)點(diǎn)的分布及曲線和藍(lán)點(diǎn)的吻合度較高。用這曲線去描述黃點(diǎn)(當(dāng)作新數(shù)據(jù)),吻合度也還不錯(cuò)。圖九右邊的曲線則完全通過(guò)了每一藍(lán)點(diǎn),吻合度極高,完全描述了藍(lán)點(diǎn)的復(fù)雜特性。然而,它在描述黃點(diǎn)時(shí),吻合度就差多了,偏差就比左邊的曲線大不少。簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)越復(fù)雜,需要考慮的因素越多,建立普遍有效的統(tǒng)計(jì)模型的難度就越大。
偏差識(shí)別(Bias accumulation)
分析數(shù)據(jù)時(shí),我們需要估計(jì)或測(cè)試很多參數(shù)用以建立可靠的統(tǒng)計(jì)數(shù)據(jù)模型。期間不可避免會(huì)產(chǎn)生偏差,這些估計(jì)中產(chǎn)生的偏差積累,很大程度上受著數(shù)據(jù)量大小及參數(shù)多寡的影響。 在一般小數(shù)據(jù)時(shí),這問(wèn)題可以并不顯著。但在大數(shù)據(jù)的情況下,這問(wèn)題就變的相當(dāng)值得注意。 我們用一簡(jiǎn)化的例子來(lái)說(shuō)明這個(gè)問(wèn)題。
假設(shè)我們有兩組數(shù)據(jù)A和B,A組數(shù)據(jù)收集估算時(shí)沒(méi)有偏差,所有樣本數(shù)值都為1000。B組數(shù)據(jù),實(shí)際所有樣本數(shù)值也是1000,但存在偏差,而且偏差隨收集樣本量的增加呈指數(shù)式成長(zhǎng)(為了說(shuō)明情況,偏差指數(shù)式成長(zhǎng)是一個(gè)很極端的例子)。每增加一個(gè)記錄,偏差增長(zhǎng)公式為:
這樣B組第一個(gè)記錄包含偏差為1.001=1.0011. B組第一個(gè)值為1000×1.001=1001. B組第二個(gè)記錄包含偏差為 1.002001=1.0012. B 組第一個(gè)值為 1000×1.002001=1002.001. B 組第十個(gè)值為 1000×1.01004512=1010.045. 這樣如果是小數(shù)據(jù) n=10, A組數(shù)據(jù)其實(shí)和B組數(shù)據(jù)比起來(lái)相差是不大的。B 組內(nèi)的每一個(gè)數(shù)字增加的偏差不足以引起注意,如果2%以內(nèi)的偏差都可以接受的話。
然而當(dāng)我們收集了1萬(wàn)個(gè)數(shù)據(jù)記錄后,情況就發(fā)生了很大的變化。我們來(lái)看最后10個(gè)數(shù)據(jù)相差情況已經(jīng)相當(dāng)相當(dāng)大了。