亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

 首頁 > 新聞 > 國內(nèi) >

醫(yī)療大數(shù)據(jù)專家:淺談醫(yī)學大數(shù)據(jù)

2015-03-26 10:06:29   作者:   來源:36氪   評論:0  點擊:


  A組數(shù)據(jù)和B組數(shù)據(jù),在擁有海量的數(shù)據(jù)樣本的情況下,相差已是十萬八千里了。圖十顯示了偏差隨樣本量增加的變化情況。在樣本數(shù)量為4236左右,偏差的增加還不明顯。一過4236,偏差則出現(xiàn)了驚人的增長。

  圖十

  所以依此為判斷的話,我們可以說在數(shù)據(jù)樣本量4000左右,A組和B組比較,差別可能不大。但數(shù)據(jù)樣本量大于4000以后,A組和B組比較,可能就會相當不一樣了。這個例子充分說明了大數(shù)據(jù)相比較小數(shù)據(jù)而言對數(shù)據(jù)偏差更容易進行識別,從而發(fā)現(xiàn)數(shù)據(jù)收集過程中的問題并加以改善。

  虛假相關(guān)(spurious correlation)

  虛假相關(guān),我們用一個例子來加以解釋說明。這兒還是以前面提到過的心血管數(shù)據(jù)為例,F(xiàn)在只收集了200個記錄,但每條記錄都有100個各方各面因素的信息。這樣,我們想看是否這100個因素和“是否有心血管病”相關(guān)。如此,我們進行兩兩檢驗測試: 是否有心血管病和因素一進行檢驗,是否有心血管病和因素二進行檢驗……是否有心血管病和因素一百進行檢驗。

  每一個檢驗測試結(jié)果只會出現(xiàn)兩種情況: 統(tǒng)計學上有意義和統(tǒng)計學上無意義。

  統(tǒng)計學上有意義,簡單來說就是認為心血管病和該因素有關(guān)。統(tǒng)計學上無意義就是認為心血管病和該因素無關(guān)。 在此過程中,你可能發(fā)現(xiàn),大約會有5次在統(tǒng)計學上被認為與心血管病相關(guān)的因素,實際上從常識和現(xiàn)實來判斷是沒有任何關(guān)聯(lián)的,也就是說統(tǒng)計學上有意義是錯誤的。這就是虛假相關(guān)。

  為了讓我們能知其然也知其所以然,這兒要解釋一下“統(tǒng)計學上有意義”究竟是怎么界定的 。一般做檢驗測試時,我們會界定一個值,叫做第一類統(tǒng)計錯誤率。這個錯誤率通常被設定為5%,也就是說每100次檢驗測試,我們允許有5次在統(tǒng)計學上實際無意義的被錯誤判斷為統(tǒng)計學上有意義(如果不允許統(tǒng)計錯誤率的存在,那就是100%的正確率,也就是說沒有不確定性的存在。如果有這樣的數(shù)據(jù),就不需要做任何統(tǒng)計上的假設檢驗了)。

  也就是說,如果實際不存在相關(guān)性,我們允許100次假設檢驗中出現(xiàn)5次錯誤相關(guān)。這就是以上例子中出現(xiàn)虛假相關(guān)的原因。 在面對龐大的海量數(shù)據(jù)和超多維度的因素時,當同時對一個數(shù)據(jù)進行許多檢驗測試時,不可避免會出現(xiàn)虛假相關(guān)。如何處理這個問題,統(tǒng)計學上還在做著進一步的研究。

  無意義顯著性(meaningless significance)

  還有一種情況我們稱為無意義的顯著性 (Lin, Lucas, & Shmueli, 2013)。當我們做兩組數(shù)據(jù)的分析比較時,如果A組,B組各只有1000個數(shù)據(jù)記錄,我們測試兩組數(shù)據(jù)的平均值是否一樣,結(jié)果告訴我們統(tǒng)計學上無意義。也就是說,這兩組數(shù)據(jù)的平均值無統(tǒng)計學上的差異。但當數(shù)據(jù)記錄達到上萬上百萬時,測試的結(jié)果告訴我們統(tǒng)計學上是有意義的了。

  這又是怎么回事?我們回到源頭上去看,為什么要做兩組數(shù)據(jù)的統(tǒng)計分析比較?不可以就算出兩組的平均值,比一比他們是否相同嗎?當然不可以,因為我們真正希望分析比較的結(jié)果是能夠反映100%總體數(shù)量數(shù)據(jù)的客觀現(xiàn)象。單純孤立的比較兩組各1000個記錄的平均值,就是比大小,比出來的結(jié)論不能推廣到100%總體數(shù)量數(shù)據(jù)的客觀現(xiàn)象上。

  但這兩組數(shù)據(jù)等同于100%總體數(shù)量數(shù)據(jù)嗎? 當然不是,就算是海量的大數(shù)據(jù)也并不能100%等同于總體數(shù)量數(shù)據(jù)。這樣我們分析總結(jié)出的這兩組數(shù)據(jù)的一些統(tǒng)計指標就會和總體數(shù)量數(shù)據(jù)的統(tǒng)計指標有一定的偏差。這個偏差一般有一個下限和上限,我們稱為置信區(qū)間。真實的總體數(shù)量數(shù)據(jù)的統(tǒng)計指標就落在樣本數(shù)據(jù)統(tǒng)計指標的左邊或右邊的一定范圍內(nèi)(置信區(qū)間)。

  好了,我們實際要看的是A組總體數(shù)量數(shù)據(jù)和B組總體數(shù)量數(shù)據(jù)在平均值上是否一樣,換種說法就是A組總體數(shù)量數(shù)據(jù)平均值減B組總體數(shù)量數(shù)據(jù)平均值是否等于零,F(xiàn)在我們只有A組樣本數(shù)量數(shù)據(jù)平均值和B組樣本數(shù)量數(shù)據(jù)平均值,表達符號就是和。要看的就是A組樣本數(shù)量數(shù)據(jù)平均值減B組樣本數(shù)量數(shù)據(jù)平均值的差值是否等于0: 但我們已經(jīng)知道由于樣本均分差的存在,樣本平均值相減的差值不一定是零,而且這個差值有一定的置信區(qū)間。

  那么我們實際上更精確的說是看0是否落在樣本差值的置信區(qū)間內(nèi)(置信區(qū)間的上限和下限和上面提到的第一統(tǒng)計錯誤率是相一致的,有一個5%的概念在里面,這兒就不詳細介紹了。反正是否落在置信區(qū)間里否也可以用來判斷統(tǒng)計學上是有意義還是沒有意義)。落在里面我們就說是統(tǒng)計學上是沒有意義的也就是兩組數(shù)據(jù)的平均值是一樣。不落在里面我們就說是統(tǒng)計學上是有意義的也就是兩組數(shù)據(jù)的平均值不一樣。如圖十一所示:

  圖十一

  那為什么在樣本數(shù)據(jù)量為1000和上萬上百萬的情況下結(jié)果會不一樣。這兒我們進一步要講的就是樣本數(shù)量和置信區(qū)間之間的關(guān)系了。隨著樣本數(shù)量的增加,樣本差值會和真實的總體數(shù)據(jù)差值接近(不一定就是0哦),同時不確定性會減小,置信區(qū)間會縮短,其實就是估計的差值越來越精準了。這種情況下,就算樣本差值是非常接近0的一個數(shù)(就是說我們都覺得兩組數(shù)據(jù)的平均值是一樣的了),但是由于置信區(qū)間的縮小,0仍舊會落在置信區(qū)間的外面(如圖十一,下部分2所示)。

  這樣一來,結(jié)果就會是統(tǒng)計學上是有意義的:兩組數(shù)據(jù)的平均值是不一樣的,F(xiàn)有的統(tǒng)計方法運用在大數(shù)據(jù)時會帶來這樣的一種錯誤信息。這是因為現(xiàn)有的傳統(tǒng)統(tǒng)計方法是針對小數(shù)據(jù)的,在被提出的時候,還沒有面對過或想到數(shù)據(jù)量可以如此龐大。如何解決如何改進由于這樣的數(shù)據(jù)特性帶來的問題,我們還在研究的路上。

  羊群效應(herding effect)

  大數(shù)據(jù)時代,我們的社會已經(jīng)在越來越多的把個人的觀點數(shù)字化,匯總化,并依賴于此做出決策(比如根據(jù)收集到的評分來進行產(chǎn)品或服務的推薦)。這一現(xiàn)象在醫(yī)療界也漸漸的變的普遍起來。好多輔助醫(yī)療應用軟件在移動平臺上都會有使用者的評分,人們會根據(jù)評分來選擇是否使用一下。某些醫(yī)療網(wǎng)絡平臺推出的服務,比如網(wǎng)絡問診,使用者也可以對提供服務的醫(yī)療人員進行滿意度的評分,進而影響他人決定是否選擇此醫(yī)療人員來進行問診咨詢。

  利用這種“眾人的智慧”的一個關(guān)鍵要求是個人意見的獨立性。然而,在現(xiàn)實的世界中,匯總收集的集體意見卻很少是由互不相干的獨立的個體意見所組成的。最近的實驗研究證明先前已經(jīng)存在的收集到的意見會歪曲隨后個人的決策還有對質(zhì)量及價值的認知。凸顯出了一個根本的差異既: 我們從集體意見感知到的價值和產(chǎn)品本身固有的價值之間的差異。

  產(chǎn)生這種差異的原因在于“羊群效應” 。羊群效應簡單的描述就是個體的從眾跟風心理和行為。羊群是一種很散亂的組織,平時在一起也是盲目地左沖右撞,但一旦有一只頭羊動起來,其他的羊也會不假思索地一哄而上,全然不顧前 面可能有狼或者不遠處有更好的草。因此,“羊群效應”就是比喻一種從眾效應,很容易導致盲從,而盲從往往會陷入認知偏差,決策偏差。

  IBM Watson 研究中心 (Wang & Wang, 2014) 使用大規(guī)?v向的客戶評分數(shù)據(jù)集(亞馬遜的)并建立統(tǒng)計模型演示了評分和意見的產(chǎn)生不是獨立,均勻的過程,而是創(chuàng)建了一個環(huán)境進而影響以后評分或意見的產(chǎn)生。體現(xiàn)在這種社會化的客戶評分系統(tǒng)中的“羊群效應”具體表現(xiàn)為:高評分傾向于產(chǎn)生新的高評分同時抑制低評分的產(chǎn)生。

  接下來的問題就是:什么是真實的符合產(chǎn)品真正質(zhì)量的評分如果我們能把“羊群效應”給剔除出去的話? 應用 IBM Watson 研究中心建立的統(tǒng)計模型能夠部分回答這個問題。他們對亞馬遜的四類產(chǎn)品數(shù)據(jù)(書籍,電子產(chǎn)品,電影電視,和音樂)進行了內(nèi)在評分(剔出“羊群效應”)和外在(沒有剔出“羊群效應”)測試。所有四個類別,50%以上的產(chǎn)品評分的差異大于0.5。這個差異,說明我們從集體評分中得來的感知和產(chǎn)品的真實價值之間存在著顯著的差異。

  再深一步,鑒于產(chǎn)品現(xiàn)在的評分,如果我們施加一定的人為操縱,“羊群效應”會如何影響今后的評分?這樣的預測分析對于很多領(lǐng)域都是相當有價值的,包括市場盈利估計,預算廣告和欺詐操縱檢測等。例如,在決定是否對以產(chǎn)品進行促銷活動之前,市場分析師可能希望估計由于推廣而出現(xiàn)的短期高評分對產(chǎn)品的長期影響。

  研究中心通過對兩類產(chǎn)品(電影電視,和音樂)插入50個人為5星級的評分,預測到雖然這兩種產(chǎn)品在受歡迎程度上遇到類似的短期高評分,從長遠來看,推廣對于電影及電視類產(chǎn)品有著更持久的影響(高評分消減的更慢)。這對于市場分析的決策提供了很有價值的情報。

  此類大數(shù)據(jù)中的“羊群效應”可以通過適當?shù)慕y(tǒng)計方法加以消除,利用,以產(chǎn)生更有價值的信息用于決策分析中。

  以上的各個例子充分說明了在大數(shù)據(jù)時代,雖然數(shù)據(jù)庫等操作建立需要專業(yè)計算機人才的貢獻,統(tǒng)計專業(yè)人員的參與也是必不可少的。數(shù)據(jù)的管理分析并不僅僅是提取,檢索,簡單匯總,總結(jié)。數(shù)據(jù)本身的復雜性,使得分析的過程中充滿了種種陷阱,誤區(qū)。沒有一定統(tǒng)計方面的理論知識結(jié)構(gòu),就會出現(xiàn)分析上的偏差,或者低效率的數(shù)據(jù)利用。在計算機算法的基礎(chǔ)上去學習認識數(shù)據(jù)統(tǒng)計的性質(zhì),把算法和統(tǒng)計分析結(jié)合起來是未來大數(shù)據(jù)分析的一個主要方向。

  結(jié)論和展望

  本文浮光掠影地講述了什么是大數(shù)據(jù),有選擇性地描述了大數(shù)據(jù)的一些特性,醫(yī)療大數(shù)據(jù)及其在北美醫(yī)療系統(tǒng)中的現(xiàn)況,揭示了大數(shù)據(jù)分析將會對醫(yī)療衛(wèi)生保健領(lǐng)域帶來巨大的影響和沖擊。 大數(shù)據(jù)通過對臨床及其他數(shù)據(jù)存儲庫進行數(shù)據(jù)管理和分析獲得前所未有的洞察力并依此做出更明智的決策。

  在不久的將來,大數(shù)據(jù)分析的應用將會快速,廣泛的涌現(xiàn)在整個醫(yī)療保健機構(gòu)和醫(yī)療保健行業(yè)。本文描述的數(shù)據(jù)管理框架,數(shù)據(jù)統(tǒng)計分析揭示了大數(shù)據(jù)的有效應用是一個系統(tǒng)性的工程,需要一系列專業(yè)技能來保證大數(shù)據(jù)分析的成功,包括:處理,整合,分析復雜的數(shù)據(jù)并能幫助客戶充分了解數(shù)據(jù)分析的結(jié)果。要做到這些 需要多方面的專業(yè)技能及特質(zhì),包括:

  • 計算機科學/數(shù)據(jù)開發(fā)的專業(yè)技能:扎實的計算機科學基礎(chǔ)及運用能力,明了大數(shù)據(jù)的基礎(chǔ)框架設施。
  • 分析和建模能力:在了解數(shù)據(jù)的基礎(chǔ)上迅速分析并建立有效的統(tǒng)計模型。這不僅需要扎實的統(tǒng)計學,還需要有敏銳的思考和洞察力。
  • 好奇心和創(chuàng)意的思考能力:這需要對數(shù)據(jù)有著一種渴望激情,善于全面敏銳的思考并挖掘問題。一些機構(gòu)尋找人才就是看誰能在討論數(shù)據(jù)時能夠靈光一現(xiàn)。
  • 突出的交流能力:整合數(shù)據(jù)和結(jié)果的分析報告,能清晰明了的用非專業(yè)語言幫助客戶或公眾正確理解數(shù)據(jù)分析結(jié)果并做出決定。

  當然,我們很難找到一個人才具有以上所有技能,但通過團隊分工合作建立起高效的大數(shù)據(jù)小組是目前可行的方向。從而, 在這個大數(shù)據(jù)分析變得更加主流的時代,把握時機,脫穎而出或百尺竿頭,更進一步。

  關(guān)于作者

  本文作者陳遵秋,美國俄勒岡州,健康科技大學,公共衛(wèi)生預防系,美國統(tǒng)計協(xié)會認證統(tǒng)計分析師;陳漪伊,美國俄勒岡州,健康科技大學,公共衛(wèi)生預防系,生物統(tǒng)計助理教授(交流微信號:2823095726)。

  陳遵秋和陳漪伊夫婦是美籍華人,現(xiàn)在美國定居。其二人是目前研究醫(yī)療大數(shù)據(jù)及生物樣本大數(shù)據(jù)真正的專家。現(xiàn)將兩位的文章進行公開發(fā)表,與大家一起探討。

分享到: 收藏

專題