亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

 首頁 > 新聞 > 專家觀點 >

北京航天航空懷進鵬:云計算賦予大數(shù)據(jù)新價值

2013-08-14 09:12:03   作者:   來源:騰訊科技   評論:0  點擊:


  北京航空航天大學(xué)校長懷進鵬在下午舉行的“名人堂——互聯(lián)網(wǎng)趨勢論壇”上表示,云計算下大數(shù)據(jù)將產(chǎn)生新價值。一個是商業(yè)社會價值,另一個是學(xué)術(shù)價值。

  大數(shù)據(jù)不僅改變我們通訊模式,也影響到我們經(jīng)濟和社會生活發(fā)展模式,更重要它可能是未來學(xué)術(shù)和科學(xué)研究發(fā)現(xiàn)的一種重要手段。

  但是他同時表示,大數(shù)據(jù)的應(yīng)用會不可避免地涉及隱私。

  懷進鵬提出,網(wǎng)站利用大數(shù)據(jù)可以將個人的許多相關(guān)信息挖掘出來。未來當(dāng)大數(shù)據(jù)更多的應(yīng)用之后,百度可以知道你上網(wǎng)行為,你思考的關(guān)注點可能性。淘寶可以了解你的購物習(xí)慣,微博會了解你在某個領(lǐng)域的思維情況。因此,關(guān)于可信和隱私也是未來需關(guān)注的問題。

  以下是懷進鵬演講實錄:

  懷進鵬:謝謝主持人,剛才前面鄔先生做了一個非常精彩的報告關(guān)于大數(shù)據(jù),我下面向各位匯報一下有關(guān)對云計算和大數(shù)據(jù)在一些方面的思考。主要是兩個部分,第一個互聯(lián)網(wǎng)的發(fā)展所派生和影響出來的一種新模式和數(shù)據(jù)作為當(dāng)前和未來的一個重點。第二就是云計算和大數(shù)據(jù)研究的一些思考。

  我們大家都非常清楚,由于主干網(wǎng)六個月增加一倍,而費用將區(qū)域分零,這個也是著名的基爾德(音)定律,這20年在計算儲備和計算當(dāng)中,計算速度存儲容量增快,內(nèi)存硬盤價格下降了45000倍和360萬倍,這樣一個數(shù)據(jù)給我們簡單認識,一個數(shù)據(jù)如何獲取帶寬,另外一個數(shù)據(jù)的計算和存儲需要的成本。因此作為在當(dāng)前的互聯(lián)網(wǎng)應(yīng)用情況下,實際上我們進入一個更好的數(shù)據(jù)服務(wù)這樣一個新時代。因為帶寬不斷提升已經(jīng)成為基本廉價的費用,我們不擔(dān)心上網(wǎng)需要很多費用,通訊超過摩爾定律,我們一切都是在線一切是互聯(lián)網(wǎng)絡(luò)的計算,這樣方式使IT和通訊領(lǐng)域也是進一步在業(yè)務(wù)方面進行整合。所以我們很難分辨出IPone、谷歌(微博)、雅虎包括我們微軟一部分業(yè)務(wù),很難說一定是傳統(tǒng)的IT還是電信新服務(wù)的內(nèi)容。

  這個領(lǐng)域當(dāng)中原來有一種說法,上世紀60年代互聯(lián)網(wǎng)的先驅(qū)也是心理學(xué)家叫里德(音),他說未來計算機互聯(lián)網(wǎng)他有一個設(shè)想,這個設(shè)想就是把世界所有的計算機連在一起,能夠讓用戶使用遠程的計算機,實現(xiàn)兩個功能:第一個功能怎么獲取數(shù)據(jù),第二功能怎么用別人的計算機。對于第一個功能和正在開展使用多臺計算機遠程方面,實際上一直是計算機和信息領(lǐng)域?qū)W者研究實踐努力的方向,第一個信息出現(xiàn),TIC的出現(xiàn),使得我們在全球任何一個地方可以送達數(shù)據(jù)的內(nèi)容,這個事情在計算機世界是重要的事。另外一方面我們知道七八十年代有一個更重要的進展就是操作系統(tǒng),操作系統(tǒng)實際上由微機出現(xiàn)把傳統(tǒng)專業(yè)人士可以更多的向普通的非計算機專業(yè)人士來使用計算機。這個事情做的重要貢獻就是我們可以不知道內(nèi)存怎么管理,計算怎么分配時間,這樣的情況下單機和大型機管理,也提供了技術(shù)和方法。由于操作系統(tǒng)的重要突破,這個領(lǐng)域當(dāng)中先后有兩次圖靈獎頒獎,一個頒給了IBM360的人,一個頒給了(英文)。這兩個人都是由操作系統(tǒng)貢獻獲得了圖靈獎。

  計算機一個永恒的主題就是探討數(shù)據(jù)處理能力如何更好,如何更快如何更強。圍繞這樣一個領(lǐng)域從過去所謂的P2P現(xiàn)在云計算以及移動計算物聯(lián)網(wǎng)還有智慧地球應(yīng)用的模式,都是把數(shù)據(jù)庫作為它重要的一個核心。來把過去的計算模式向云向其他一種方式轉(zhuǎn)型當(dāng)中來強調(diào)數(shù)據(jù)資源來更有效的利用。這個過程當(dāng)中無論從科學(xué)的角度還是面向某個領(lǐng)域應(yīng)用角度,還是從計算模式的轉(zhuǎn)型,對某一類計算終端來說都是更好的計算能力。我們由于帶寬低廉使得我們上網(wǎng)成本越來越低,就是說互聯(lián)網(wǎng)給我們帶來新的機會,從簡單通訊平臺進入互聯(lián)網(wǎng)作為一種更廣泛的計算平臺。

  云計算是一個什么內(nèi)容我們大家都很清楚,它是基于數(shù)據(jù)中心,強調(diào)性價比、效率、可信新的服務(wù)運營模式,這是提高高端計算利用率,同時提升低端計算事物處理能力,我們不關(guān)注本身計算機的能力,更多提供給后臺,由后臺強大的處理能力完成。我們看到大數(shù)據(jù)基于云計算模式的應(yīng)用也好,可能對服務(wù)質(zhì)量保證未必完全有效。就像大食堂和小灶一樣,你要想吃得好要付出你的成本處理,來吃得更好。我們在這個會議樓上正常提供五千人,突然來了五萬人要就餐我們怎么去做?一種簡單的方式比如說營養(yǎng)保持食品的問題,白菜燉豆腐,好不好難說,但是提供基本服務(wù),在一定程度上云計算并不能夠提供高質(zhì)量的一種服務(wù)能力,應(yīng)用環(huán)境不斷發(fā)展對互聯(lián)網(wǎng)大規(guī)模應(yīng)用過程當(dāng)中所產(chǎn)生的一種計算模式。

  基本應(yīng)用模式第一次確實把信息技術(shù)能夠作為在未來的一種基礎(chǔ)設(shè)施,那么它核心技術(shù)前面剛才鄔院士提出了用TB的方式提供更多的隔離性,以便提供更有效的服務(wù)。為互聯(lián)網(wǎng)應(yīng)用推出新的計算手段和能力,這十年來從不同角度的探索,另外一個互聯(lián)網(wǎng)應(yīng)用需求當(dāng)中也對云計算的模式提供新的要求,正向前面講到大數(shù)據(jù)本身特點,規(guī)模大,變化快,種類雜,在社交類,搜索類都有相當(dāng)多數(shù)據(jù)類型的表現(xiàn),以及在我們社會生活當(dāng)中很多方面。曾經(jīng)圖靈獎獲得者說18個翻一番,過去數(shù)據(jù)是確定性的數(shù)據(jù),當(dāng)前是人機物融合數(shù)據(jù)多樣性和異構(gòu)性是當(dāng)前數(shù)據(jù)特別重要的特點,F(xiàn)在數(shù)據(jù)遠不止18個月翻一番,更高數(shù)據(jù)在發(fā)展。

  去年大數(shù)據(jù)成為整個信息技術(shù)和社會當(dāng)中的熱門詞,也成為世界上第二大熱門詞而引起全世界的關(guān)注。去年的時候做了一次未來趨勢走向?qū)υ朴嬎愦髷?shù)據(jù)的發(fā)展過程給出了它的一個走向。這個圖當(dāng)中給出就是對云計算所謂私有云以及混合云,還有未來大數(shù)據(jù)它在發(fā)展當(dāng)中能夠產(chǎn)生產(chǎn)業(yè)的空間。它的預(yù)測大概在2016年的時候大數(shù)據(jù)的相關(guān)產(chǎn)業(yè)將達到2000多個億的規(guī)模,數(shù)據(jù)成為經(jīng)濟社會一個重要的驅(qū)動力。同樣做了一個分析,去年下半年對于全球整個企業(yè)投入大數(shù)據(jù)研究,已經(jīng)投資在大數(shù)據(jù)領(lǐng)域的情況可以看到,目前在教育、交通之醫(yī)療以及能源這些領(lǐng)域超過大概30%,已經(jīng)事實性的投資,作為下一步繼續(xù)開展工作有很多發(fā)展,對于大數(shù)據(jù)和云計算的投入。

  這種方式我們看到由于互聯(lián)網(wǎng)快速普及,大量應(yīng)用在互聯(lián)網(wǎng)的計算服務(wù)從主機到客戶服務(wù)到虛擬計算表現(xiàn),也許云計算僅僅是對于虛擬計算環(huán)境的一種表達方式,還有很多。包括我們說的物聯(lián)網(wǎng)等等,隨著時間和應(yīng)用模式變換,這種名詞會很多,人們對于它的理解和要求會有很多變化。

  第二部分我們對未來互聯(lián)網(wǎng)作為一個普通用戶來說更多希望成為大的計算服務(wù)平臺,相當(dāng)于我們在自己筆記本電腦上,臺式機上自己使用自己的系統(tǒng)資源一樣。需要配置相當(dāng)于有一個大的計算操作系統(tǒng)管理這個系統(tǒng),以便實現(xiàn)當(dāng)時對未來互聯(lián)網(wǎng)的猜想,可以使遠程計算遠程數(shù)據(jù)資源共同完成你所需要的服務(wù)。

  這種模式實際上對互聯(lián)網(wǎng)無論從去中心化,和終端更有效的連接都是在這樣一個方式思考。我們說互聯(lián)網(wǎng)曾經(jīng)改變了我們的交流方式,大數(shù)據(jù)現(xiàn)在已經(jīng)改變我們經(jīng)濟和生活的很多內(nèi)容。鄔先生報告當(dāng)中舉了特別多很有說服力的例子,說明大數(shù)據(jù)對我們不僅是交流方式,更重要它改變我們經(jīng)濟和社會生活。我這里有幾個例子,比如說谷歌在2007用兩萬億單詞訓(xùn)練語言模型,這個也是大數(shù)據(jù)產(chǎn)生很好的效果。我們知道醫(yī)療有KS.BS研究對于產(chǎn)生新藥物很有好處。預(yù)測H7N9流感爆發(fā)用了4.5億模擬,最后提前兩到三周比傳統(tǒng)疾控中心更早預(yù)報所發(fā)生地區(qū)類型,阿里巴巴百度這方面工作都有很多杰出表現(xiàn),主要原因因為他們擁有一個強大,真實可運行的數(shù)據(jù)提供。我們情況百度和谷歌使得它可以研究分析我們每一個人上網(wǎng)游覽行為。淘寶網(wǎng)和亞馬遜可以熟悉用戶的購物習(xí)慣和社會交往的習(xí)慣。像微博對于我們社會思維對一些方式的理解也有很多變化,可以從這樣幾個數(shù)據(jù)例子可以看到互聯(lián)網(wǎng)作為第一階段改變交流方式,所謂深度挖掘就進入一種新方式,同時這種數(shù)據(jù)宏觀統(tǒng)計的分析也改變了我們過去研究當(dāng)中要知其所以然,而不只能知其然這樣的分析。

  第三云計算下大數(shù)據(jù)新價值,這個價值更有意義是學(xué)術(shù)價值,傳播理論實踐是科學(xué)研究的三個手段。類似于我們看到很多這樣的研究工作都是在這樣基本方式下進行,F(xiàn)在很多學(xué)者預(yù)測數(shù)據(jù)密集型的測算成為第四種科學(xué)研究的模式,推進我們對社會、自然的認識和理解。這個變化一個是商業(yè)社會價值,另外一方面就是學(xué)術(shù)價值。給我們計算機研究人員一個挑戰(zhàn)就是本身對于軟件和理論正處于一個轉(zhuǎn)型和新變革時期。我這里簡單做一個粗略的理解,從計算機發(fā)現(xiàn)一開始我們圍繞科學(xué)計算,第二階段我們?yōu)樯虡I(yè)階段,現(xiàn)在假定是云計算這種簡單代名詞來看我們知道過去計算機研究基礎(chǔ)問題就是圖靈機的算法和復(fù)雜性,商業(yè)研究流程和數(shù)據(jù)處理,云計算考慮數(shù)據(jù)科學(xué)和數(shù)據(jù)理論?茖W(xué)計算和數(shù)據(jù)處理為基礎(chǔ),推進數(shù)據(jù)庫的發(fā)展,在大數(shù)據(jù)在數(shù)據(jù)科學(xué)下,現(xiàn)在我們知道HPdoop,mis這樣僅僅是一個出入,會有很多方式推進這個工作。

  從計算機發(fā)展轉(zhuǎn)型和過程當(dāng)中對新計算模型新軟件理論和復(fù)雜性,以及對軟件系統(tǒng)互聯(lián)網(wǎng)的軟件都提出了很多的挑戰(zhàn)。比如說第一大的問題就是對軟件和數(shù)據(jù)服務(wù)的能力。因為軟件的復(fù)雜性已經(jīng)超過過去我們傳統(tǒng)的軟件。而非功能屬性,我們完成做加減這樣,更多考慮服務(wù)質(zhì)量可用性,同時當(dāng)前互聯(lián)網(wǎng)應(yīng)用我們過去對軟件維護和生產(chǎn)成本已經(jīng)是非常昂貴,在當(dāng)前無須復(fù)雜系統(tǒng)配置,對終端資源不需要更多管理,也不需要你的服務(wù)對象在什么地方,只需要關(guān)注在互聯(lián)網(wǎng)下你需要什么樣的服務(wù),和需要什么樣的資源。因此在云計算的軟件和我們傳統(tǒng)所看到軟件研究的方式,傳播的方式和維護的方式有了很大變化。

  我們過去考慮是單機或者是簡單的局域網(wǎng)機器內(nèi)部變化,在互聯(lián)網(wǎng)下如何進行軟件開發(fā),計算平臺不是一個簡單小的AP這樣的軟件,未來應(yīng)用模式我們希望互聯(lián)網(wǎng)作為完整的計算平臺,因此對于未來軟件機遇也許我們現(xiàn)在開始品嘗到這種有效的模式,就是用戶是開發(fā)者也是使用者。由數(shù)據(jù)和服務(wù)的提供商把它軟件上載上傳數(shù)據(jù)服務(wù)的運營商,由數(shù)據(jù)服務(wù)運營商實際上提供整個對軟件服務(wù)進行支撐配置集成、開發(fā)和應(yīng)用,也許這是未來像電信運營商一樣,服務(wù)運營商將會成為越來越重要互聯(lián)網(wǎng)一種計算新平臺。同時在這種計算平臺下我們看到數(shù)據(jù)處理本身技術(shù)挑戰(zhàn)是非常多的,例如美國總統(tǒng)委員會的報告,在過去連續(xù)10年當(dāng)中一直創(chuàng)造十億美元以上的計算機產(chǎn)業(yè)主要是由數(shù)據(jù)處理這些領(lǐng)域發(fā)生,并行數(shù)據(jù)庫、數(shù)據(jù)挖掘這些工具,在傳統(tǒng)數(shù)據(jù)處理能力,已經(jīng)不適應(yīng)在云計算處理,2010年每年處理有70TB而且是壓縮數(shù)據(jù),這么大量的數(shù)據(jù)用傳統(tǒng)的數(shù)據(jù)不僅存不了,而且價格貴,F(xiàn)在雅虎HPdoop節(jié)點,一年下來超過四千個節(jié)點,不是簡單的單一數(shù)據(jù)庫,綜合數(shù)據(jù)方面超過了三千個節(jié)點,對這樣數(shù)據(jù)處理的要求和當(dāng)前技術(shù)提供的這樣裝備來看,應(yīng)該說這個領(lǐng)域?qū)兄匾魬?zhàn)和機會。同時在數(shù)據(jù)處理本身來說維護的成本,數(shù)據(jù)更新的成本和本身數(shù)據(jù)維護的模式都有很多差別。

  因此在這樣一個領(lǐng)域里將會有無限生機和新技術(shù)的挑戰(zhàn)。這里有很多問題,比如說我們過去看到MIS的方式,相當(dāng)于全部數(shù)據(jù)到齊一次處理,最近發(fā)現(xiàn)應(yīng)用過程當(dāng)中有很多問題,兩年前OSDI對MIS進一步的升級考慮,對數(shù)據(jù)增量計算有很多局限,對新算法新問題有很多局限性,大數(shù)據(jù)算法面臨很大挑戰(zhàn),不僅是由小到大量變,更多發(fā)生根本的變化。在數(shù)據(jù)處理計算支撐當(dāng)中,同時對大數(shù)據(jù)計算模型,分布式系統(tǒng)的架構(gòu),對數(shù)據(jù)挖掘,預(yù)測方面都是現(xiàn)在技術(shù)沒有辦法完全解決的。在未來大規(guī)模數(shù)據(jù)處理支持平臺也是在云計算和大數(shù)據(jù)計算一個重要的問題。特別是我們過去計算當(dāng)中計算是被動的,以計算為主動,在轉(zhuǎn)換需要存儲計算聯(lián)動,作為新的架構(gòu)和新方式應(yīng)該說也是正在研究和不斷發(fā)展當(dāng)中,如何有效把存儲和計算,特別是基于數(shù)據(jù)主動型的計算作為新機構(gòu)和處理平臺設(shè)計變成重要問題。

  我們前面提到大數(shù)據(jù)不僅改變我們通訊模式,也影響到我們經(jīng)濟和社會生活發(fā)展模式,更重要它可能是未來學(xué)術(shù)和科學(xué)研究發(fā)現(xiàn)的一種重要手段。這種重要手段也改變了我們過去計算機研究很多新視野和空間。比如說我們過去以50年代以來一直以抽樣進行,工業(yè)進行測試以抽樣方式做,大數(shù)據(jù)當(dāng)中不是以抽樣做,比如說我們炒菜嘗一嘗,我們事先有理解,受熱面積均勻,當(dāng)你嘗一嘗雖然對局部進行分析,但是對全盤數(shù)據(jù)有把握。但是大數(shù)據(jù)下局部數(shù)據(jù)不可能,炒菜過程當(dāng)中不斷加新的菜,所以局部處理已經(jīng)不能保證我們對數(shù)據(jù)的完整。

  我們?nèi)ベI鞋子不會跑遍北京所有鞋店買鞋子,我們通常跟我們成本進行計算不會達到最后的絕對成本。

  在醫(yī)療當(dāng)中很難說一個醫(yī)生把對癥下藥問題原因用很好科學(xué)方法說出來,更多是關(guān)聯(lián)關(guān)系,通過過去經(jīng)驗映射到我們對當(dāng)前治療的理解。大數(shù)據(jù)給我們帶來很多新研究和挑戰(zhàn)。我們搞計算機過去數(shù)據(jù)基礎(chǔ)就是我們離散數(shù)據(jù)和我們傳統(tǒng)200年以前的數(shù)據(jù),現(xiàn)在面臨不僅考慮近百年,特別是工業(yè)發(fā)展以后我們對統(tǒng)計新數(shù)據(jù)分析的理解,更重要從應(yīng)用數(shù)學(xué),和我們計算機科學(xué)整個多方面的理解。

  對于云計算的大數(shù)據(jù)對于科學(xué)研究的意義是相當(dāng)大的,所以我理解我們對于大數(shù)據(jù)的問題!社會上談四維的特征,我們自己更多理解從研究角度理解大數(shù)據(jù)對計算本身產(chǎn)生什么樣的重要影響,這是我前面提到如何進入增量型計算,如何進入非確定性計算,如何研究歸納計算,改變我們計算機做系統(tǒng)的時候,把一個問題變成N個問題,每個問題思考代表我們對問題的解決。大數(shù)據(jù)下由于增量和更多不確定性,我們更多需要做綜合分析歸納的方法,對于大數(shù)據(jù)的科學(xué)計算,我們考慮數(shù)據(jù)持續(xù)增長不斷變化特別對高實時的要求下,它的增量計算,以及把過去還原法結(jié)合的新計算。這些問題我們看做是大數(shù)據(jù)計算和新問題,這個也是未來大數(shù)據(jù)處理當(dāng)中我們的理解和認識。

  第二個問題就是關(guān)于計算機學(xué)科的基本問題。我們計算機做當(dāng)中我們說這事情能不能算,對計算機人來說不是所有問題都能算的,只有能算的問題才配得上拿計算機算,就像我們保密、加密以10的一次方,六一次方在一定時間內(nèi)不可算的問題。我們研究基本問題這個電視能不能計算,我們說有五個城市能不能不重復(fù)的走遍每一點,這是我們傳統(tǒng)說TSP,不存在一種算法使得你完成一遍一遍不走其他路,比如說電路板設(shè)計,都有很多不可計算的,算法是我們搞計算機基礎(chǔ)問題,是不是能計算。

  從過去有計算機以來,應(yīng)該說算法研究一直是計算機科學(xué)的根本問題,我這里只列出來從70年代到90年代有10位圖靈獎的獲得者,他們在算法和重要歷史階段獲得了計算機的最高獎,叫圖靈獎。發(fā)現(xiàn)有些問題算不了,大家知道60年代美國做了長期研究工作,其中一條和治療癌癥,登月計劃同樣重要的計劃。算法方面研究是計算機重要的研究,大數(shù)據(jù)的時代計算復(fù)雜度和算法都有新問題。最基本原因我們非常清楚數(shù)據(jù)量如此之大,所以的機器和算法存儲能力都被占滿。因此作為計算機的工作者面對大數(shù)據(jù)下和新的計算模式面對新的問題,數(shù)據(jù)不可計算和存儲下有沒有新手段支持。

  我們過去研究問題我跟大家在這里報告,目前大家全球最快硬盤讀取速度是每秒6個GB,這是線型掃描,掃描一個PB的數(shù)據(jù)要將近兩天,一個EB需要五年多,而百度一天處理網(wǎng)頁數(shù)量10個PB,19天你才可以把它掃描完的東西還不考慮后面的處理,顯然這方面工作大數(shù)據(jù)是大的災(zāi)難,但是對研究有很多新機會。我上邊這張圖就是以世界最快掃描設(shè)備讀取最快的磁盤來說,要19天完成對它的掃描量。這樣問題大數(shù)據(jù)傳解一定是一個難問題,因此明明知道大數(shù)據(jù)已經(jīng)給我們帶來新的問題,它傳統(tǒng)的計算復(fù)雜性在當(dāng)下要求掃描完1.9TB,要求我們一分鐘就要看到一個數(shù)據(jù),怎么定義?怎么分析?如何研究?就帶來很多問題。這些問題應(yīng)該會對過去50年來計算復(fù)雜性算法一個重要問題。

  我這里給一張圖12年前著名的會議上談?wù)摰氖虑椤N覀兛吹娇v軸是測試數(shù)據(jù)的準(zhǔn)確率,橫軸是數(shù)據(jù)規(guī)模,隨著規(guī)模增大,在小數(shù)據(jù)樣本下好算法和壞算法差異不是太大。及時是壞的算法我看縱軸1坐標(biāo)下排到80%以下的識別率算法,隨著數(shù)據(jù)規(guī)模10倍100倍1000倍變化,已經(jīng)接近最好的算法,算法的簡潔等要做處理。這樣給我們帶來重新對我們復(fù)雜性分析設(shè)計的新問題。我們科學(xué)問題第二個情況下我們不僅過去我們考慮算法研究F的,收入是S,用F做函數(shù)得出是一個結(jié)果,過去考慮F設(shè)計如何好就可以了,現(xiàn)在S不是量的變化而是質(zhì)的變化下來,它對算法的影響,小數(shù)據(jù)算法的好壞特別重要,大數(shù)據(jù)下算法數(shù)據(jù)受到相當(dāng)大的影響。

  這個必須考慮算法和數(shù)據(jù)本身不斷動態(tài)變化如何找到和它最能逼近最近似有效的方法,這個要考慮在大數(shù)據(jù)計算當(dāng)中如何找到平衡點,這個平衡點需要我們在數(shù)據(jù)量算法數(shù)量三者考慮,現(xiàn)在F和S疊加起來考慮問題對于我們新系統(tǒng)設(shè)計就要求非常多,這樣對我們計算有很多問題。

  第三個問題就是大數(shù)據(jù)下數(shù)據(jù)沒辦法表示,大部分用新數(shù)據(jù)表示,在當(dāng)前運用當(dāng)中都不使,當(dāng)我們一維10維到三千萬維這些數(shù)據(jù)我們處理怎么表示。所以這些問題我們需要從傳統(tǒng)計算模式走出來,第二我們對于高維空間抽取的特征以及對于計算重新認識和量化。

  我們看我們現(xiàn)在寫微博很簡單,到后臺計算機處理當(dāng)中你現(xiàn)有方式持續(xù)不了,這個也是重要研究的機遇問題,表示、計算、異構(gòu)高于數(shù)據(jù)。我們現(xiàn)在計算手段只能簡單的存儲,特別是每一天過去都會帶來很多新問題。針對數(shù)據(jù)規(guī)模大,種類雜、變化快的云計算對數(shù)據(jù)的分析和挖掘也還有新問題。比如說我們現(xiàn)在中國有四大微博系統(tǒng),對于過去挖掘只在一大微博系統(tǒng),對同一事物理解我用語言用文字用聲音圖像不同方式表現(xiàn)出來,如何在跨越之間表示聯(lián)動性,如何在不同領(lǐng)域遷徙。過去在單一的挖掘,從小樣空間做的數(shù)據(jù)非常漂亮,在廣域不斷擴展規(guī)模下數(shù)據(jù)處理能力,分析綜合能力都遇到很多問題。所以對數(shù)據(jù)理解和分析就很重要。給了這么多數(shù)據(jù)你分析的結(jié)果為什么是有效可信的,所以對數(shù)據(jù)本身的理解也變了,數(shù)據(jù)的可視化更重要給出我們對多元數(shù)據(jù)異構(gòu)類的數(shù)據(jù)給出直觀可視的結(jié)果,這個也是我們對大數(shù)據(jù)模式下研究的問題。對于云計算下大數(shù)據(jù)和云計算本身我們思考云計算是一種計算模式,背后處理是重要的,隨著應(yīng)用發(fā)展云計算的服務(wù)質(zhì)量一定會重要成為研究的內(nèi)容,挖掘有效信息,糾正不確定的信息,并且能夠把多樣性的數(shù)據(jù)進行結(jié)合,也許也是今后大數(shù)據(jù)下它的服務(wù)質(zhì)量一種新的挑戰(zhàn),包括智能的搜索,我們以前是關(guān)鍵詞、文檔搜索進入社會網(wǎng)絡(luò)當(dāng)中,實際上開始進入(英文),這種新搜索模式也是所有互聯(lián)網(wǎng)公司發(fā)展重要的內(nèi)容。

  第四個重要問題就是關(guān)于可信和隱私。我這里是幾前年的例子,當(dāng)時有一家公司他可以根據(jù)你上網(wǎng)的習(xí)慣,除了名字沒有特別挖掘到,他知道他是建筑師住在什么地方,他家里人口結(jié)構(gòu),以及最近他的購買習(xí)慣。我們知道西方人的生日和他購買習(xí)慣直接關(guān)聯(lián),這些數(shù)據(jù)是絕對個人隱私,你在網(wǎng)上任何一個單位,提供家庭住址和個人的生日號碼的時候是違法是被禁止的,所以通過這樣一個網(wǎng)站分析我們可以看到,他可以把你很多相關(guān)信息都給挖掘出來。同時在社會網(wǎng)絡(luò)當(dāng)中也有很多被利用作為敏感信息的發(fā)現(xiàn),因此未來當(dāng)大數(shù)據(jù)更多的在分析和應(yīng)用之后,我們知道百度可以知道你上網(wǎng)行為,你思考的關(guān)注點可能性。你在淘寶的行為知道你購物習(xí)慣,在微博更多了解你在這個領(lǐng)域的思維情況,關(guān)于可信和隱私也是未來關(guān)注的問題。

  如果說我們曾經(jīng)有過互聯(lián)網(wǎng)的快速發(fā)展基于信息服務(wù)業(yè)的話,那么未來圍繞大數(shù)據(jù)或者現(xiàn)在的名字還叫云計算,那么新的虛擬計算模式是重要的,基本標(biāo)志就是數(shù)據(jù)服務(wù)成為越多產(chǎn)業(yè)技術(shù)和研究重要的內(nèi)容。計算模式的變遷可能造成時代變化。在現(xiàn)在探討中國互聯(lián)網(wǎng)新的價值和它的科學(xué)價值或者產(chǎn)業(yè)價值的時候,我覺得這里有我們很多機遇,我想我們也會努力探索這方面的工作。

  謝謝各位!

分享到: 收藏

專題