
IBM首席數(shù)據(jù)官(CDO) Inderpal Bhandari指出,“神經(jīng)網(wǎng)絡(luò)(Neural network)已經(jīng)存在很長一段時(shí)間了。最新的進(jìn)展是我們必須為其處理大量的資料,以及強(qiáng)化與其有關(guān)的工程實(shí)力。”
他描述采用“生成對抗網(wǎng)絡(luò)”(GAN)的研究進(jìn)展指出,透過讓兩種神經(jīng)網(wǎng)絡(luò)相互競爭,可望創(chuàng)造出更好的神經(jīng)網(wǎng)絡(luò)。“這是一種導(dǎo)引出更多算法的工程思考——現(xiàn)在已經(jīng)因此而激蕩出很多關(guān)于神經(jīng)網(wǎng)絡(luò)方面的工程技術(shù)了。”
從某些方面來看,這些算法可用于預(yù)測未來的硬件。例如,Dun & Bradstreet的首席資料科學(xué)家Anthony Scriffignano指出,“量子(quantum)算法將會變得越來越熱門,因?yàn)楫?dāng)這類算法成功可用后,就能用于執(zhí)行一些量子計(jì)算機(jī)才能做的事。”
“深度信念網(wǎng)絡(luò)”(DBN)是另一種熱門的新興途徑。Scriffignano將其定義為“一種非漸進(jìn)式方法,能夠讓你一邊學(xué)習(xí)一邊修正目標(biāo)與目的,因而具有明日神經(jīng)形態(tài)計(jì)算機(jī)的特性,”并形成一種適于仿真人腦的系統(tǒng)。
美國斯坦福大學(xué)(Stanford University)計(jì)算機(jī)科學(xué)教授Christopher Re開發(fā)的通用數(shù)據(jù)深度探勘工具——DeepDive算法一直備受關(guān)注。該校數(shù)據(jù)科學(xué)計(jì)劃主管Stephen Eglash指出,這種算法有助于讓計(jì)算機(jī)更易于了解并使用文本、表格和圖表等非結(jié)構(gòu)化的數(shù)據(jù),就像掌握關(guān)系數(shù)據(jù)庫或電子表格一樣輕松。
“現(xiàn)有的數(shù)據(jù)大部份都是非結(jié)構(gòu)化或半結(jié)構(gòu)化的。例如,我們可以輕松地讀取規(guī)格表,但計(jì)算機(jī)卻很難像我們一樣理解。”

20170710_bigdata_NT31P1以一種DeepDive程序理解基于知識建構(gòu)的非結(jié)構(gòu)化數(shù)據(jù)
Deep Dive已經(jīng)用于協(xié)助腫瘤學(xué)家以計(jì)算機(jī)解釋腫瘤照片。此外,美國紐約檢察總長也用它作為執(zhí)法工具。至今,它已經(jīng)應(yīng)用在各個(gè)不同領(lǐng)域的許多公司了。
Eglash說,DeepDive之所以如此獨(dú)特,部份原因在于“它能辨識并標(biāo)記所有的數(shù)據(jù),然后用學(xué)習(xí)引擎和概率技術(shù)來確定數(shù)據(jù)的意思。”
盡管這種途徑十分成功,但它只是近來學(xué)術(shù)界開發(fā)的多種算法之一。其他算法有的專注于計(jì)算機(jī)視覺(computer vision)等領(lǐng)域,或嘗試在實(shí)時(shí)數(shù)據(jù)串流中找出異常之處。Eglash強(qiáng)調(diào),“如此就能讓我們持續(xù)進(jìn)行更深入的研究。”
掌握有趣的數(shù)據(jù)集
讓開發(fā)人員腎上腺素飆高的部份原因,就在于他們必須從現(xiàn)實(shí)世界中取得有趣的數(shù)據(jù)集。GE Digital的Predix云端工程負(fù)責(zé)人Darren Haas聲稱在這方面取得了優(yōu)勢。
Haas說:“我想有些人可能沒機(jī)會看看我們所提供的數(shù)據(jù)。我們從飛機(jī)、衛(wèi)星和火車取得了高達(dá)數(shù)千兆字節(jié)(petabyte)的傳感器資料。如果將這三者關(guān)聯(lián)起來,就可以提供很多信息,例如農(nóng)場或紅杉樹看起來健康或是病了。”
Hass原本任職于蘋果(Apple),負(fù)責(zé)部署其中一項(xiàng)最大的Hadoop,用于執(zhí)行像Siri等任務(wù)。他說GE Digital已經(jīng)從亞馬遜(Amazon)、Facebook和Google吸收到編程人才,“當(dāng)我展示我們正著手進(jìn)行的數(shù)據(jù)集時(shí),他們都感到十分震驚。”
事實(shí)上,位于加州的通用電氣(GE)軟件部門已經(jīng)從幾年前約800個(gè)編程人員,迅速增加到目前約有2,000人了。
Haas個(gè)人喜歡的一種編程語言是Go。這是少數(shù)幾種已編譯的編程語言之一,如Elixir和Erlang一樣,現(xiàn)在重新獲得了機(jī)器學(xué)習(xí)(machine learning)開發(fā)人員的再度關(guān)注。
“在實(shí)作層,我一直鼓勵(lì)自家團(tuán)隊(duì)使用Go,”Haas指出,GE也定期舉辦Go語言的聚會。“它已經(jīng)過編譯了、速度快、涵蓋各種應(yīng)用,而且更有效管理內(nèi)存。我還教12歲的兒子學(xué)Go呢,因?yàn),我認(rèn)為這是未來的趨勢。”
像Go這樣的編譯語言確實(shí)適用于執(zhí)行環(huán)境。
他說:“如果您需要串流數(shù)據(jù)或事件中樞,全部都以Go來寫最恰當(dāng)不過了。”相形之下,“我看到的每一個(gè)Node.js項(xiàng)目在四個(gè)月后都得重新編寫。”
也就是說,“很多人都大量使用Python。我認(rèn)為它是機(jī)器學(xué)習(xí)的主流,適合數(shù)據(jù)分析、擷取數(shù)據(jù)和建構(gòu)模型……等等,而且,Matlab的R也很重要。”
無論是哪一種語言,重要的發(fā)展趨勢就是自動(dòng)化功能。
“很多人都用數(shù)據(jù)科學(xué)家說的‘何者正確與否’,以手動(dòng)策劃數(shù)據(jù)集與模型。”Haas說:“但我們想用串流、偵測異常的方式進(jìn)行,在封閉的反饋回路中通知用戶。”