亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

首頁 > 專題 > 文思海輝-乘數(shù)據(jù)之舟-達價值彼岸 > 數(shù)據(jù)應(yīng)用之道--大數(shù)據(jù)在銀行業(yè)的應(yīng)用(蘇州站)

數(shù)據(jù)應(yīng)用之道--大數(shù)據(jù)在銀行業(yè)的應(yīng)用(蘇州站)
2014-12-08 15:07:24   評論:0 點擊:

  隨著中國金融市場的快速發(fā)展,互聯(lián)網(wǎng)金融對傳統(tǒng)金融行業(yè)的競爭,以及監(jiān)管力度的不斷加強,IT咨詢服務(wù)公司對金融企業(yè)的商業(yè)智能方案也面臨不斷創(chuàng)新。如何提升金融機構(gòu)在管理、盈利、風(fēng)險控等多方位的能力?如何將國際經(jīng)驗更好的為中國市場服務(wù)?如何通過解決方案將海量數(shù)據(jù)轉(zhuǎn)化為對經(jīng)營決策有價值的信息之路?如何將客戶智能分析成果行之有效地運用于服務(wù)渠道,并最終轉(zhuǎn)換為銷售業(yè)績?為解決中國金融機構(gòu)在發(fā)展中所面臨的新問題,文思海輝在西安、蘇州、北京、成都、深圳五地舉辦了6場“乘數(shù)據(jù)之舟,達價值彼岸”系列活動。

  在主題為“乘數(shù)據(jù)之舟,達價值彼岸”的文思海輝商業(yè)智能解決方案系列研討會蘇州站現(xiàn)場,文思海輝商業(yè)智能高級服務(wù)總監(jiān)符海鵬先生分享了大數(shù)據(jù)在銀行業(yè)的應(yīng)用。



文思海輝商業(yè)智能高級服務(wù)總監(jiān) 符海鵬

  以下為演講實錄:

  各位領(lǐng)導(dǎo)、各位專家大家下午好,這里我人頭最熟,大部分都是我的老朋友,當(dāng)然有很多遠道而來的新客戶,今天是由我來跟大家一起分享一下我們文思海輝對大數(shù)據(jù)的理解包括我們整個的能力。

  確實我們這次請的客戶主要是來自于華東跟華東區(qū),從直接負責(zé)的角度來講,都是由我來負責(zé)的,我必須要跟大家做一下自我介紹,我叫符海鵬,背景跟剛才講話的兩位領(lǐng)導(dǎo)是一模一樣的,在這樣一個領(lǐng)域里面,應(yīng)該說我們這些人在這個領(lǐng)域上工作了有十幾年,隨著大數(shù)據(jù)包括新的互聯(lián)網(wǎng)發(fā)展,我相信我覺得我們這幫人可能會在這個業(yè)內(nèi)做一輩子,應(yīng)該沒有大的問題。

  今天跟大家講的是大數(shù)據(jù)的一個分享,但在大數(shù)據(jù)領(lǐng)域,其實我這個課題非常難講,坦誠講在我們金融行業(yè),大數(shù)據(jù)真的使用并沒有那么多,案例從分享來講,包括客戶聊,大家都在問我們,我們到底用大數(shù)據(jù)做什么,我們以前有數(shù)據(jù)倉庫,我們以前有數(shù)據(jù)挖掘,有這些分析我們到底做什么,我有一個大的思路,第一個我們做事情不會去促成方圓,我們做的事情第一個首先有個理論,先講一下,站在我個人的角度上,我是如何看待這個大數(shù)據(jù),第二件事情,我們通過技術(shù),在座的更多的是我們科技部門的人,我們做技術(shù)是要依托于業(yè)務(wù),業(yè)務(wù)有一個原始的需求會擋住我們的發(fā)展,我會先講一下,我們的典型應(yīng)用,我們的領(lǐng)導(dǎo)也談到了一些內(nèi)容,第三個層面回歸技術(shù),我們技術(shù)上如何實現(xiàn)這些業(yè)務(wù),我會把一些架構(gòu)圖跟大家做一些分享,其實昨天我還在中國銀行做了一次技術(shù)上的分享,他們也比較極端,中國銀行會有一些歷史的背景,比如他們沒有統(tǒng)一的數(shù)據(jù)倉庫,沒有統(tǒng)一的ODS,大的業(yè)務(wù)每個業(yè)務(wù)條線都是自己的行為來去做數(shù)據(jù)的規(guī)劃,現(xiàn)在就想彎道超車,一步性的做一些ODS,直接想大數(shù)據(jù)去做,昨天我們也做了一些技術(shù)上的討論,跟他們做了一些分享。

  最后其實在大數(shù)據(jù)引用,在這個領(lǐng)域說我們其實很講跨界整合,這個領(lǐng)域上我們文思海輝跟我們的電信運營商,甚至包括我們的學(xué)校,也包括我們互聯(lián)網(wǎng)等等相關(guān)的協(xié)議已經(jīng)有些初步的合作跟嘗試,我們會把這個情況跟大家介紹一下。最后有一點小小的建議,跟各位領(lǐng)導(dǎo)跟各位專家我的一些建議,我的一些想法跟大家分享一下。首先講一下理論研究,其實這個都不用看,大家天天聽課已經(jīng)會有一些基礎(chǔ)的定義我有一個理解,其實大數(shù)據(jù)我分成兩個大層面,第一個叫廣義大數(shù)據(jù),第二個叫狹義大數(shù)據(jù),廣義大數(shù)據(jù)是我們所有人都在談,不光是我們做科技的人,我們做外面的人,我們的銀行行長也好,各個業(yè)務(wù)人員也好,我們要用大數(shù)據(jù),實際上這是個業(yè)務(wù)數(shù)據(jù),不是技術(shù)數(shù)據(jù),另外一個層面從狹義上講它是個技術(shù),我們看一下廣義大數(shù)據(jù)的定義,其實這個定義大家應(yīng)該都知道,如果我們排掉它的四個微屬性定義,不去看它的四個微屬性定義,五個微、六個微屬性定義,其實它跟我們原來講的統(tǒng)計分析數(shù)據(jù)倉庫、數(shù)據(jù)挖掘這個有多大區(qū)別,無非就是一個從數(shù)據(jù)到信息的一個轉(zhuǎn)換過程,同時把這個過程轉(zhuǎn)換為行動的決策,并且是一個閉環(huán)的流程,從理論上來講,跟我們以前所有的概念是一樣的。更強調(diào)的是說把我們現(xiàn)在這些數(shù)據(jù),把它變成我們可用的信息,并且去談?wù)摏Q策,這是它的主要方向,它是一個量化的進程。

  為什么現(xiàn)在開始流行,以前我們天天跟大家講我們是做數(shù)據(jù)分析,我們做數(shù)據(jù)倉庫,我們做管控,現(xiàn)在開始流行確實是有原因的,第一個方面是數(shù)據(jù)分析,理論上講數(shù)據(jù)分析的重要性越來越大,第二其實我個人還是有技術(shù)上的原因,從技術(shù)上的原因上講,我們把它歸類為狹義大數(shù)據(jù),我們IT,我們做技術(shù)人員一直在講的狹義大數(shù)據(jù)上的概念,從狹義上大數(shù)據(jù)有幾個關(guān)鍵詞,第一個關(guān)鍵詞是互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng),它導(dǎo)致了我們更多的人產(chǎn)生了數(shù)據(jù),第二物聯(lián)網(wǎng),手機其實也是屬于物聯(lián)網(wǎng)的范疇,我們現(xiàn)在經(jīng)常在外面聽到智能小區(qū)、智慧城市等等等等這些,它是由于我們的物,我們的物聯(lián)網(wǎng),甚至我們的傳感器任何一個東西,它都是一個物聯(lián)網(wǎng)的概念。由于他倆會產(chǎn)生更多的數(shù)據(jù),而且數(shù)據(jù)的種類是更豐富的,非結(jié)構(gòu)化、半結(jié)構(gòu)化,而不像原來更多的存儲的是結(jié)構(gòu)化的數(shù)據(jù),所以在這個領(lǐng)域上它是有些不同的。第二個有一個發(fā)展,云計算跟云平臺,如果說從狹義的技術(shù)角度來講現(xiàn)在經(jīng)常腦子里聽到的Hadoop,它其實從本質(zhì)上它是一個云計算跟云平臺的概念的理論運作,我更確切的講理論歸理論,在我們金融行業(yè)里面,真正談的聊的更多的是兩個東西,第一個是傳統(tǒng)分析數(shù)據(jù)的替代,我們原來有很多的數(shù)據(jù)庫,Oracle也好、DB2也好,更多的一體機也好,從一個角度來講我們更多思考的是說我們?nèi)绾斡酶玫脑O(shè)備,我們用更好的技術(shù)去滿足傳統(tǒng)分析數(shù)據(jù)替代的問題,第二個問題其實新的業(yè)務(wù)模式,這個才是真正意義上大數(shù)據(jù)的本質(zhì),本質(zhì)上大數(shù)據(jù)我們要解決的是新的業(yè)務(wù)模式和數(shù)據(jù)多樣性的問題,這個問題在金融領(lǐng)域上,或者講銀行領(lǐng)域上還沒有更多,但是很多的銀行,比如說我們講,剛才尹總也講了蘇州銀行的嘗試跟創(chuàng)新,我們見過平安銀行的嘗試跟創(chuàng)新,在這個領(lǐng)域上我們其實也看到他們有很多的案例,等會兒我們會舉兩個案例給大家看一下。

  我們從具體來講,技術(shù)來講跟以前到底有什么不同呢,我自己歸類,我把它歸類大概四個層面,第一個層面就是數(shù)據(jù)類型跟海量數(shù)據(jù)的問題,原來我們其實說,我們不能存非結(jié)構(gòu)化數(shù)據(jù)跟半結(jié)構(gòu)化數(shù)據(jù),是可以的,但事實上,而且它占的量很大,從傳統(tǒng)意義上來講至少一個統(tǒng)計,非結(jié)構(gòu)化數(shù)據(jù)占85%,結(jié)構(gòu)化數(shù)據(jù)占15%,這個東西是不可以存,但是我們能分析,完全按照一個影像文件去做,一個人臉怎么去做識別,需要多大的量才能去做這個事情,這是我們要解決的第一個問題,所以我們看的數(shù)據(jù),其實相對來說是殘缺的,我們?nèi)绷撕艽笠徊糠謹?shù)據(jù),第二個層面是識別海量數(shù)據(jù)的性能問題,現(xiàn)在其實快餐社會,什么東西都講快,從性能角度來講,傳統(tǒng)的數(shù)據(jù)庫也好,包括分析技術(shù)也好,可能不太能滿足我們的需求,從第二個層面來講,并且我們的渠道上我們也要隨時隨地獲取相關(guān)的信息,第三個層面也是比較關(guān)鍵,性價比,如果從絕對意義上來講,大家很多是我們一體機的客戶一體機的客戶,從絕對意義上來講,我們在結(jié)構(gòu)化數(shù)據(jù)這個層面上,我們是可以采用一些更好的設(shè)備去滿足我們對這種海量數(shù)據(jù)的分析需求,我們舉個例子工行、建行都屬于我們一線銀行,在硬件這個曾經(jīng)面要投數(shù)據(jù)分析的設(shè)備,而我們有這個,說老實話在工行、建行這個企業(yè)上也受不了這樣一個投入,而在這個基礎(chǔ)上,我們?nèi)绻M義大數(shù)據(jù)的基礎(chǔ)上,確實有些方式讓我們整個性價比變得非常好,這也是我們一個非常要考慮的問題,第四點我們的銀行其實現(xiàn)在科技部門越來越大,在這個領(lǐng)域上,所有的技術(shù)都是開源的,無論我們是不是有商業(yè)的版本,他所有的最底層的技術(shù)全部是開源的,如果我們的銀行,我們的客戶我們有些技術(shù)能力,甚至我們有些阿里的高端技術(shù)人員,底層技術(shù)的掌握跟我們的實力在自儲,我們現(xiàn)在逐漸要求我們每個銀行都自儲,在自儲化的角度上我們可以得到一些幫助,從四個領(lǐng)域上我們看整個技術(shù)跟我們原來的方向是不太一樣的。

  狹義上的數(shù)據(jù)從現(xiàn)在的角度上來講,無論大家看到各種廠商包括我們自己也好,所有的基礎(chǔ)版本都是我們講Hadoop這個版本,它的建設(shè)Hadoop從我的角度來看,它實際上從技術(shù)上來講有幾個大的關(guān)鍵點,第一個它是一個開元式分布式的計算框架,它不是數(shù)據(jù)庫,Hadoop本質(zhì)上不是數(shù)據(jù)庫,只是我們在用的角度來講,更容易把它作為數(shù)據(jù)庫來用,常年在使用數(shù)據(jù)庫,作為底層角度來講它是分布式的計算框架,我們在某一些銀行,前不久在上海銀行做了一些網(wǎng)銀日志分析,半結(jié)構(gòu)化的數(shù)據(jù),查詢等等這樣的數(shù)據(jù),大家可以看到我們在底層寫的代碼全部都是我們JAVA的代碼,包括我們有一些人臉識別的技術(shù)都是不在底層的,它更多的是說把我們原來在單機上運行或者高端服務(wù)上運行的東西放在了一些更廉價設(shè)備上做一個分布式的計算,它本意上它是分布式的計算框架,而且是開元式的。第二它能解決的是海量數(shù)據(jù)的問題,單機我們都可以用,但一到海量整個所有的性能跟所有的技術(shù)架構(gòu)都是不一樣的,所以海量性能它是有它的優(yōu)勢,包括處理,在第四個層實施面線性擴展能力,在原來傳統(tǒng)意義上線性擴展是很難做的,我們要做很多HER等等相關(guān)的事情,很難做,而在這個領(lǐng)域上天生就會去考慮整個線性的擴展問題,我們加一些設(shè)備性能會提升一倍兩倍三倍,總是有些方法去做。第四個也是我個人認為比較關(guān)系,我們有機會自己做一些基層研究,可以使用相對廉價的設(shè)備,目前為止我們現(xiàn)在在這個領(lǐng)域上用的機器從來不會用小型機或者更高級的,全部是PC服務(wù)器,如果在生產(chǎn)的環(huán)境上。而在更底層,完全可以用一個虛擬機,我們甚至可以用PC機,個人PC機都可以做這個事情,所以更廉價的設(shè)備達到我們原來要花很大精力去做的事情,這是它的性價比的問題。

  從技術(shù)上很多核心的產(chǎn)品Hadoop,所有外圍的一圈,很亂的內(nèi)容,我稍微描述一下,所有的都是圍繞著這個核心最后做演變,等等內(nèi)存的東西全部都是基于這個版本來做的。那我們簡單講一下理論體系,大家聽的很多,簡單的講大數(shù)據(jù)本身它是一個業(yè)務(wù)的概念,而在我們的技術(shù)上更多是一個技術(shù)概念,所以我們跟我們的業(yè)務(wù)部門溝通的時候,其實不用去談Hadoop,更多的是如何去發(fā)揮用我們相對更廉價的設(shè)備,更好的方法去讓我們的業(yè)務(wù)價值更多的提升。

  再往下看一些應(yīng)用,應(yīng)該不會太講,但是我還是要把這個強調(diào)一下,在這個領(lǐng)域上我們更多是要挖掘所謂銀行業(yè)在應(yīng)用的類型,如果我們現(xiàn)在從廣義大數(shù)據(jù)的角度來看,其實它跟我們原來做數(shù)據(jù)分析并沒有太大的區(qū)別,如果從數(shù)據(jù)分析這個領(lǐng)域上銀行是固定的,我們該做的事情是固定的,剛才兩位領(lǐng)導(dǎo)都提到了,其實我們無非是在客戶管理、風(fēng)險、財務(wù)、運營、監(jiān)管等等去做相關(guān)的數(shù)據(jù)分析,而且這個業(yè)務(wù)是非常熟悉的,特別在銀行領(lǐng)域,我以前在跟別的企業(yè)去聊的時候,他們其實沒我們這么成熟,我們光把我們所有相關(guān)東西做完就要花很長時間,只是說大數(shù)據(jù)可能讓我們的效率更好,也可能讓我們花的代價更小,在這個領(lǐng)域上我們會做一個總體的,從業(yè)務(wù)上跟業(yè)務(wù)部門先打通。

  從具體來看,剛才領(lǐng)導(dǎo)也放了這張圖,從具體來看這實際上是國外頂級的,他會從業(yè)務(wù)和技術(shù)兩個層面來看我們在大數(shù)據(jù)到底能做什么事情,比如說在業(yè)務(wù)領(lǐng)域上,我們有風(fēng)險管理的一套流程,我們在業(yè)務(wù)領(lǐng)域上有客戶分析,有客戶體驗,純技術(shù)上,我們有歷史數(shù)據(jù)存儲管理,運維優(yōu)化,結(jié)構(gòu)化數(shù)據(jù)的存儲,以及包括我們整個數(shù)據(jù)挖掘的相關(guān)技術(shù),但事實上我們真正看下來,我們一天跟客戶打交道,大家會提問我們怎么實現(xiàn),更多在兩個領(lǐng)域,第一個領(lǐng)域客戶分析與營銷,第二個領(lǐng)域是技術(shù)的歷史存儲與管理,更多的是在這兩個領(lǐng)域,原因很簡單,因為客戶分析營銷,而且數(shù)據(jù)量是非常大的,極高的要求采用新的技術(shù)去解決我們原來的問題,再細化,在座的有很多是信用卡領(lǐng)域的同事,也是因為它是零售,零售的客戶量很大,業(yè)務(wù)角度來講,我們更多是從業(yè)務(wù)角度看我們的技術(shù)如何為他們提供服務(wù),第二是科技,我們科技里面大行幾百個T,小行幾十個T,在這個領(lǐng)域上我們傳統(tǒng)數(shù)據(jù)庫真正花的代價比較大,包括性能,我的印象中我們的某些行都做不到T+1數(shù)據(jù)的架構(gòu),甚至T+2、T+3,我們的一些大行。其實在這個領(lǐng)域如果我們采用新的技術(shù)可以解決這個問題,所以盡量問一下,我們是否能用Hadoop這種技術(shù),包括狹義大數(shù)據(jù)解決歷史數(shù)據(jù)存儲管理的問題,在兩個問題上是我們一定要去研究的。

  其實這個過程我們做這些事情的過程是什么,大家看到最上面的這些東西一樣,跟我們做傳統(tǒng)數(shù)據(jù)是一模一樣的,數(shù)據(jù)采集、數(shù)據(jù)清理、數(shù)據(jù)存儲與管理,數(shù)據(jù)分析、數(shù)據(jù)展示,數(shù)據(jù)做應(yīng)用,這跟我們原來實際上是一模一樣的,也有很多廠商,這些廠商我會簡單介紹,在這些廠商里面,如果從狹義性來講,大部分都是Hadoop底層的平臺來做,文思海輝是什么定位,文思海輝是把我們更多的從采集到清理,到分析到數(shù)據(jù)顯化整個過程我們做一個綜合的整合,這是我們的一個整體文思海輝的定位。

  下面我就具體舉例子,從業(yè)務(wù)角度來講,技術(shù)實現(xiàn)是合適的模式。我們跟某個銀行一起合作做的這樣一個叫精準研究之LBS信用卡營銷,它是做什么的,真正意義上做地理位置信息和信用卡的綁定,包括未來做營銷整套流程的東西,首先他做的第一件事情把地理位置跟客戶先做綁定,每個客戶在哪里,它的區(qū)域在什么地方,區(qū)域是什么樣子的,是高端小區(qū)還是低端小區(qū),客戶屬性一個大的補充,同時我根據(jù)這些所有的相關(guān)屬性我把客戶分成ABC,某些客戶是要干什么事情,在這個領(lǐng)域上我們做第一件事情就是要把這些信息綁在一起,你們會發(fā)現(xiàn)我們就難了,我按照以前的做法如何把地理位置放在客戶屬性里面去,如何把這個客戶的周邊的關(guān)聯(lián)信息放在一起,我是我們很難做的事情,本身我可以把結(jié)構(gòu)化,非結(jié)構(gòu)化、半結(jié)構(gòu)化所有的數(shù)據(jù)搭在一起,在這里天生的關(guān)聯(lián)在一起,在這個領(lǐng)域上經(jīng)常會使用這樣的技術(shù)。

  再往下看,我們一旦把客戶跟地理位置的信息綁定好,我們可以做什么事情,從業(yè)務(wù)的角度來講,社區(qū)銀行,特別是對我們中小銀行來講,社區(qū)化服務(wù)對我們是非常重要的,我們跟大行去競爭大的企業(yè)會比較難,我們在社區(qū)銀行包括營銷區(qū)的選擇上,我們就可以做考量,我們是否要在一些高價值的客戶,包括一些高的情況下去設(shè)計社區(qū)銀行,我們就可以做相關(guān)的事情。再往下你有的地理位置,你有客戶的信息,周邊的所有商戶你也知道,我們把所有的商圈做一些行為的分析,一個萬達廣場,萬達的周邊到底有哪些商鋪,那些商鋪到底給哪些客戶提供價值,這個信息也是我們業(yè)務(wù)部,我們?nèi)绾伟堰@些信息獲取出來。最后我在這個商區(qū)里面發(fā)生一件事情,比如說我在萬達廣場的一家電影院里我買了一張電影票,到了7點鐘我的銀行就要求,形成主動訴求,我要把周邊吃飯的打折信息發(fā)給他,這是真正營銷的閉環(huán)思路,做這件事情大家看到我們業(yè)務(wù)既然會談的事情,站在技術(shù)角度怎么去做,這是我們事件營銷典型的案例,這就需要非常綜合的方案,一二三四五六七八九畫了很多這樣一些圓圈,從這個圓圈來看,我們做這種事情,第一個我們剛才講的,我刷一張卡馬上短信告訴我,這叫什么,它都是一些流失的過程發(fā)過來,在這個領(lǐng)域上我們要做什么,技術(shù)上我們要實時的解決方案,我們不能通過傳統(tǒng)的數(shù)據(jù)庫太慢,我同時有這么多人在刷卡,我們就會實時的解決方案。再往下我們有一個輸出,前面都是數(shù)據(jù)的第一步的獲取,再往下是我們傳統(tǒng)的我們要什么,我們做任何一個客戶的時候,我實際上是拿他的現(xiàn)實行為和他的歷史行為的對比,這時候歷史數(shù)據(jù)存哪里,典型的Hadoop大數(shù)據(jù)平臺上,必然算他的行為,算他的多樣屬性,模型算法,是他的歷史,我一定通過一個實際的響應(yīng)和歷史數(shù)據(jù)這樣一個模式做一個混搭,最后才能把整個流程打通,而在這里傳統(tǒng)技術(shù)確實比較難做的,而在我們現(xiàn)在這個流程上很多流程都可以實現(xiàn)閉環(huán)。

  我們做的這個整個下來,我們知道大概有流處理、后臺的大數(shù)據(jù)平臺,我們做的這個事情之后,數(shù)據(jù)平臺到底放什么數(shù),剛剛講剛才那個案例的時候,我們做一個特偉大的事情就是客戶的屬性,我們不管叫做標(biāo)準也好,叫做模型也好,或者叫客戶360度視圖也好,說白了把人所有的延展周邊的全部打全,曾經(jīng)我跟我的同事,包括Hadoop團隊做了一件事情,我們把這個補的非常的全,我們從傳統(tǒng)意義上講基本信息、聯(lián)系信息、財務(wù)信息、關(guān)聯(lián)風(fēng)險、來往、管理信息管理意義上可能我們從銀行拿的到,但是很多拿不到,我在電信的消費記錄、我在網(wǎng)站的購物行為,以及包括我在某些地方去住一次店等等信息我都拿不到,我們從第一個角度來講所以要設(shè)計一個大而全的信息模型,在我們有機會的情況下,我們會把相關(guān)的數(shù)據(jù)把它買進來,或者怎么樣,去補全整個大圖,這里面的圖從另外一個角度定義,我有兩種定義,一種是比較簡單可以獲取的,基本信息,固定死的,不要做任何計算,登記什么就是什么,他的聯(lián)系信息、財務(wù),包括我們在跟銀行的來往狀態(tài),交易行為,其實有很多是固定不了,包括客戶等級,貢獻度,我們的績效,這一類是我們計算,在我們這個平臺里我們同時要滿足這兩個需求,一個所謂的固態(tài)需求,一個是靜態(tài)的,一個動態(tài)的這兩種需求,我們都要滿足。

  在這個領(lǐng)域上,最后還有一場是數(shù)據(jù)挖掘的一場,他待會兒會講在這個領(lǐng)域上我們在做計算的時候如何通過數(shù)據(jù)挖掘的技術(shù)把客戶的調(diào)查打的更漂亮,把客戶的規(guī)律更好,那里面就會有很多文本挖掘,自然處理,價格預(yù)測、推薦等等,它就會各種各樣的方式去把我們整個客戶的屬性做的更好,我們剛才講過的客戶信息,我自己老是在想這個問題,我們到底在我的數(shù)據(jù)層面上,我們講阿里一天到晚吵著要做銀行,小貸什么都有了,我們要做互聯(lián)網(wǎng)金融,我只能考慮到那么多,從最底層講,從數(shù)據(jù)層面講是有我的考量的,我個人認為從數(shù)據(jù)層面他們更多就是客人信息,我們現(xiàn)在很簡單,如果銀行想去拿個人的消費記錄,真實的在干什么事情,而阿里很容易,反過來來講阿里想拿我們每個人絕對的資產(chǎn)信息,來往信息,到底我存了多少錢,貸了多少款他是拿不到的,在這兩者上更多的是我們做客戶信息的綜合,誰能把這個信息補的更全,誰能把這個信息補的更全誰一定會在整個客戶領(lǐng)域上會抓到更多的客戶,這是我們一個大的考量。

  再往下看我們剛才講的客戶信息,客戶信息再往下其實是傳統(tǒng)基礎(chǔ),我們索愛基礎(chǔ)的信息,還是有一個模型,我們當(dāng)事人也好,機構(gòu)也好,各個層面的協(xié)議也好等等,我們從這個考慮上我們一定要把所有的事情做一個混搭。再往下ETL數(shù)據(jù)抽取,這個領(lǐng)域上我們要看到一件事情并不是所有的數(shù)據(jù)都是好數(shù)據(jù),而且數(shù)據(jù)轉(zhuǎn)換成我們相對使用的模型,原來經(jīng)常講大數(shù)據(jù)把所有的數(shù)據(jù)往里一丟就結(jié)束了,我們使用的過程中ETL還是很重要的,而且在這個領(lǐng)域上現(xiàn)在有很多的方式跟方法,在這里面我們獲取也好,抽取也好,轉(zhuǎn)換也好,我們有固定的流程和方式去做相關(guān)的內(nèi)容。

  再往前看就是大數(shù)據(jù)來源,我其實這個議題特別不好講的原因是這樣的,我們數(shù)據(jù)來源大部分來自于我們自身,但如果說我們真的是,還是給大家一個建議,如果做的好一定要來自你的外部,一旦涉及到你的外部之后,所有數(shù)據(jù)量的行為是不一樣的,很簡單的,社交網(wǎng)絡(luò)一定是PB級,我們?nèi)魏我粋客戶在網(wǎng)絡(luò)上所有的事情一定是PB級,而不像我們現(xiàn)在銀行里面大部分,如果從結(jié)構(gòu)上來講大部分都是TB級,包括整個移動也是PB級,包括一些外部數(shù)據(jù)源的獲取,這些東西都是更大數(shù)據(jù)量,用傳統(tǒng)技術(shù)那幾乎是沒有辦法解決的,在這個領(lǐng)域上我們要考量,如果我們要涉及到外部數(shù)據(jù)獲取的時候我們是要考量,正兒八經(jīng)要采用所謂大數(shù)據(jù)相關(guān)的技術(shù)。

  這里舉了一個案例,剛剛講的業(yè)務(wù)案例今天時間有限,我不能講的更細,數(shù)據(jù)庫的替代,這個不是我做的,這是我一個朋友做的,原來是有一個一體機這樣的設(shè)備,8個小時才能完成每日的處理,做一件事情,我們將耗時所有超長的任務(wù),7、8個,其實就是最長,是影響我整個數(shù)據(jù)倉庫最長線路的任務(wù),然后大量解決了這個問題,從這個案例角度來講,并不是它說現(xiàn)在我們說大數(shù)據(jù)完全可以替代數(shù)據(jù)倉庫,因為它從它的成熟度,包括穩(wěn)定性,包括用戶接口來講還并沒有達到那么完整,但是一些底層低價值的數(shù)據(jù),包括一些大量數(shù)據(jù)加工的情況下,它可以做一些替換,而且這里面的一些技術(shù)都是可以,現(xiàn)在完全可以達到價值認證。

  除了我剛才講的那些理論以外,外面一大圈就是剛才咱們講的數(shù)據(jù)管控,永遠我們有一個議題是說大數(shù)據(jù)還是做數(shù)據(jù)分析,在這個領(lǐng)域上我們整個數(shù)據(jù)管控包括數(shù)據(jù)標(biāo)準源數(shù)據(jù)、數(shù)據(jù)質(zhì)量都是可以得到的相關(guān)的驗證,特別是在源數(shù)據(jù),因為大家講過,我們數(shù)據(jù)走了一個緯度,站在IT角度如何運維,如果作為整條線來調(diào),如果會把來數(shù)據(jù)作為第一個領(lǐng)域,把我整個線路上所有的數(shù)據(jù)鏈路找到,在這個領(lǐng)域上會更關(guān)注源數(shù)據(jù)在大數(shù)據(jù)領(lǐng)域的建設(shè),而且相對來說比較偏技術(shù),我們用很多的方式來做。

  最后我們來討論的問題是數(shù)據(jù)使用安全,這個更頭疼,其實這個東西是有很多考量的,特別是在我們的一些領(lǐng)導(dǎo)層的考慮上,比如說其實在國外,好好的去研究了一下國外對數(shù)據(jù)安全的領(lǐng)域,其實在國外是有法律,包括隱私法、電子通訊法,包括信息記錄法,在國外有很多法律,在國內(nèi)是一片空白,在這個領(lǐng)域上更多的考慮不是這個方面,而是我們記錄上安全性的考慮,我們在銀行上,我們?nèi)绾伪WC我們的數(shù)據(jù)不被外面的數(shù)據(jù)獲取,這個考慮的更多。

  講了典型應(yīng)用,我剛剛講了兩個層面的應(yīng)用,一個是比較新的業(yè)務(wù)層面的創(chuàng)新性,一個是傳統(tǒng)數(shù)據(jù)庫替代的應(yīng)用,這樣來看,我們就要看從科技角度看,我如何看大數(shù)據(jù)的記錄體系,這是我們一個,應(yīng)該是我們已經(jīng)做過一些修改,并且加工整個的技術(shù)信息,中間是我們整個Hadoop的基礎(chǔ),里面東西非常廣,坦誠的講到現(xiàn)在我還沒有能把整個Hadoop所有的開元跟所有的相關(guān)內(nèi)容全部了解到,因為這個領(lǐng)域的發(fā)展特別快,我前兩天還跟一個做數(shù)據(jù)挖掘的同學(xué)談,我說數(shù)據(jù)挖掘比如說R,我的算法能不能直接部署在Hadoop平臺上,當(dāng)時他跟我講不行,大概是半年前,現(xiàn)在我們所有的數(shù)據(jù)挖掘算法挖掘可以直接部署在Hadoop平臺上,直接用并行的方式做,這個領(lǐng)域發(fā)展特別的快,而且在這個領(lǐng)域上像我們的廠商,包括IBM也好,相應(yīng)的發(fā)行方也在發(fā)揮變化,這個領(lǐng)域上是解決了我們第一個大的問題,就是我們數(shù)據(jù)存儲的管理,外圍圈其實都是尋求各路,包括我們自己,我們在里面做了很多研究,在哪幾個層面,第一搜索不行,本身意義上跟搜索一點關(guān)系沒有,所以從搜索引擎這個角度來講,文思海輝在這里面有些企業(yè)我們做了一些項目,把搜索引擎做的比較大。第二數(shù)據(jù)的集成運行,我們有這么多開元的數(shù)據(jù),各種各樣多樣的數(shù)據(jù),我們數(shù)據(jù)如何在這里做集成,如何轉(zhuǎn)換,其實也沒有統(tǒng)一的規(guī)范,文思海輝也是采用了,我們團隊采用了相關(guān)的技術(shù)去把技術(shù)引擎單獨拎成一塊,第四離線分析引擎,因為數(shù)據(jù)量太大,我們必須要把數(shù)據(jù)在晚上算好,當(dāng)天晚上生成報表,當(dāng)天晚上生成一些業(yè)務(wù)接口,跟我們的數(shù)據(jù)做一些結(jié)合,把數(shù)據(jù)分批分量分發(fā)給各個地方,我們會有離線分析。

  第四也是非常重要的,實時替換引擎,在我們這個地方剛才講過了,其實真正意義的大數(shù)據(jù)是讓你做業(yè)務(wù)創(chuàng)新的,不是讓你做數(shù)據(jù)庫替代,原來我們實施非常少,在這個領(lǐng)域上,實時替換引擎也是一定要研究跟探討的。另外兩個領(lǐng)域,整個系統(tǒng)安全,在銀行很講系統(tǒng)安全,其實我們在互聯(lián)網(wǎng),我相信跟各位銀行也接觸過很多,但事實上我們在互聯(lián)網(wǎng)領(lǐng)域,阿里去過很多次,每次問到這個數(shù)據(jù)安全管理的時候,下面的人回答都是相對欠缺的,他們在這方面的考慮并沒有銀行這個體系要求那么嚴格,包括這么多集群的調(diào)配、監(jiān)控、日志管理等等這個方面,文思海輝都要在這里面做更多的努力,包括Hadoop安全的管理。

  再往下就是我們整個解決方案,這個是一個發(fā)行版,這里面更多跟大家講一個建議,因為站在我們科技研究,比如說我們互聯(lián)網(wǎng)也好,包括我們自己研究,更多的是用一些開元的產(chǎn)品,比如說Hadoop延伸,事實上在這個領(lǐng)域上,如果我們針對銀行,我還是建議我們用一些發(fā)行版本,我們也做過大量的POC,跟大量的測試,你會發(fā)現(xiàn)在他們這些版本里面,他們把相關(guān)引擎的Bug,包括一些系統(tǒng)的解決了,針對這個測試性,我會發(fā)給大家。

  再往下我們還是要設(shè)計整體架構(gòu),這跟我們原始項目是非常像的,原系統(tǒng),數(shù)據(jù)交換平臺,大數(shù)據(jù)平臺,分析應(yīng)用平臺,這個其實沒有畫全的,這個是為誰做的,為中行做的,中行沒有數(shù)據(jù)倉庫,我們現(xiàn)在計劃可能想把他們幫ODS方面去努力一下。這個跟大家講一個核心點,絕對不能把大數(shù)據(jù)平臺,這是我的理念包括總公司理念,不能把后面做一個簡單的ODS或者簡單的數(shù)據(jù)存儲這樣一個概念的東西,而更多的要應(yīng)用它的技能性,所以我們做兩件事情,除了建所謂的接口層,我們會把共性加工層和部分口徑跟邏輯移植到大數(shù)據(jù)平臺,我們有一個非常大的團隊,大概在華東大數(shù)據(jù),專門做的事情是什么,把我們原來在數(shù)據(jù)倉庫ODS里面做的業(yè)務(wù)加工口徑去翻譯成現(xiàn)在做的,直接翻譯成Hadoop上做的,我們更多強調(diào)的是,在這個領(lǐng)域我們的架構(gòu)上跟原來的架構(gòu)很相似,更多是把能做計算的部分移植到下面來做。

  在更細節(jié),里面有很多小的細節(jié),今天我不會細說,包括數(shù)據(jù)獲取,實時的獲取,非實時的獲取,里面有很多的組建,包括類似管理,包括驗證,這都是我們要關(guān)注相關(guān)的地方,以及對外我們以及要梳理庫的這種模式,對我們的應(yīng)用做訪問。再講一個議題,這個可能就講的更要一點,就是跨界整合文思海輝的努力,先講第一個,這個實際上我們賈總講的比我更清楚一些,目前為止文思海輝其實作為一個所謂的服務(wù)商,或者這樣的一個中介商,我們其實也是在探討在這個領(lǐng)域上如何和別人合作,我們其實在電信運營商做了很多探討,其實電信運營商,大家知道我們所有人的手機,其實也包括移動,里面也有相關(guān)的屬性要去拿的,包括覆蓋的范圍,包括種類,包括體量相關(guān)的一些東西,這個東西是有一個,我們對他們數(shù)據(jù)的渴求。我可以告訴大家其實現(xiàn)在在整個,我更了解浙江,浙江移動有一個專門叫大數(shù)據(jù)運營平臺,已經(jīng)把所有的數(shù)據(jù),所有的話單數(shù)據(jù)消費記錄等等放在一個真的大數(shù)據(jù)平臺里面,但是他們沒有把那個數(shù)據(jù)對外去宣傳或者使用,他也找不到更合適的廠商幫他們服務(wù),最近我們其實也在跟他們談,我們想借助這樣一個力量,把我們的力量代入,我們更了解銀行,他需要什么樣的數(shù)據(jù),我們也做嘗試,做一些相關(guān)融合的工作,這是一個探討,我們有我們相對的定位,電信有他們的數(shù)據(jù),銀行有需要,訪問也是一樣,我們可能做一個服務(wù)商在技術(shù)層面上,在這個層面做引進。

  第二個領(lǐng)域其實是人才的培養(yǎng),今天我請了幾個專家跟老師過來,也是有原因的,我們跟IBM做了這樣一個計劃,IBM有這樣一個計劃,我們會做一個整個三層次的人才培養(yǎng)計劃,第一個層次就是跟合作伙伴共同培養(yǎng)相關(guān)的人才,第二個領(lǐng)域是跟教育機構(gòu),第三個直接培訓(xùn)一些老師,我們在第一個領(lǐng)域做合作,IBM在中科院大學(xué)已經(jīng)開了一個所謂大數(shù)據(jù)人才培養(yǎng)班,叫智慧金融,我們在這種領(lǐng)域上做合作,很快我們就會在華東包括華南也會跟一些學(xué)校談這個合作,除了剛剛講的技術(shù),講一下架構(gòu)以外,我們把人才后備力量建立起來,這也算給大家做個預(yù)告,很快我們會把人才的培養(yǎng)體系建立起來。

  最后簡單講一下文思海輝大數(shù)據(jù)的努力,先從技術(shù)上講,文思海輝做了這么幾個東西,第一個數(shù)據(jù)集成,我們做集成,包括ETL等等相關(guān)的,第二Hadoop本身的搭建,包括發(fā)行版本,包括原形版本,我們都會做很大的搭建,基礎(chǔ)構(gòu)建的搭建,第三個流數(shù)據(jù)的處理,我們講過注重很多實時的行為,流數(shù)據(jù)的處理,包括我們跟數(shù)據(jù)倉庫的融合這是我們的老本行,老本行的融合,包括我們整個管控的能力。再往下看分成幾個類別,第一類別是大數(shù)據(jù)方案的整個規(guī)劃設(shè)計,由于我們原來有倉庫的經(jīng)驗,大家也看到我們其實在做數(shù)據(jù)分析,只是換了不同的技術(shù),我們未來整個大數(shù)據(jù)方案的規(guī)劃幫各位客戶設(shè)計好,第二個層面分析,等會兒就會講到,我們在這個領(lǐng)域上更多的模型、算法、預(yù)測,分公司計算的公式等等也好,我們有相關(guān)的人去做相關(guān)的工作,第三是我們整個運營的優(yōu)化,如果我們有了一些大的平臺,上面要做很多的調(diào)優(yōu),包括相關(guān)工作,這也是文思海輝現(xiàn)在主要在做的工作,第四所謂包裝好的一個成熟的業(yè)務(wù)應(yīng)用,包括整個分析智能化,包括實時數(shù)據(jù)倉庫,整體解決方案我們也會提供,我們主要在四個領(lǐng)域去努力。

  最后提一些小的建議,第一個其實剛剛講那么多,我們還是要有一些方向上的選擇,第一個就是技術(shù)方向選擇,這個是我們嘗試去做所謂的技術(shù)規(guī)劃的數(shù),到底什么時候應(yīng)該去用大數(shù)據(jù)平臺,我們就在數(shù)據(jù)類型、處理能力,包括數(shù)據(jù)量,包括響應(yīng)時間,包括集成包括分析種類這個層面上我們做了這樣一個決策,我們希望通過這樣的模式能讓我們的客戶更加清晰認識到我們在做任何一個業(yè)務(wù)場景,拿到一個業(yè)務(wù)需求的時候,我們?nèi)魏尾捎檬裁礃拥募夹g(shù),我們做了這樣的形式。

  另外一個角度來講,我更多談一下我的感受,第一個行業(yè),相信互聯(lián)網(wǎng)銀行沖擊很大,我給大家講一個故事,也是有一次我應(yīng)該是在同濟大學(xué)上課,跟別人也是聊大學(xué)里的東西,下面有一個學(xué)生問我,你剛剛講過數(shù)據(jù)質(zhì)量,我跟你剖析一下數(shù)據(jù)質(zhì)量體系,聽他來講數(shù)據(jù)管控一定會講數(shù)據(jù)質(zhì)量,他就跟我講了半天,他講的是什么,他講的是工程質(zhì)量的控制,噪點控制,我從這個案例跟大家講,其實在這個行業(yè)里面,包括大數(shù)據(jù),包括數(shù)據(jù)分析非常具有行業(yè)專業(yè)性,如果是一個外部公司,或者一些外部的廠商介入還是有一定的難度,因為他必須要了解清楚,必須要了解我們在銀行里面需要什么樣的數(shù)據(jù),我們需要做什么樣的分析,這是第一個。第二從技術(shù)上來講,我們更要注重在這個領(lǐng)域上其實真正還沒有達到一個完全的標(biāo)準跟規(guī)范,所有的技術(shù)是要革新一樣每天都在變化,今天會冒一家公司,明天會冒一家公司做相關(guān)的事情,而且在技術(shù)上不是你想象的那么簡單,在這個領(lǐng)域上我覺得對我們自己本身,第一個我們要做的是要了解本事,我們不能大量的采用所謂的包裝型的產(chǎn)品也好,獲得相關(guān)的開元工具也好,我們更要內(nèi)部的經(jīng)營,我們在我們公司里更多強調(diào)的是,我們要從技術(shù)研究來講,我們一定看底層使用的層面上,我們會把周邊的整個打通,在整體架構(gòu)設(shè)計上,我們一定要有更好的考量,我今天就講這么多,謝謝各位。

錯誤報告  分享到:
化州市| 霍城县| 始兴县| 酉阳| 巴彦县| 睢宁县| 高平市| 赤城县| 余干县| 乌海市| 安图县| 新泰市| 青田县| 闽清县| 龙泉市| 永和县| 陆河县| 霍山县| 长垣县| 丰镇市| 中卫市| 皋兰县| 姚安县| 中西区| 海林市| 班玛县| 郑州市| 紫金县| 翁源县| 长泰县| 陕西省| 信丰县| 黎城县| 芦溪县| 建始县| 突泉县| 洛宁县| 香港| 蒲城县| 鄱阳县| 唐河县|