流式大數(shù)據(jù)實時處理—技術、平臺及應用
編者注:陳純,計算機應用專家,浙江大學計算機科學與技術學院教授,中國工程院院士。是國家教委“跨世紀優(yōu)秀人才培養(yǎng)計劃”首批入選專家,第三屆中國青年科技獎獲得者。目前是國家列車智能化工程技術研究中心主任,國務院學位委員會學科評議組成員。陳純教授長期從事計算機應用領域的前沿研究工作,在著名國際學術期刊和會議發(fā)表論文160多篇,曾獲國家技術發(fā)明獎二等獎1項,國家科技進步獎二等獎2項,國家科技進步三等獎1項,省部級科學技術一等獎6項。
今天CNCC 2016在山西太原盛大開幕,開幕演講中,CCF會士、中國工程院院士、浙江大學陳純教授做了題為“流式大數(shù)據(jù)實時處理技術、平臺及應用”的報告,以下為報告內(nèi)容精編。
流式大數(shù)據(jù)
流式大數(shù)據(jù)從這個角度看,可以把大數(shù)據(jù)分成兩個:一個是批式大數(shù)據(jù),另一個是流式大數(shù)據(jù)。
舉個例子來說
我們把數(shù)據(jù)當成水庫的話,水庫里面存在的水就是批式大數(shù)據(jù),進來的水是流式大數(shù)據(jù)。
10年前,從傳統(tǒng)的三架馬車開始到現(xiàn)在組成了60、70個相關龐大的生態(tài)圈。重點我們可以看到,從2012年開始,才關注了流式大數(shù)據(jù),就是數(shù)據(jù)流的模式。在之前,所有的大數(shù)據(jù)算法和系統(tǒng)就是批式大數(shù)據(jù),從12年開始才專門針對流式大數(shù)據(jù)的組建。
由于數(shù)據(jù)流的處理,應用場景主要是兩類:
一類是互聯(lián)網(wǎng)
另一類是移動互聯(lián)網(wǎng)
移動互聯(lián)網(wǎng)和互聯(lián)網(wǎng)的個性服務,不斷提升用戶體驗對實時要求也是非常高的。一般要樣本性的相應,而互聯(lián)網(wǎng)的傳感數(shù)據(jù),通過智能分析來經(jīng)營決策的。這以前大數(shù)據(jù)的分享,我們可以把它分成事后的風險和追溯,而更重要的應用事中的分析、處理。
一種集群式、分布式的解決方案,但是其實時響應比較慢。
另一種是組建流式大數(shù)據(jù),即內(nèi)存計算,但它的實時相應數(shù)據(jù)規(guī)模受限。
但是大數(shù)據(jù)的處理技術,主要有四個難題。它們分別是:
1、基于分布式內(nèi)存的運行計算
2、可能很多臺計算機,每臺計算機多CPU,你一個任務下去,在計算機上同時進行內(nèi)存的計算,它都是可以做到分布存儲。
3、海量歷史數(shù)據(jù)高性能的分析
4、當你流進水庫的實時,不僅僅是處理流的數(shù)據(jù),而且還要把你存在數(shù)據(jù)庫的數(shù)據(jù)一起建立起來。因為這個時間窗口,要重復計算問題,并且有海量數(shù)據(jù)的復雜增量要計算。
數(shù)據(jù)流進來后,怎么樣把流式數(shù)據(jù)跟歷史數(shù)據(jù)一起計算?
所謂大數(shù)據(jù),流式是必須要算的,解決辦法就可以從增量基礎上入手。
要用模型解決實際應用的問題
張老師說像統(tǒng)計的模型,基于規(guī)則的模型,這些模型能夠很好的結合。所以要把實施處理的分析模型分開,這樣就能針對不同的問題進行可以計算。
這四個就是最重要的四大問題,我們現(xiàn)在的研究成果——流立方的實時計算,把數(shù)據(jù)時間窗口、計算指標加上最核心的增量計算,也就是解決分布的存儲的性能,與基于內(nèi)存的計算更好的結合在一起。
流立方
現(xiàn)在我們來介紹下流式大數(shù)據(jù)實時處理平臺,我們知道這個平臺不僅僅是流立方計算引擎。結合大數(shù)據(jù),相當于流立方的計算引擎要從60多個組件里面,抽取部分構成這么一個平臺,同時還要加上分布存儲、數(shù)據(jù)庫,包括大數(shù)據(jù)的云處理平臺,還有其他地方來構成這個平臺,實際上這個平臺是非常強大的系統(tǒng)。
下面介紹有應用,這個是流立方應用的框架。
<img alt="CNCC 2016 " 浙江大學陳純:何為流式大數(shù)據(jù)?"="" height="386" data-cke-saved-src="http://www.raincent.com/uploadfile/2016/1021/20161021041755731.png" src="http://www.raincent.com/uploadfile/2016/1021/20161021041755731.png" width="600" style="width: 660px; height: 424.541px;">
紅線里面都是以流式大數(shù)據(jù)存在的計算指標、統(tǒng)計指標,左邊是有一個分析處理模型,這個模型是可以基于數(shù)學模型指導。所以,當你把一個要解決的問題,比如說:
下圍棋要學習,就可以把下棋的棋譜傳進來??梢栽谶@個平臺上進行計算,這是外部應用系統(tǒng)。
它可以應用很多,流立方實時平臺上在原有基礎系統(tǒng)上,做一個并行系統(tǒng)實時檢測,通過專業(yè)知識、模型來實時分析。
下面具體來看幾個案例:
金融風控反欺詐
現(xiàn)在電子支付上,除了螞蟻金服和微信支付是自己做的風控以外,基本上所有的系統(tǒng)都是基于流立方來做的。
反爬蟲系統(tǒng)
應用的前景非常的廣泛:金融、電信、交通、公安、海關、互聯(lián)網(wǎng)都可以應用。
體會
流數(shù)據(jù)的實時處理
流式數(shù)據(jù)的實時分析,一定是有規(guī)則、模型的東西。復雜的分析計算,加上實時這兩個結合起來,如果能做的好,一定能夠加速大數(shù)據(jù)在各個行業(yè)的應用。
大數(shù)據(jù)
我們現(xiàn)在大數(shù)據(jù)要么就是賣數(shù)據(jù),對比數(shù)據(jù)事后不同的分析來追溯,這個非常重要。
但是我們現(xiàn)在應用最重要,還是要結合不同的空間數(shù)據(jù)實施流數(shù)據(jù)分析。這個要有平臺才能把所有的數(shù)據(jù)(互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)還有互聯(lián)網(wǎng)+)共同體驗、提升。
慧都控件網(wǎng)年終促銷第一波已開啟,全場6折起,豪禮搶不停>>>
截止時間:2016年10月30日
更多大數(shù)據(jù)與分析相關行業(yè)資訊、解決方案、案例、教程等請點擊查看>>>
詳情請咨詢在線客服!
客服熱線:023-66090381