一張圖,帶你讀懂 IBM 云上真實(shí)洞察數(shù)據(jù)那些事
在傳統(tǒng)的交易數(shù)據(jù)庫(kù)系統(tǒng)中,伴隨著客戶的交易行為發(fā)生,在業(yè)務(wù)系統(tǒng)中產(chǎn)生了相應(yīng)的交易數(shù)據(jù),并保存在關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng),從而形成了業(yè)務(wù)的交易記錄,各類業(yè)務(wù)應(yīng)用系統(tǒng)都是圍繞著關(guān)系型數(shù)據(jù)庫(kù)打交道。
當(dāng)今,大家都已看到的現(xiàn)實(shí)狀況是:
隨著越來越多面向移動(dòng)(mobile-oriented)的應(yīng)用被大量企業(yè)/機(jī)構(gòu)所使用,很多交易數(shù)據(jù)以 JSON 文檔形式產(chǎn)生,并保存在 NoSQL 數(shù)據(jù)庫(kù)系統(tǒng)中。
很多企業(yè)/機(jī)構(gòu)建立了數(shù)據(jù)中心,并以數(shù)據(jù)倉(cāng)庫(kù)為主要技術(shù)去進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)從交易系統(tǒng)數(shù)據(jù)庫(kù)抽取出來,經(jīng)過轉(zhuǎn)換處理,加載到數(shù)據(jù)倉(cāng)庫(kù),才能讓數(shù)據(jù)得以進(jìn)行分析,這個(gè)就是眾所周知的 ETL 處理流程。然而,這種分析是只能適合對(duì)“指定”業(yè)務(wù)問題進(jìn)行分析和回答,其表現(xiàn)形式是讓用戶去查詢信息,和用預(yù)先設(shè)計(jì)和建立好的模型來回答在指定范圍內(nèi)的業(yè)務(wù)問題,以及產(chǎn)生報(bào)表。最大的限制和不便就是要“指定”,如果要回答新的業(yè)務(wù)問題,將無法滿足使用這些數(shù)據(jù)和信息人員的需求。
在最近 5年里,隨著 Hadoop 平臺(tái)系統(tǒng)和 DataLake 技術(shù)普及應(yīng)用,出現(xiàn)了很多面向 Hadoop 開源廠商。他們把大量數(shù)據(jù),各種不同種類的數(shù)據(jù)存放在 Hadoop中,并進(jìn)行 ETL 處理,將其處理結(jié)果保存在 Hadoop。利用開源技術(shù)軟件和廉價(jià)硬件,“充分”地去克服傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)所存在的限制,以良好擴(kuò)充性,有條件地讓存放的數(shù)據(jù)歷史可以更長(zhǎng),目標(biāo)只有一個(gè),就是希望能回答更多的“新問題”。
能回答那么多“新問題”的分析系統(tǒng)必須是要面向企業(yè)級(jí)和跨部門,需具備較高級(jí)別的安全性和信息管治能力。恰恰 Hadoop 平臺(tái)系統(tǒng)在這兩方面都較弱;其次是,缺乏良好詢問與回答問題的交互方式;再加上,Hadoop 很難與市場(chǎng)上大部分的分析工具軟件配合使用,需要較復(fù)雜的開發(fā)技能,所有這些,都很大地制約了用戶能在 Hadoop 平臺(tái)系統(tǒng)上執(zhí)行分析任務(wù)的空間。
但是,如果目前IT技術(shù)還停留在傳統(tǒng)關(guān)系型數(shù)據(jù)和 SQL 技術(shù),是難以解決數(shù)據(jù)分析已碰到問題。例如,物聯(lián)網(wǎng)(IoT)設(shè)備產(chǎn)生的大量源數(shù)據(jù)都需要用新的方法去分析這些數(shù)據(jù),在云上產(chǎn)生的數(shù)據(jù)也越來越多,非結(jié)構(gòu)化數(shù)據(jù)隱藏著巨大的商業(yè)價(jià)值。
為了面對(duì)這些挑戰(zhàn)和走出困境,IBM 公司給你提供一條靈活和強(qiáng)大分析能力的策略,并提供解決方案。它就是基于 IBM Bluemix 平臺(tái)的 DataWorks 云技術(shù)和服務(wù),超越了批處理方式并以流數(shù)據(jù)處理技術(shù),從眾多的數(shù)據(jù)區(qū)域中把所需要的數(shù)據(jù)抽過來,附加上有“內(nèi)涵”的信息內(nèi)容,加工成“內(nèi)部數(shù)據(jù)”來幫助用戶找到所需要的答案。我們用下面的例子來說明下,它就是通過 IBM’s Bluemix 平臺(tái)對(duì)天氣數(shù)據(jù)進(jìn)行處理和分析。
1、數(shù)據(jù)采集:IBM DataWorks 能采集各種數(shù)據(jù),支持范圍廣泛,手段有:ETL 批處理或是流式數(shù)據(jù)(streaming);一個(gè)實(shí)時(shí)流式數(shù)據(jù)分析引擎,和一個(gè)基于IoT-based 數(shù)據(jù)模式(Weather Company 提供標(biāo)準(zhǔn))的采集引擎,具有高速和采集很大數(shù)據(jù)量的能力。
2、數(shù)據(jù)存放:一旦數(shù)據(jù)被采集進(jìn)來后,IBM DataWorks 提供多種存放方式。對(duì)數(shù)據(jù)庫(kù)而言,包括各種 NoSQL 數(shù)據(jù)存放格式(document, key-value, graph, columnar)到關(guān)系型(SQL-based)存放格式。 也支持對(duì)象存儲(chǔ),例如 Swift on Bluemix, Amazon’s S3 service 云端存儲(chǔ)。
3、執(zhí)行分析:IBM DataWorks 提供分析工具為不同級(jí)別的用戶對(duì)每一類型數(shù)據(jù)進(jìn)行分析,例如:針對(duì)業(yè)務(wù)分析人員提供了報(bào)表和儀表盤;應(yīng)用開發(fā)平臺(tái)提供給程序猿;數(shù)據(jù)管道、模型和信息統(tǒng)計(jì)工具提供給數(shù)據(jù)科學(xué)家使用等。
4、推廣應(yīng)用:一旦用戶開發(fā)和使用分析工具軟件,還能滿意地找到了所關(guān)心問題的答案,
IBM DataWorks 提供了較簡(jiǎn)單的部署和推廣應(yīng)用方式。IBM Bluemix 平臺(tái)為開發(fā)人員在整個(gè)應(yīng)用開發(fā)階段中提供支持,包括生命周期管理、與 Web 應(yīng)用服務(wù)器和 Github 功能集成等; Cognos 和 Watson Analytics 支持企業(yè)級(jí)的報(bào)表系統(tǒng)部署。另外,DataWorks 還提供了包括信息治理模型和部署架構(gòu)。 IBM DataWorks 秉承以云為第一,用戶本地中心第二的宗旨,為用戶提供服務(wù)與支持,這種強(qiáng)大的混合云模式給用戶在云端上執(zhí)行分析任務(wù)提供了廣闊天地。IBM DataWorks 不但讓用戶以自助方式去完成分析任務(wù),還提供了數(shù)據(jù)治理能力,體現(xiàn)在:
1.提供不同安全級(jí)別的用戶權(quán)限控制,在符合法規(guī)條件下保護(hù)敏感數(shù)據(jù);
2. 建立數(shù)據(jù)血緣關(guān)系(Data lineage)信息,讓你更清楚數(shù)據(jù)跨越千山萬水,從開始處理到最終分析的處理流程;
3. 業(yè)務(wù)術(shù)語/指標(biāo)定義,建立業(yè)務(wù)術(shù)語/指標(biāo)與技術(shù)描述定義的映射關(guān)系,填補(bǔ)了Hadoop data lakes 層面上元數(shù)據(jù)治理功能的缺失。
IBM DataWorks 采用 Apache SparkS 作為底層處理引擎技術(shù),它提供了快速、靈活和可擴(kuò)展的數(shù)據(jù)處理能力,IBM 對(duì)開源技術(shù)支持和突出貢獻(xiàn),讓整個(gè)業(yè)界都看到了 IBM 正開創(chuàng)了一個(gè)“新 IBM”時(shí)代。
慧都控件網(wǎng)年終促銷第一波已開啟,全場(chǎng)6折起,豪禮搶不停>>>
截止時(shí)間:2016年10月30日
更多大數(shù)據(jù)與分析相關(guān)行業(yè)資訊、解決方案、案例、教程等請(qǐng)點(diǎn)擊查看>>>
詳情請(qǐng)咨詢在線客服!
客服熱線:023-66090381