InfoSphere CDC 企業(yè)傳統(tǒng)數(shù)據(jù)到大數(shù)據(jù)集成的加速器
我們常常會思考什么樣的數(shù)據(jù)才是大數(shù)據(jù),只有數(shù)據(jù)量大才能真正稱之為大數(shù)據(jù)嗎?其實不然,大數(shù)據(jù)的特征應(yīng)該包括數(shù)量、速度,多樣性和精準(zhǔn)性這四個方面,也就是通常所說的4個V: Volume,Velocity,Variety 和Veracity。如下圖所示:
因此,數(shù)量大小只是描述大數(shù)據(jù)的其中一個維度,今天,我們不妨換個思路來聊聊大數(shù)據(jù)的另一個重要特征:Velocity(速度),看看如何將傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)快速、實時、準(zhǔn)確地應(yīng)用到大數(shù)據(jù)平臺??焖佾@取,快速分析,快速應(yīng)用,快速實現(xiàn),從而幫助企業(yè)提升自身的競爭力并創(chuàng)造巨大的商業(yè)價值。
IBM 大數(shù)據(jù)產(chǎn)品介紹
InfoSphere Change Data Capture(以下簡稱CDC)用于捕獲源端交易數(shù)據(jù)庫如DB2,Oracle的數(shù)據(jù)變化,并實時復(fù)制到目標(biāo)數(shù)據(jù)庫、消息隊列、以及ETL解決方案(例如IBM InfoSphere DataStage)。
InfoSphere BigInsights由Hadoop分布式文件系統(tǒng)(HDFS)以及Pig,Hive,HBase和ZooKeeper等Hadoop生態(tài)系統(tǒng)子項目構(gòu)成,用于分析和展現(xiàn)基于Apache Hadoop的海量數(shù)據(jù)。 接下來,我們將通過一個智能電表的應(yīng)用案例來演示CDC如何將實時的增量數(shù)據(jù)復(fù)制到InfoSphere BigInsights的HDFS中。
系統(tǒng)架構(gòu)
在下圖所示的系統(tǒng)架構(gòu)中,源端各種異構(gòu)平臺的傳統(tǒng)數(shù)據(jù)庫所產(chǎn)生的變化數(shù)據(jù)通過CDC的復(fù)制引擎源源不斷的流向目標(biāo)端 InfoSphere BigInsights 大數(shù)據(jù)平臺,所有關(guān)系型結(jié)構(gòu)化數(shù)據(jù)的實時更新都會以文件的形式或格式存儲在HDFS文件系統(tǒng)中。
應(yīng)用場景:智能電表系統(tǒng)
某公共事業(yè)公司利用智能儀表采集客戶日常使用水,電,煤氣等數(shù)據(jù)信息,這些信息的數(shù)據(jù)量龐大且實時變化快,通過分析這些儀表數(shù)據(jù)能及時了解客戶的使用模式和習(xí)慣,以及費用開銷。比如說該公司通過測量高峰期的用電量,能夠收取更多的費用,能夠設(shè)置客戶用電的使用上限,可以創(chuàng)建激勵機(jī)制讓客戶在特殊時段減少用電量等等。
該公司通過構(gòu)建InfoSphere CDC + InfoSphere BigInsights的智能電表系統(tǒng)來實現(xiàn)以上這些業(yè)務(wù)功能,即CDC捕獲電表系統(tǒng)的變化數(shù)據(jù),并實時復(fù)制到BigInsights的HDFS文件系統(tǒng),接著BigInsights對傳送過來的實時海量數(shù)據(jù)進(jìn)行復(fù)雜計算和模型分析,從而及時準(zhǔn)確地響應(yīng)了以上業(yè)務(wù)需求。
配置CDC到BigInsights(HDFS)的數(shù)據(jù)復(fù)制
安裝并初始化InfoSphere BigInsights運(yùn)行環(huán)境
1)首先,需要完成InfoSphere BigInsights的安裝,安裝完成后,Hadoop集群環(huán)境也隨之搭建好了。然后,我們要確認(rèn)環(huán)境變量是否設(shè)置正確
* CLASSPATH是否指向包含Hadoop核心Jar包的路徑。
* HADOOP_CONF_DIR是否指向包含Hadoop配置文件的路徑。
如果以上環(huán)境變量沒有設(shè)置,我們也可以運(yùn)行BigInsights自帶的腳本程序biginsights-env.sh進(jìn)行自動化設(shè)置,該腳本所在目錄為
BigInsights_install_dir/conf.
2)缺省情況下,環(huán)境變量CLASSPATH僅包含Hadoop的核心JAR包hadoop-core-1.0.3.jar,我們還需添加以下JAR包到CLASSPATH中:
* commons-configuration-1.6.jar
* commons-logging-1.1.1.jar
* commons-lang-2.4.jar
這些JAR包路徑為:BigInsights_install_dir/IHC/lib directory/
2. 啟動InfoSphere BigInsights Hadoop集群中的HDFS組件
InfoSphere BigInsights本身已集成了很多Hadoop組件,例如Apache MapReduce, HDFS, Hive, Catalog, HBase, Oozie等等,這些服務(wù)可以通過InfoSphere BigInsights控制臺或命令行啟動。例如在Web瀏覽器中打開InfoSphere BigInsights管理控制臺:
http://server:8080/data/html/index.html#redirect-welcome
然后,在管理控制臺中選擇并啟動HDFS服務(wù).
3. 安裝InfoSphere CDC for InfoSphere BigInsights,
并在BigInsights中創(chuàng)建HDFS目錄
在InfoSphere BigInsights管理控制臺中選中“Files”標(biāo)簽.
如下圖所示,創(chuàng)建HDFS目錄,用于寫入CDC從源端數(shù)據(jù)庫中捕獲并復(fù)制過來的增量數(shù)據(jù).
創(chuàng)建CDC實例
在CDC實例中創(chuàng)建預(yù)訂(Subscription),并將源端數(shù)據(jù)庫的表映射到剛剛已創(chuàng)建的HDFS目錄中的某個文件。HDFS目錄格式為:
hdfs://your-server:9000/目錄名稱/文件名
啟動CDC復(fù)制數(shù)據(jù)并查看目標(biāo)端所生成的HDFS文件
經(jīng)過以上步驟,我們已完成了BigInsights和CDC的安裝及配置,接下來便可啟動CDC預(yù)訂開始數(shù)據(jù)的實時復(fù)制了
當(dāng)我們回到BigInsights的管理控制臺,選中“File”標(biāo)簽,可以觀察到在指定的HDFS目錄路徑下已生成從源端復(fù)制過來的增量數(shù)據(jù)。
可能有人會問,InfoSphere CDC 難道只能和IBM自家的大數(shù)據(jù)平臺BigInsights集成嗎?當(dāng)然不是,CDC能提供對各大Hadoop廠商的廣泛支持,例如:HortonWorks Data Platform(HDP),Cloudera CDH,Apache Hadoop等。
如果大家感興趣的話,歡迎與我們聯(lián)系!
慧都控件網(wǎng)年終促銷最后一波,全場6折起,豪禮搶不停>>>
截止時間:2016年12月31日
更多大數(shù)據(jù)與分析相關(guān)行業(yè)資訊、解決方案、案例、教程等請點擊查看>>>
詳情請咨詢在線客服!
客服熱線:023-66090381