• <menu id="w2i4a"></menu>
  • logo 慧都大數據(二)

    文檔首頁>>慧都大數據(二)>>助力大數據集成,且看DataStage新玩法

    助力大數據集成,且看DataStage新玩法


    大數據處理

    一、大數據已成為企業(yè)信息供應鏈中的重要一環(huán)

    我們對大數據的認知在前幾年還僅僅停留在概念和理論中,但轉眼間,你會發(fā)現身邊的大數據項目如雨后春筍般拔地而起,大數據儼然成為當今熱得不能再熱的話題和焦點。因為Hadoop及其相關開源技術的橫空出世和迅猛發(fā)展,越來越多的企業(yè)發(fā)現那些塵封已久的歷史數據或每天正在以指數級產生的交易數據、日志數據和客戶行為數據其實蘊藏著巨大的價值,猶如一座座尚未開發(fā)的金礦,誰能搶占先機,就能挖掘并實現巨大的商業(yè)價值?;ヂ摼W企業(yè)深諳此道,利用大數據分析結果進行產品推廣和定向營銷,大大改善了消費者的購物體驗和消費習慣,在收獲口碑的同時也賺得盆滿缽滿!與此同時,傳統(tǒng)企業(yè)也在積極轉型,紛紛將Hadoop大數據平臺納入到現有的IT架構和解決方案,那么如何將傳統(tǒng)數據和大數據進行高效的集成、管理和分析呢?如何保證數據的準確性,一致性和可靠性呢?帶著眾多疑問,我們來看看IBM所提供的DataStage大數據集成方案,一切必將豁然開朗。

    大數據處理

    二、大數據集成所面臨的挑戰(zhàn)

    1.新型的數據存儲

    • 大數據引入了新型的數據存儲,例如,Hadoop及NoSQL,這些新型的數據存儲都需要集成。
    • 沒有好的傳統(tǒng)方法能夠有效集成這些新型數據存儲。

    2.新的數據類型及格式

    • 非結構化數據;半結構化數據;JSON, Avro ...
    • 視頻、文檔、網絡日志 ...
    • 如何有效處理復雜且多樣化的數據

    3.更大的數據量

    • 需要針對更大的數據量進行數據移動,轉換,清洗等等。
    • 需要更好的可擴展性
    大數據處理

    三、大數據信息整合是Hadoop項目成敗的關鍵

    大部分的Hadoop方案包括以下階段:

    • 數據收集
    • 數據移動
    • 數據轉換
    • 數據清洗
    • 數據整合
    • 數據探查
    • 數據分析

    由于面對的是基于海量的,彼此孤立的異構數據源和數據類型,所以大部分企業(yè)的Hadoop項目將花費80%的精力在數據整合上,而僅有20%的精力用于數據分析??梢?,數據集成對Hadoop項目的成敗有多重要。

    大數據處理

    四、IBM大數據集成解決方案:InfoSphere DataStage

    1. 集中、批量式處理:整合和連接、清洗轉換大數據

    • Hadoop大數據作為源和目標,同現有企業(yè)信息整合;
    • 與現有整合任務具備同樣的開發(fā)界面和邏輯架構;
    • 將處理邏輯下壓至MapReduce,利用Hadoop平臺最小化網絡開銷;
    • 通過InfoSphere Streams流處理進行實時分析流程;
    • 驗證和清洗大數據源的數據質量;
    • 貫穿大數據和/或傳統(tǒng)數據流通過世系跟蹤和血緣分析;
    大數據處理

    2.面向大數據和傳統(tǒng)數據的豐富接口,支持企業(yè)所有的數據源和目標

    • 對DBMS(DB2, Netezza, Oracle, Teradata, SQL Server, GreenPlum,…)提供高性能的原生API;
    • 提供特定的ERP連接器;
    • 基于JDBC、ODBC連接器提供靈活支持(MySQL);
    • 支持簡單和復雜的文件格式 (Flat, Cobol, XML, native Excel);
    • 支持擴展數據源:Web Services, Cloud, Java
    • 連接Hadoop文件系統(tǒng)(HDFS),提供可擴展的并行讀寫
    • 直連InfoSphere Streams,支持實時分析處理
    • 提供對NoSQL數據源(Hive,HBase,MongoDB,Cassandra)的支持
    大數據處理

    3.最廣泛的異構平臺支持

    大數據處理

    4.IBM大數據集成方案帶給客戶的驚喜

    大數據處理

    五、DataStage連通Hadoop的最佳實踐

    在DataStage中,可通過File Connector組件或Big Data File組件來連接Hadoop平臺,從而將傳統(tǒng)RDBMS數據庫或本地文件中的數據加載到HDFS。比較而言,Big Data File組件支持IBM BigInsights,提供更佳的讀寫性能;而File Connector組件則通過WebHDFS接口或HttpFS接口訪問HDFS,不依賴于Hadoop的品牌和版本,提供更廣泛的兼容性。

    大數據處理

    FileConnector是DataStage v11.3面向Hadoop的全新組件,提供以下功能:

    • 可用于讀/寫Hadoop文件系統(tǒng)(HDFS)
    • 支持并行處理和線性擴展
    • 不需要安裝其他Hadoop客戶端軟件包
    • 支持Kerberos認證
    • 支持SSL安全訪問協(xié)議
    • 支持Knox gateway
    • 支持通過WebHDFS,HttpFS方式訪問Hadoop
    • 支持訪問本地的Hadoop節(jié)點
    • 更全面的支持Hadoop(不依賴于其版本變更)

    下面以Apache Hadoop v2.7為例,介紹通過配置File Connector將Oracle表數據寫入HDFS的方法:

    1.安裝DataStage v11.3.1(參考以下鏈接)

    http://www-01.ibm.com/support/knowledgecenter/SSZJPZ_11.3.0/com.ibm.swg.im.iis.install.nav.doc/containers/cont_iis_information_server_installation.html?lang=en

    2.配置Kerberos安全認證

    將Apache Hadoop服務器上的krb5.conf文件(KDC配置信息)復制到DataStage服務器上的/etc目錄。

    3.檢查Apache Hadoop的HDFS配置文件,確認已啟用WebHDFS支持

    大數據處理

    如何配置WebHDFS Rest API for Apache Hadoop v2.7:

    http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/WebHDFS.html

    4.配置SSL訪問Hadoop

    • 登陸DataStage服務器,使用keytool命令創(chuàng)建truststore,用于存放來自于Hadoop服務器的SSL安全證書,該truststore名為test.jks, 在/opt目錄下

    keytool -genkey -alias test -keystore test.jks -storepass test

    • 將Hadoop服務器上的SSL證書(例如cert.pem)復制到DataStage服務器
    • 在DataStage服務器上通過keytool命令導入證書cert.pem

    keytool -import -trustcacerts -alias test -file cert.pem -keystore test.jks -storepass test -noprompt

    • 用DataStage自帶的encrypt.sh命令加密上面所創(chuàng)建truststore的password,得到加密后的二進制密碼(例如{iisenc} iWuRnROgFLbk0H1sjfIc7Q==)

    cd /opt/IBM/InformationServer/ASBNode/bin/

    [root@IBM-DataStage bin]# ./encrypt.sh

    Enter the text to encrypt: test

    Enter the text again to confirm: test

    {iisenc} iWuRnROgFLbk0H1sjfIc7Q==

    • 在/opt目錄下創(chuàng)建一個名為properties.txt的文本文件,添加內容如下

    password={iisenc}iWuRnROgFLbk0H1sjfIc7Q==

    • 修改DataStage配置文件(dsenv),添加以下環(huán)境變量

    DS_TRUSTSTORE_LOCATION=/opt/test.jks

    DS_TRUSTSTORE_PROPERTIES=/opt/properties.txt

    • 重啟DataStage

    5.在DataStage開發(fā)客戶端中找到File Connector組件

    大數據處理

    6.配置File Connector組件的屬性

    • 通過WebHDFS接口訪問Apache Hadoop
    • 采用Kerberos安全認證(指定Keytab文件)
    • 采用https協(xié)議及相應端口
    • 將源表數據自動拆分成多個文件并行寫入HDFS(為提高性能,利用8個節(jié)點同時寫數據)
    大數據處理

    7.運行DataStage作業(yè),可看到數據已成功寫入Hadoop HDFS

    雖然本次測試是基于虛擬機環(huán)境,但DataStage所展現出來的性能依然非常強勁,從Oracle讀取4.64億條記錄并寫入HDFS,僅需10分鐘左右,最高速率達到619495 行/秒。如果增加CPU以提高并行度,性能更可線性增長!

    大數據處理

    在目標端生成的HDFS文件列表(8個子文件):

    大數據處理

    更多大數據與分析相關行業(yè)資訊、解決方案、案例、教程等請點擊查看>>>

    詳情請咨詢在線客服!

    客服熱線:023-66090381

    掃碼咨詢


    添加微信 立即咨詢

    電話咨詢

    客服熱線
    023-68661681

    TOP
    三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();