<menu id="w2i4a"></menu>

慧都大數據（二）

文檔首頁>>慧都大數據（二）>>助力大數據集成，且看DataStage新玩法

助力大數據集成，且看DataStage新玩法

大數據處理

一、大數據已成為企業(yè)信息供應鏈中的重要一環(huán)

我們對大數據的認知在前幾年還僅僅停留在概念和理論中，但轉眼間，你會發(fā)現身邊的大數據項目如雨后春筍般拔地而起，大數據儼然成為當今熱得不能再熱的話題和焦點。因為Hadoop及其相關開源技術的橫空出世和迅猛發(fā)展，越來越多的企業(yè)發(fā)現那些塵封已久的歷史數據或每天正在以指數級產生的交易數據、日志數據和客戶行為數據其實蘊藏著巨大的價值，猶如一座座尚未開發(fā)的金礦，誰能搶占先機，就能挖掘并實現巨大的商業(yè)價值?；ヂ摼W企業(yè)深諳此道，利用大數據分析結果進行產品推廣和定向營銷，大大改善了消費者的購物體驗和消費習慣，在收獲口碑的同時也賺得盆滿缽滿！與此同時，傳統(tǒng)企業(yè)也在積極轉型，紛紛將Hadoop大數據平臺納入到現有的IT架構和解決方案，那么如何將傳統(tǒng)數據和大數據進行高效的集成、管理和分析呢？如何保證數據的準確性，一致性和可靠性呢？帶著眾多疑問，我們來看看IBM所提供的DataStage大數據集成方案，一切必將豁然開朗。

大數據處理

二、大數據集成所面臨的挑戰(zhàn)

1.新型的數據存儲

大數據引入了新型的數據存儲，例如，Hadoop及NoSQL，這些新型的數據存儲都需要集成。
沒有好的傳統(tǒng)方法能夠有效集成這些新型數據存儲。

2.新的數據類型及格式

非結構化數據；半結構化數據；JSON, Avro ...
視頻、文檔、網絡日志 ...
如何有效處理復雜且多樣化的數據

3.更大的數據量

需要針對更大的數據量進行數據移動，轉換，清洗等等。
需要更好的可擴展性

大數據處理

三、大數據信息整合是Hadoop項目成敗的關鍵

大部分的Hadoop方案包括以下階段：

數據收集
數據移動
數據轉換
數據清洗
數據整合
數據探查
數據分析

由于面對的是基于海量的，彼此孤立的異構數據源和數據類型，所以大部分企業(yè)的Hadoop項目將花費80%的精力在數據整合上，而僅有20%的精力用于數據分析?？梢?，數據集成對Hadoop項目的成敗有多重要。

大數據處理

四、IBM大數據集成解決方案：InfoSphere DataStage

1. 集中、批量式處理：整合和連接、清洗轉換大數據

Hadoop大數據作為源和目標，同現有企業(yè)信息整合；
與現有整合任務具備同樣的開發(fā)界面和邏輯架構；
將處理邏輯下壓至MapReduce，利用Hadoop平臺最小化網絡開銷；
通過InfoSphere Streams流處理進行實時分析流程；
驗證和清洗大數據源的數據質量；
貫穿大數據和/或傳統(tǒng)數據流通過世系跟蹤和血緣分析；

大數據處理

2.面向大數據和傳統(tǒng)數據的豐富接口，支持企業(yè)所有的數據源和目標

對DBMS(DB2, Netezza, Oracle, Teradata, SQL Server, GreenPlum,…)提供高性能的原生API；
提供特定的ERP連接器；
基于JDBC、ODBC連接器提供靈活支持(MySQL)；
支持簡單和復雜的文件格式 (Flat, Cobol, XML, native Excel)；
支持擴展數據源：Web Services, Cloud, Java
連接Hadoop文件系統(tǒng)(HDFS)，提供可擴展的并行讀寫
直連InfoSphere Streams，支持實時分析處理
提供對NoSQL數據源（Hive,HBase,MongoDB,Cassandra）的支持

大數據處理

3.最廣泛的異構平臺支持

大數據處理

4.IBM大數據集成方案帶給客戶的驚喜

大數據處理

五、DataStage連通Hadoop的最佳實踐

在DataStage中，可通過File Connector組件或Big Data File組件來連接Hadoop平臺,從而將傳統(tǒng)RDBMS數據庫或本地文件中的數據加載到HDFS。比較而言，Big Data File組件支持IBM BigInsights，提供更佳的讀寫性能；而File Connector組件則通過WebHDFS接口或HttpFS接口訪問HDFS,不依賴于Hadoop的品牌和版本，提供更廣泛的兼容性。

大數據處理

FileConnector是DataStage v11.3面向Hadoop的全新組件，提供以下功能：

可用于讀/寫Hadoop文件系統(tǒng)(HDFS)
支持并行處理和線性擴展
不需要安裝其他Hadoop客戶端軟件包
支持Kerberos認證
支持SSL安全訪問協(xié)議
支持Knox gateway
支持通過WebHDFS，HttpFS方式訪問Hadoop
支持訪問本地的Hadoop節(jié)點
更全面的支持Hadoop(不依賴于其版本變更)

下面以Apache Hadoop v2.7為例，介紹通過配置File Connector將Oracle表數據寫入HDFS的方法：

1.安裝DataStage v11.3.1(參考以下鏈接)

http://www-01.ibm.com/support/knowledgecenter/SSZJPZ_11.3.0/com.ibm.swg.im.iis.install.nav.doc/containers/cont_iis_information_server_installation.html?lang=en

2.配置Kerberos安全認證

將Apache Hadoop服務器上的krb5.conf文件(KDC配置信息)復制到DataStage服務器上的/etc目錄。

3.檢查Apache Hadoop的HDFS配置文件，確認已啟用WebHDFS支持

大數據處理

如何配置WebHDFS Rest API for Apache Hadoop v2.7：

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/WebHDFS.html

4.配置SSL訪問Hadoop

登陸DataStage服務器，使用keytool命令創(chuàng)建truststore,用于存放來自于Hadoop服務器的SSL安全證書，該truststore名為test.jks, 在/opt目錄下

keytool -genkey -alias test -keystore test.jks -storepass test

將Hadoop服務器上的SSL證書(例如cert.pem)復制到DataStage服務器
在DataStage服務器上通過keytool命令導入證書cert.pem

keytool -import -trustcacerts -alias test -file cert.pem -keystore test.jks -storepass test -noprompt

用DataStage自帶的encrypt.sh命令加密上面所創(chuàng)建truststore的password，得到加密后的二進制密碼(例如{iisenc} iWuRnROgFLbk0H1sjfIc7Q==)

cd /opt/IBM/InformationServer/ASBNode/bin/

[root@IBM-DataStage bin]# ./encrypt.sh

Enter the text to encrypt: test

Enter the text again to confirm: test

{iisenc} iWuRnROgFLbk0H1sjfIc7Q==

在/opt目錄下創(chuàng)建一個名為properties.txt的文本文件，添加內容如下

password={iisenc}iWuRnROgFLbk0H1sjfIc7Q==

修改DataStage配置文件(dsenv)，添加以下環(huán)境變量

DS_TRUSTSTORE_LOCATION=/opt/test.jks

DS_TRUSTSTORE_PROPERTIES=/opt/properties.txt

重啟DataStage

5.在DataStage開發(fā)客戶端中找到File Connector組件

大數據處理

6.配置File Connector組件的屬性

通過WebHDFS接口訪問Apache Hadoop
采用Kerberos安全認證(指定Keytab文件)
采用https協(xié)議及相應端口
將源表數據自動拆分成多個文件并行寫入HDFS(為提高性能，利用8個節(jié)點同時寫數據)

大數據處理

7.運行DataStage作業(yè)，可看到數據已成功寫入Hadoop HDFS

雖然本次測試是基于虛擬機環(huán)境，但DataStage所展現出來的性能依然非常強勁，從Oracle讀取4.64億條記錄并寫入HDFS，僅需10分鐘左右，最高速率達到619495 行/秒。如果增加CPU以提高并行度，性能更可線性增長！

大數據處理

在目標端生成的HDFS文件列表(8個子文件)：

大數據處理

更多大數據與分析相關行業(yè)資訊、解決方案、案例、教程等請點擊查看>>>

詳情請咨詢在線客服！

客服熱線：023-66090381

慧都科技版權所有 Copyright 2003-2024 渝ICP備12000582號-13 渝公網安備 50010702500608號本站由提供CDN加速/云存儲服務

掃碼咨詢

添加微信立即咨詢

電話咨詢

客服熱線
023-68661681

TOP

三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();