Hadoop教程:9款Hadoop商業(yè)發(fā)行版的調(diào)研報(bào)告
大數(shù)據(jù)與Hadoop正一步步給企業(yè)的數(shù)據(jù)管理架構(gòu)帶來變化。這是一場以專營公司、企業(yè)級(jí)軟件供應(yīng)商以及云服務(wù)廠商為主角的淘金熱潮,每一位參與者都希望能在這片處女地上建立起屬于自己的新帝國。雖然開源ApacheHadoop項(xiàng)目本身已經(jīng)包含各類核心模塊——例如Hadoop Common、Hadoop分布式文件系統(tǒng)(簡稱HDFS)、Hadoop YARN以及Hadoop MapReduce——不過由于缺少來自商業(yè)供應(yīng)商的技術(shù)支持以及打包解決方案,它并不能直接在市場上作為客戶的可選產(chǎn)品。當(dāng)下各大頂尖商業(yè)發(fā)行版都與Apache Hadoop相兼容,那么它們彼此之間如何保持獨(dú)立性?下面我們將跟隨著Forrester的視角,一同探討九大商業(yè)Hadoop發(fā)行版如何走出自己的獨(dú)特道路。
Amazon Web Services Elastic MapReduce奪得最大市場份額
在大家說起Hadoop時(shí),Amazon也許并不是第一家出現(xiàn)在各位腦海中的方案供應(yīng)商,不過AWS的Elastic MapReduce(簡稱EMR)則確實(shí)是最早投放市場的商業(yè)Hadoop產(chǎn)品之一、同時(shí)也在全球市場份額方面占據(jù)領(lǐng)先地位,F(xiàn)orrester首席分析師Mike Gualtieri表示。EMR是一套運(yùn)作在云環(huán)境下的Hadoop,它利用Amazon EC2作為計(jì)算資源、Amazon S3作為存儲(chǔ)資源,同時(shí)也容納其它多項(xiàng)服務(wù)加以配合。
“AWS的解決方案路線圖當(dāng)中包括將Amazon EMR與Amazon Kinesis相集成以實(shí)現(xiàn)流程處理;進(jìn)一步加強(qiáng)其與Amazon Redshift數(shù)據(jù)倉庫以及其它數(shù)據(jù)源的集成程度;以策略為指導(dǎo)自動(dòng)調(diào)整集群規(guī)模;在Hadoop基礎(chǔ)上支持額外的NoSQL數(shù)據(jù)庫;與更多來自第三方供應(yīng)商的商務(wù)智能方案相對接,”Gualtieri寫道。
Cloudera以企業(yè)客戶需求為基礎(chǔ)專注于Hadoop創(chuàng)新
AWS也許在市場份額方面遙遙領(lǐng)先,但專營企業(yè)Cloudera卻也緊隨其后;目前這家公司的客戶數(shù)量已經(jīng)超過200家,其中一部分的節(jié)點(diǎn)部署數(shù)量超過一千個(gè)、數(shù)據(jù)總量更是達(dá)到PB級(jí)別。
“企業(yè)客戶希望擁有一套Hadoop管理與監(jiān)控工具,為此Cloudera創(chuàng)建了Cloudera Manager,”Gualtieri寫道。“企業(yè)客戶希望獲得一套速度更快的Hadoop SQL引擎,為此Cloudera利用大規(guī)模并行處理(簡稱MPP)架構(gòu)創(chuàng)建了Impala——企業(yè)級(jí)數(shù)據(jù)倉庫使用的也是這套架構(gòu)。Cloudera的創(chuàng)新思路在于一方面繼續(xù)秉承Hadoop項(xiàng)目核心,同時(shí)又通過快速創(chuàng)新與積極迎合客戶需求將自身方案與其它供應(yīng)商區(qū)別開來。”Cloudera的盈利模式主要源自軟件訂購,不過他們也提供技術(shù)支持服務(wù)。
Hortonworks推動(dòng)開源Hadoop創(chuàng)新
縱觀各大參與廠商,專營Hadoop業(yè)務(wù)的Hortonworks憑借自身Hortonworks數(shù)據(jù)平臺(tái)(簡稱HDP)而與Apache Hadoop開源最為貼合,不過它同時(shí)也在積極尋求與其它工程技術(shù)合作伙伴的深入?yún)f(xié)作,其中包括微軟、Teradata、SAP以及紅帽等等。
“Hortonworks的策略在于通過開源社區(qū)推動(dòng)創(chuàng)新活動(dòng),并與合作伙伴建立生態(tài)系統(tǒng)以加快Hadoop在企業(yè)客戶當(dāng)中的普及程度,”Gualtieri寫道。“如果開源社區(qū)在某些方面的發(fā)展速度不夠理想,Hortonworks就會(huì)以此為基礎(chǔ)建立新項(xiàng)目并利用自身資源幫助其獲得強(qiáng)勁的前進(jìn)勢頭。”
在這方面,旨在提供Hadoop集群管理控制臺(tái)的Apache Ambari項(xiàng)目就是一大典型范例。
IBM InfoSphere BigInsights,藍(lán)色巨人支持下的企業(yè)拓展項(xiàng)目
IBM并不像一部分競爭對手那樣擁有傲人的Hadoop社區(qū)合作深度,不過他們在分布式計(jì)算與數(shù)據(jù)管理領(lǐng)域的卓越成就幫助其拿出了一套相當(dāng)全面的Hadoop解決方案。IBM目前已經(jīng)完成了一百多項(xiàng)Hadoop部署工作,其中一部分所打理的數(shù)據(jù)規(guī)模更是達(dá)到PB級(jí)別。
“除此之外,IBM也擁有不少先進(jìn)分析工具、全球市場份額以及服務(wù)實(shí)施方案,這使其得以通過一套完整的綜合性大數(shù)據(jù)解決方案吸引眾多企業(yè)客戶,”Gualtieri寫道。“IBM的路線圖包括不斷將BigInsights Hadoop解決方案與相關(guān)IBM資產(chǎn)相集成,例如SPSS高級(jí)分析、高性能計(jì)算工作負(fù)載管理、商務(wù)智能工具以及數(shù)據(jù)管理與建模工具等。”
MapR Technologies為NFS及其它創(chuàng)新成果提供支持
MapR Technologies在本次榜單的專營企業(yè)中位列第三,市場份額排名居于Cloudera與Hortonworks之后。早在剛剛起步的階段,MapR就沒有像其它廠商那樣保守地對Hadoop進(jìn)行概念驗(yàn)證、而是在此期間專注于實(shí)現(xiàn)各項(xiàng)企業(yè)級(jí)功能。
“MapR Technologies為其Hadoop發(fā)行版帶來眾多獨(dú)一無二的創(chuàng)新成果,其中包括支持網(wǎng)絡(luò)文件系統(tǒng)(簡稱NFS)、在集群中運(yùn)行二進(jìn)制代碼、針對HBase實(shí)現(xiàn)性能強(qiáng)化以及高可用性與災(zāi)難恢復(fù)功能等等,”Gualitieri寫道。Gualtieri同時(shí)指出,目前MapR的競爭對手已經(jīng)開始積極創(chuàng)建與之相似的企業(yè)級(jí)功能,因此MapR必須要在市場推廣方面有所動(dòng)作并建立起屬于自己的合作關(guān)系與發(fā)布渠道。
Pivotal Software充分發(fā)揮其Greenplum引擎潛能
作為站在EMC與VMware巨人肩膀上的新興企業(yè),Pivotal由前任VMware公司CEO Paul Maritz負(fù)責(zé)掌舵,同時(shí)也擁有EMC強(qiáng)大的技術(shù)咨詢與數(shù)據(jù)科學(xué)團(tuán)隊(duì)為其提供支持。除了源自EMC的列式數(shù)據(jù)庫Greenplum Database技術(shù),Pivotal的Hadoop發(fā)行版還憑借名為HAWQ的MPP Hadoop SQL引擎實(shí)現(xiàn)了類似于MPP的SQL性能表現(xiàn)。
“Pivotal是第一家提供全功能企業(yè)級(jí)Hadoop設(shè)備的企業(yè)數(shù)據(jù)倉庫供應(yīng)商;他們也是第一家將自身Hadoop、企業(yè)數(shù)據(jù)倉庫與數(shù)據(jù)管理層整合在同一臺(tái)機(jī)架當(dāng)中并作為設(shè)備家族推出的廠商,”Gualtieri寫道。“Pivotal的路線圖將使其Hadoop解決方案在競爭優(yōu)勢方面一馬當(dāng)先;其創(chuàng)新重點(diǎn)集中在改進(jìn)HAWQ SQL引擎并將其與其它Pivotal產(chǎn)品進(jìn)一步結(jié)合方面。”
Teradata利用豐富的專業(yè)知識(shí)打造Hadoop設(shè)備
Teradata是一家非常專業(yè)的企業(yè)數(shù)據(jù)倉庫設(shè)備供應(yīng)商,該公司在此基礎(chǔ)上與Hortonworks建立起堅(jiān)實(shí)的技術(shù)合作關(guān)系、將Hadoop以設(shè)備形式投放市場。
“Teradata的Hadoop發(fā)行版當(dāng)中包括了與Teradata管理工具與SQL-H的集成機(jī)制、利用聯(lián)合SQL引擎幫助客戶從其數(shù)據(jù)倉庫與Hadoop當(dāng)中查詢數(shù)據(jù),”Gualtieri寫道。“方案還利用Aster對Hadoop進(jìn)行分析。”
Teradata的Hadoop設(shè)備目前只擁有不到一百家客戶,不過Gualtieri指出其雄厚的資金實(shí)力加之豐富的技術(shù)與管理資源足以創(chuàng)建出一套獨(dú)特的高性能設(shè)備,在這方面其它供應(yīng)商很難與之進(jìn)行正面對抗。
英特爾為Hadoop帶來以硬件為基礎(chǔ)的性能與安全性增強(qiáng)方案
在Hadoop發(fā)行版領(lǐng)域,英特爾的參與時(shí)間相對較晚,但這并不妨礙其利用其至強(qiáng)芯片的強(qiáng)大性能成為此間的一位有力競爭者。
“英特爾是第一家以硬件為基礎(chǔ)向Hadoop交付性能與安全性強(qiáng)化機(jī)制的供應(yīng)商,”Gualtieri寫道。“英特爾未來幾年的路線圖將進(jìn)一步與Hadoop解決方案市場上的其它參與者建立緊密的合作關(guān)系。除此之外,英特爾還將繼續(xù)專注于利用硬件強(qiáng)化性能與安全性表現(xiàn)、本地任務(wù)優(yōu)化、Lustre與圖形分析,這一切都將推動(dòng)其發(fā)行版在贏得廣泛關(guān)注與贊賞。”
微軟Windows Azure HDInsight,在云與Windows之力下茁壯成長
作為Hortonworks工程技術(shù)合作項(xiàng)目中的組成部分,微軟Windows Azure HDInsight Service的設(shè)計(jì)思路緊緊圍繞著Windows Azure云而展開。HDInsight and Hadoop for Windows(屬于Hortonworks數(shù)據(jù)平臺(tái)的一個(gè)分支版本)也是目前惟一一套運(yùn)行在Windows環(huán)境下的Hadoop發(fā)行版。
“微軟還提供Polybase以幫助SQL Server客戶對保存在Hadoop當(dāng)中的數(shù)據(jù)進(jìn)行查詢,”Gualtieri寫道。“微軟也在其它開源社區(qū)Hadoop項(xiàng)目當(dāng)中作出了積極貢獻(xiàn),其中就包括下一代Hive。微軟通過一系列Hadoop堆棧拓展舉措為其客戶在數(shù)據(jù)庫、數(shù)據(jù)倉庫、云、OLAP、商務(wù)智能、電子表格(PowerPivot)、雷德以及開發(fā)工具方面帶來顯著的改進(jìn)效果。”