Hadoop教程:越長大越孤單的Hadoop
現(xiàn)在,越來越難以定義到底Hadoop是什么,亦或是Hadoop不是什么。幾年前,Hadoop基本上等于MapReduce,一個(gè)處理海量數(shù)據(jù)的批處 理系統(tǒng),讓人們誤認(rèn)為Hadoop即為大數(shù)據(jù)(Big Data),大數(shù)據(jù)就是“很多很多的數(shù)據(jù)”。但如果市場(chǎng)上不存在這樣的困惑,今天只會(huì)更糟。因?yàn)镠adoop正承擔(dān)和提供著各種各樣的功能,而這在兩年前 被認(rèn)為是不可能的。
顯然,這對(duì)于Hadoop平臺(tái)來講是極好的,但可能會(huì)讓Hadoop用戶使用起來倍感困難。
Hadoop:方興未艾
從2007開始,Hadoop就開始存在了,然而盡管投入使用Hadoop的興趣很是廣泛,但直到如今還比較小眾。Gartner的分析師Svetlana Sicular在tweeter中提到:
盡管對(duì)Hadoop有很強(qiáng)的興趣,實(shí)際將Hadoop投入使用的公司卻有限,451 Research的一項(xiàng)調(diào)查表明:
對(duì)Hadoop有興趣使用的很多,真正使用起Hadoop的卻不多,這樣的不一致歸結(jié)于Hadoop的復(fù)雜性,Pepperdata的首席執(zhí)行官補(bǔ)充道。還有一部分是因?yàn)閺S商過分吹噓當(dāng)前Hadoop的功能,讓企業(yè)用戶倍感混亂。
但是,Hadoop的一個(gè)最大的優(yōu)點(diǎn)在于:它的靈活性。
Hadoop“百變金剛”
蘇斯(Suess)博士在《老雷斯的故事》中描述了一個(gè)建立在thneeds之上的工業(yè)背景,thneeds是一種“能夠滿足所有人需要的所有東西”。如 百變金剛一般,Thneeds可以是任何東西(“它可以是一件T恤,一只襪子,一雙手套,一頂帽子。但是他還有其他各種用途,沒錯(cuò),遠(yuǎn)遠(yuǎn)超過你能想象的。 你可以拿它當(dāng)毯子!枕頭!床單!窗簾!甚至自行車坐墊!”)。
Hadoop也是類似的這樣一種“能夠滿足所有人需要的所有東西”。
記得在2012年的時(shí)候,Hadoop的創(chuàng)造者Doug Cutting對(duì)我說,“Hadoop是大數(shù)據(jù)的操作系統(tǒng)”,因?yàn)?ldquo;在Hadoop平臺(tái)上會(huì)有一系列的工具讓這個(gè)生態(tài)圈逐漸壯大”。
到如今,他應(yīng)該更新一下原來的看法,應(yīng)該說Hadoop“能夠勝任絕大多數(shù)的應(yīng)用場(chǎng)景,雖然對(duì)于任何場(chǎng)景都不算是最好的。”
很大程度上,這是由于YARN的誕生。從來沒有什么項(xiàng)目像YARN這樣,對(duì)Hadoop有如此之大的影響。YARN是第二代的MapReduce,一個(gè)資源和集群管理的工具,對(duì)提高Hadoop的實(shí)用性具有深遠(yuǎn)的意義。
Gartner分析師Merv Adrian是這樣說的,在Hadoop初期,一切都很簡單,Hadoop就是HDFS加MapReduce以及一些小工具。隨著這些工具越來越正式,它 們紛紛成為了各自的項(xiàng)目,有了Hadoop發(fā)行版的商業(yè)支持,比如:Pig,Hive,Hbase以及Zookeeper等。幾個(gè)月前,我注意到,包括 Accumulo,Avro,Cascading,F(xiàn)lume,Mahout,Oozie,Spark,Sqoop以及YARN也加入了這個(gè)名單中。
YARN之所以重要,不是僅僅在于一系列的Hadoop組件會(huì)隨著發(fā)生改變,而是在于他喚醒的一系列Hadoop組件將會(huì)改變Hadoop的意義。 YARN讓Hadoop不再只是一個(gè)做數(shù)據(jù)分析和ETL的暴力掃描、批處理工具。Hadoop可以成為交互式分析工具、事件處理器、事務(wù)系統(tǒng)、一個(gè)用戶復(fù) 雜和混合工作負(fù)載的安全自治系統(tǒng)。
YARN,讓Hadoop力量倍增。
Hadoop社區(qū)的喜與憂
這件事有利有弊,MapR的CEO John Schroeder這樣說,“沒有哪個(gè)企業(yè)擁有的Hadoop開發(fā)者能夠超過全部開發(fā)者的15%或20%以上,所以你沒法操縱Hadoop社區(qū)。”無法操縱,也無法引導(dǎo)和指向。
在Hadoop這個(gè)大廚房里有如此眾多的廚師,出現(xiàn)如此眾多的表現(xiàn)形式和功能就不足為奇了。Adrian提到,“像其他人一樣,我也會(huì)重新定義Hadoop來滿足我自己的需求。”
這是Hadoop仍然復(fù)雜的關(guān)鍵原因之一。盡管Hortonworks的CEO Rob Bearden的意見是Hadoop公共開發(fā)的目標(biāo)在于讓Hadoop“易用和可靠。”
這的確很難做到,事實(shí)證明對(duì)所有人來講都好用是不現(xiàn)實(shí)的。
正當(dāng)黎明破曉時(shí)
Hadoop如此復(fù)雜——難以定義,也難以實(shí)現(xiàn)——不過,事實(shí)上也可以輕松駕馭。雖然底層的技術(shù)仍然復(fù)雜,很多公司正致力于將這種復(fù)雜性隱藏起來,不再向用戶暴露,正如Adrian在tweeter中提到的:
Cloudera的聯(lián)合創(chuàng)始人Mike Olson早在2012年就曾這樣表述,他確信通過云應(yīng)用提供商,大多數(shù)的企業(yè)都能挖掘出Hadoop的價(jià)值所在。換句話說,不像Hadoop社區(qū)那樣復(fù)雜,技術(shù)在不久的將來將不再如此復(fù)雜難以駕馭。
但這也不重要,因?yàn)橄馞acebook和Zoomdata各種不同的公司將Hadoop以服務(wù)的形式提供給消費(fèi)者和企業(yè),從而讓Hadoop很容易使用。 這是Hadoop的承諾:Hadoop社區(qū)包括Cloudera和Hortonworks這樣的廠商在內(nèi),有不斷地提高和擴(kuò)展其技術(shù),并且會(huì)對(duì)復(fù)雜的 Hadoop進(jìn)行抽象和簡化,讓Hadoop可以在主流企業(yè)中應(yīng)用開來。
比雙十一更勁爆!【年終大促 巔峰盛"慧" 】促銷火熱進(jìn)行中 iPhone 6 Plus、 iPhone 6、iPad Air滿就送,還不趕快買買買!
來源:TechTarget中國