• <menu id="w2i4a"></menu>
  • logo Hadoop教程

    文檔首頁>>Hadoop教程>>Hadoop教程:Hadoop的技術生態(tài)圈

    Hadoop教程:Hadoop的技術生態(tài)圈


    Hadoop介紹,Hadoop實踐

    在云計算和大數(shù)據(jù)大行其道的今天,Hadoop及其相關技術起到了非常重要的作用,是這個時代不容忽視的一個技術平臺。事實上,由于其開源、低成本和和前所未有的擴展性,Hadoop正成為新一代的數(shù)據(jù)處理平臺

    Hadoop是基于Java語言構建的一套分布式數(shù)據(jù)處理框架,從其歷史發(fā)展角度我們就可以看出,Hadoop一誕生,就具備高貴的血統(tǒng),發(fā)展順風順水:

    2004年,Google發(fā)表論文,向全世界介紹了MapReduce

    2005年初,為了支持Nutch搜索引擎項目,Nutch的開發(fā)者基于Google發(fā)布的MapReduce報告,在Nutch上開發(fā)了一個可工作的MapReduce應用

    2005年中,所有主要的Nutch算法被移植到MapReduce和NDFS(Nutch Distributed File System )環(huán)境來運行

    2006年2月,Apache Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發(fā)展

    2007年,百度開始使用Hadoop做離線處理,目前差不多80%的Hadoop集群用作日志處理

    2008年,淘寶開始投入研究基于Hadoop的系統(tǒng)–云梯,并將其用于處理電子商務相關數(shù)據(jù)。云梯1的總容量大概為9.3PB,包含了1100臺機器,每天處理約18000道作業(yè),掃描500TB數(shù)據(jù)

    2008年1月,Hadoop成為Apache頂級項目

    2008年7月,Hadoop打破1TB數(shù)據(jù)排序基準測試記錄。Yahoo的一個Hadoop集群用209秒完成1TB數(shù)據(jù)的排序,比上一年的紀錄保持者保持的297秒快了將近90秒

      ……

    很多人開始接觸Hadoop時,都以為這是一個項目,其實Hadoop除了核心的MapReduce和HDFS之外,還包含了眾多的子項目,換句話說,Hadoop已經(jīng)形成了一個豐富的技術生態(tài)圈:

    Hadoop介紹,Hadoop實踐

    為什么會有這樣的技術誕生呢?

    簡而言之,隨著互聯(lián)網(wǎng)的飛速發(fā)展,大量數(shù)據(jù)的存儲和分析遇到瓶頸,磁盤容量的增長遠遠大于磁盤讀取速度,1TB的磁盤,數(shù)據(jù)傳輸速度100MB/s,讀一遍2.5H,寫數(shù)據(jù)就別提了,心拔涼拔涼的(當然SSD在生產(chǎn)環(huán)境的實際應用,大大緩解了這一窘境)。數(shù)據(jù)量的增長在互聯(lián)網(wǎng)應用中體現(xiàn)的非常明顯,好的互聯(lián)網(wǎng)應用動輒就有上千萬的用戶,無論是數(shù)據(jù)的容量、壓力都與日俱增。另外在企業(yè)應用層面,很多大中型企業(yè),信息化進行了十幾年,企業(yè)內部積累了大量的非結構化數(shù)據(jù),各種類型的文件需要存儲、備份、分析、展示,苦于沒有很好的辦法進行數(shù)據(jù)處理。

    那么如何解決這樣的問題,技術牛娃自然有辦法,比如磁盤數(shù)據(jù)的并行讀寫,數(shù)據(jù)分塊,分布式文件系統(tǒng),冗余數(shù)據(jù),MapReduce算法等等,最后Hadoop等類似的技術應運而生。于是我等草民有福了。

    不是有那么一句話么,大數(shù)據(jù)勝于好算法,如果數(shù)據(jù)足夠多,可能產(chǎn)生出意想之外的應用,看看現(xiàn)在Facebook、Twitter、微博相關的衍生應用就知道了。另外,無論算法好壞,更多的數(shù)據(jù)總能帶了來更好的推薦效果,這也是顯而易見。

    所以,無論云計算和大數(shù)據(jù)口號喊的多么虛頭八腦,但Hadoop都是一門非常務實的技術,無論你身在互聯(lián)網(wǎng)企業(yè)還是傳統(tǒng)軟件公司,都應該學習和了解這門技術。

    多說一句,Hadoop的部署提供三種模式,本地模式、偽分布模式和全分布模式,建議大家采用第三種進行實踐,這樣對系統(tǒng)用法的理解更深入一些。這就需要你至少要兩臺機器進行集群,比較好的方式是使用虛擬機。Hadoop原生支持 Unix/Linux,你要是想在Windows上玩,還需要裝模擬環(huán)境cygwin。這時候就體現(xiàn)出Mac用戶的優(yōu)勢了,我是采用Mac做 Master,起兩臺虛擬Linux做Slave,SSD+8G內存,毫無壓力。這樣做的好處其實在Unix編程思想這部書中也提到過,就是用最小工作環(huán)境達到最大的工作范圍。

    原文連接:http://www.cnblogs.com/chijianqiang/archive/2012/06/25/hadoop-info.html

    掃碼咨詢


    添加微信 立即咨詢

    電話咨詢

    客服熱線
    023-68661681

    TOP
    三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();