開源Hadoop真的便宜嗎?來算一下你的IT成本
在美國舉行的2014數(shù)據(jù)倉庫研究所TDWI高峰會(huì)議上,有著豐富數(shù)據(jù)生命周期管理經(jīng)驗(yàn)的咨詢師Richard Winter做了演講,他指出使用開源Hadoop架構(gòu)時(shí),要注意計(jì)算數(shù)據(jù)成本。因?yàn)楹芏嚯[性的成本潛伏在表面免費(fèi)的架構(gòu)中,常常被人忽略。硬件成本只是很少的一部分。
Winter表示:“很多Hadoop的成本并非來自系統(tǒng)本身,比如開發(fā)和管理系統(tǒng)的成本就不容小覷。”
Winter指出,針對Hadoop集群的應(yīng)用開發(fā)和周邊工具集的開發(fā)依然是Hadoop發(fā)展中最重要的??傮w來看,Hadoop還是所有數(shù)據(jù)架構(gòu)中比較廉價(jià)的。
不過Winter建議,數(shù)據(jù)管理者在衡量Hadoop可用性的時(shí)候,應(yīng)該看具體的應(yīng)用類型。
計(jì)算IT成本
Hadoop是以Java為基礎(chǔ)的,對于如何衡量Hadoop的成本,Winter建議道要兼顧存儲(chǔ)、管理、分析、開發(fā)和系統(tǒng)成本。在他的研究中,他也引 用了一些一般性數(shù)據(jù),比如他從一個(gè)追蹤薪酬的網(wǎng)站了解到一般Java開發(fā)者的薪水,而他要為員工增加50%的一般性開銷。Winter還在自己的網(wǎng)站上列 出了更多資料。
Winter還考慮了Hadoop中開發(fā)查詢的成本,這是只有高水平的開發(fā)者才能勝任的。同時(shí),他還比較了在數(shù)據(jù)倉庫和Hadoop環(huán)境下做簡單查詢和復(fù) 雜查詢需要的代碼數(shù)和成本有什么不同。他發(fā)現(xiàn),在Hadoop環(huán)境下創(chuàng)建查詢要復(fù)雜的多,Hadoop文件系統(tǒng)、MapReduce、Java和SQL替代品(比如Hive)等都需要更多的代碼,這是企業(yè)面臨的問題。
Winter表示:“只在一小部分公司中,Hadoop應(yīng)用的很廣泛,因?yàn)檫@些公司本身有很強(qiáng)大的Java團(tuán)隊(duì)。”而在大多數(shù)公司中,Hadoop的應(yīng)用還很有限。
善用技術(shù)優(yōu)勢
在峰會(huì)現(xiàn)場,Winter采訪了很多與會(huì)者,詢問數(shù)據(jù)倉庫項(xiàng)目和Hadoop項(xiàng)目的成本問題,不同的用戶給出了截然不同的回答。
如果把所有費(fèi)用都考慮進(jìn)去,用Hadoop重新創(chuàng)建一個(gè)企業(yè)級數(shù)據(jù)倉庫系統(tǒng)要比使用傳統(tǒng)基于SQL的數(shù)據(jù)倉庫貴得多。但如果你需要數(shù)據(jù)分級處理系統(tǒng)或數(shù)據(jù)池風(fēng)格的應(yīng)用系統(tǒng)支持?jǐn)?shù)據(jù)分析工作,那么Hadoop在還是有成本優(yōu)勢的,雖然它的花費(fèi)也很多。
Winter指出,Hadoop可以監(jiān)測大量數(shù)據(jù)中的異常值,哪怕只有細(xì)微變化,工作人員都可以發(fā)現(xiàn)。這在物聯(lián)網(wǎng)領(lǐng)域有很重要的應(yīng)用。以航空公司的引擎數(shù)據(jù)分析為例,只有在數(shù)據(jù)偏離異常值的時(shí)候,數(shù)據(jù)才有被關(guān)注的價(jià)值。
很多因素,包括用例都會(huì)影響技術(shù)類型的選擇。比如在系統(tǒng)擁有更多數(shù)據(jù)源、更多用戶、需要更多查詢的時(shí)候,久經(jīng)考驗(yàn)的數(shù)據(jù)倉庫技術(shù)就能表現(xiàn)出卓越的技術(shù)優(yōu)勢。但如果情況正相反,你可能就要選擇Hadoop了。
進(jìn)一步講,Hadoop和傳統(tǒng)數(shù)據(jù)倉庫更有可能融合使用。數(shù)據(jù)管理者要做的不只是為應(yīng)用挑選正確的平臺,還要了解不同的技術(shù),同時(shí)采用,分開使用。