大數(shù)據(jù)基礎(chǔ)平臺(tái)架構(gòu)和其價(jià)值,你知道多少?
慧都工業(yè)大數(shù)據(jù)分析平臺(tái),為您提供從數(shù)據(jù)采集、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模、可視化分析的端到端解決方案。
慧都工業(yè)大數(shù)據(jù)系統(tǒng)數(shù)據(jù)架構(gòu)
從整體架構(gòu)可以看出,“大數(shù)據(jù)基礎(chǔ)平臺(tái)部分”采取的策略準(zhǔn)則是盡量減少對(duì)原有系統(tǒng)的修改,通過基于模塊化的交付方式提供基于大數(shù)據(jù)的分布式存儲(chǔ)能力、分布式計(jì)算能力和智能建模能力。
大數(shù)據(jù)基礎(chǔ)平臺(tái):提供前端工業(yè)數(shù)據(jù)的批量及實(shí)時(shí)處理能力,分布式存儲(chǔ)及計(jì)算能力,大數(shù)據(jù)基礎(chǔ)平臺(tái)數(shù)據(jù)管理能力。數(shù)據(jù)對(duì)象模型、工業(yè)對(duì)象模型的定義及實(shí)例的存儲(chǔ)。
大數(shù)據(jù)基礎(chǔ)平臺(tái)
大數(shù)據(jù)基礎(chǔ)平臺(tái)是大數(shù)據(jù)的根基所在,大數(shù)據(jù)的上層應(yīng)用都需要大數(shù)據(jù)基礎(chǔ)平臺(tái)提供數(shù)據(jù)存儲(chǔ)和運(yùn)算能力,本文中的三家工業(yè)客戶都部署實(shí)施了該基礎(chǔ)平臺(tái)。
1. 大數(shù)據(jù)基礎(chǔ)平臺(tái)的主要組件和架構(gòu)如下圖所示:
Flume
1) Flume支持多種接入資源數(shù)據(jù)的類型以及接出數(shù)據(jù)類型,可以高效率的將多個(gè)數(shù)據(jù)源的數(shù)據(jù)發(fā)送至下游系統(tǒng)。
2) 當(dāng)收集數(shù)據(jù)的速度超過將寫入數(shù)據(jù)的時(shí)候,Flume會(huì)在數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)收容器間做出調(diào)整,保證其能夠在兩者之間提供平穩(wěn)的數(shù)據(jù)。.
3) Flume的管道是基于事務(wù),保證了數(shù)據(jù)在傳送和接收時(shí)的一致性。
4) 支持多路徑流量,多管道接入流量,多管道接出流量,上下文路由等。
Kafka
1) 分布式,可劃分,可靠性強(qiáng)的日志服務(wù)。
2) 以時(shí)間復(fù)雜度為O(1)的方式提供消息持久化能力。
3) 高吞吐率,即使在非常廉價(jià)的商用機(jī)器上也能做到單機(jī)支持每秒100K條以上消息的傳輸。
4) 支持Kafka Server間的消息分區(qū)及分布式消費(fèi),同時(shí)保證每個(gè)Partition內(nèi)的消息順序傳輸。
5) 同時(shí)支持離線數(shù)據(jù)處理和實(shí)時(shí)數(shù)據(jù)處理。
6) 支持在線水平擴(kuò)展。
Oozie
1) Oozie是管理Hadoop作業(yè)的工作流調(diào)度系統(tǒng)
2) Oozie的工作流是一系列的操作圖
3) Oozie協(xié)調(diào)作業(yè)是通過時(shí)間(頻率)以及有效數(shù)據(jù)觸發(fā)當(dāng)前的Oozie工作流程
4) Oozie是針對(duì)Hadoop開發(fā)的開源工作流引擎,專門針對(duì)大規(guī)模復(fù)雜工作流程和數(shù)據(jù)管道設(shè)計(jì)
5) Oozie圍繞兩個(gè)核心:工作流和協(xié)調(diào)器,前者定義任務(wù)的拓?fù)浜蛨?zhí)行邏輯,后者負(fù)責(zé)工作流的依賴和觸發(fā)。
Zookeeper
1) 為了允許在分布式系統(tǒng)中對(duì)共享資源進(jìn)行有序的訪問,提供分布式互斥功能。
2) 與互斥同時(shí)出現(xiàn)的是同步訪問共享資源的需求。無論是實(shí)現(xiàn)一個(gè)生產(chǎn)者-消費(fèi)者隊(duì)列,還是實(shí)現(xiàn)一個(gè)障礙,Zookeeper 都提供一個(gè)簡(jiǎn)單的接口來實(shí)現(xiàn)該操作。
3) Zookeeper可用于處理分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題,如統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項(xiàng)的管理等。
4) 分布式系統(tǒng)可能必須處理節(jié)點(diǎn)停機(jī)的問題,Zookeeper 通過領(lǐng)導(dǎo)者選舉對(duì)此提供現(xiàn)成的支持。
Hive
1) Hive本身不支持?jǐn)?shù)據(jù)存儲(chǔ)和運(yùn)算,完全依賴HDFS和MapReduce、Spark、Tez中的一種。
2) 數(shù)據(jù)模型和關(guān)系數(shù)據(jù)庫(kù)類似,為結(jié)構(gòu)化的表;列的數(shù)量有限。
3) 同時(shí)支持行存儲(chǔ)與列存儲(chǔ),但數(shù)據(jù)處理邏輯是基于行的模式。
4) 有限支持Update以及Delete操作(部分表類型支持,但計(jì)算時(shí)延高開銷大)。
5) 不能保證處理的低遲延問題,適用于離線的批量數(shù)據(jù)計(jì)算。
6) 與Spark、Hbase和Impala等組件有良好的交互。
7) Hive的版本更新或更改計(jì)算引擎不會(huì)影響到當(dāng)前的語法,只會(huì)添加語句,語法以及API接口,或者優(yōu)化內(nèi)部算法。
Spark
1) RDD,彈性分布式數(shù)據(jù)集,是一種編程抽象,代表可以跨機(jī)器進(jìn)行分割的只讀對(duì)象集合。RDD可以從一個(gè)繼承結(jié)構(gòu)(lineage)重建,提供了完善容錯(cuò)機(jī)制。同時(shí),RDD支持并行操作,可以效率的讀寫HDFS或S3等分布式存儲(chǔ)。
2) 由于RDD可以被緩存,因而避免了復(fù)雜運(yùn)算中多次與HDFS交換數(shù)據(jù)流,同時(shí)避免在HDFS存儲(chǔ)讀取臨時(shí)數(shù)據(jù),簡(jiǎn)化了數(shù)據(jù)流。因此,Spark對(duì)迭代應(yīng)用特別有效。大多數(shù)機(jī)器學(xué)習(xí)和最優(yōu)化算法都是迭代的,使得Spark對(duì)數(shù)據(jù)科學(xué)來說是個(gè)非常有效的工具。
3) Spark支持多種語言,目前版本(2.2.0)可以在Shell中使用Python,Java以及Scala語言交互。
2. 平臺(tái)的價(jià)值
慧都大數(shù)據(jù)基礎(chǔ)平臺(tái)實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng),該文件系統(tǒng)有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的硬件上;而且它提供高吞吐量來訪問應(yīng)用程序的數(shù)據(jù),適合有超大數(shù)據(jù)集的應(yīng)用程序。平臺(tái)支持以流的形式訪問文件系統(tǒng)中的數(shù)據(jù)。
慧都大數(shù)據(jù)基礎(chǔ)平臺(tái)在數(shù)據(jù)準(zhǔn)備(Data Preparation)方面上具備天然的優(yōu)勢(shì)。平臺(tái)的分布式架構(gòu),將大數(shù)據(jù)處理引擎盡可能的靠近存儲(chǔ),對(duì)例如像數(shù)據(jù)準(zhǔn)備這樣的批處理操作相對(duì)合適,因?yàn)轭愃七@樣操作的批處理結(jié)果可以直接走向存儲(chǔ)。平臺(tái)實(shí)現(xiàn)了將單個(gè)任務(wù)打碎,并將碎片任務(wù)發(fā)送到多個(gè)節(jié)點(diǎn)上,之后再以單個(gè)數(shù)據(jù)集的形式加載到數(shù)據(jù)倉(cāng)庫(kù)里。
關(guān)于慧都大數(shù)據(jù)分析平臺(tái)
慧都大數(shù)據(jù)分析平臺(tái)「GetInsight®」升級(jí)發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測(cè)、設(shè)備分析及預(yù)測(cè)等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運(yùn)營(yíng)模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級(jí),抓住數(shù)據(jù)經(jīng)濟(jì)的發(fā)展勢(shì)頭,提供管理效能,精準(zhǔn)布局未來。了解更多,請(qǐng)聯(lián)系在線客服。
慧都大數(shù)據(jù)專業(yè)團(tuán)隊(duì)為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺(tái)搭建,免費(fèi)業(yè)務(wù)咨詢,定制開發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業(yè)的大數(shù)據(jù)團(tuán)隊(duì),為您提供免費(fèi)大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢!