<menu id="w2i4a"></menu>

慧都大數(shù)據(jù)（一）

文檔首頁>>慧都大數(shù)據(jù)（一）>>大數(shù)據(jù)基礎(chǔ)平臺(tái)架構(gòu)和其價(jià)值，你知道多少？

大數(shù)據(jù)基礎(chǔ)平臺(tái)架構(gòu)和其價(jià)值，你知道多少？

慧都工業(yè)大數(shù)據(jù)分析平臺(tái)，為您提供從數(shù)據(jù)采集、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模、可視化分析的端到端解決方案。

慧都工業(yè)大數(shù)據(jù)系統(tǒng)數(shù)據(jù)架構(gòu)

從整體架構(gòu)可以看出，“大數(shù)據(jù)基礎(chǔ)平臺(tái)部分”采取的策略準(zhǔn)則是盡量減少對(duì)原有系統(tǒng)的修改，通過基于模塊化的交付方式提供基于大數(shù)據(jù)的分布式存儲(chǔ)能力、分布式計(jì)算能力和智能建模能力。

大數(shù)據(jù)基礎(chǔ)平臺(tái)：提供前端工業(yè)數(shù)據(jù)的批量及實(shí)時(shí)處理能力，分布式存儲(chǔ)及計(jì)算能力，大數(shù)據(jù)基礎(chǔ)平臺(tái)數(shù)據(jù)管理能力。數(shù)據(jù)對(duì)象模型、工業(yè)對(duì)象模型的定義及實(shí)例的存儲(chǔ)。

大數(shù)據(jù)基礎(chǔ)平臺(tái)

大數(shù)據(jù)基礎(chǔ)平臺(tái)是大數(shù)據(jù)的根基所在，大數(shù)據(jù)的上層應(yīng)用都需要大數(shù)據(jù)基礎(chǔ)平臺(tái)提供數(shù)據(jù)存儲(chǔ)和運(yùn)算能力，本文中的三家工業(yè)客戶都部署實(shí)施了該基礎(chǔ)平臺(tái)。

1. 大數(shù)據(jù)基礎(chǔ)平臺(tái)的主要組件和架構(gòu)如下圖所示：

Flume

1) Flume支持多種接入資源數(shù)據(jù)的類型以及接出數(shù)據(jù)類型，可以高效率的將多個(gè)數(shù)據(jù)源的數(shù)據(jù)發(fā)送至下游系統(tǒng)。

2) 當(dāng)收集數(shù)據(jù)的速度超過將寫入數(shù)據(jù)的時(shí)候，Flume會(huì)在數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)收容器間做出調(diào)整，保證其能夠在兩者之間提供平穩(wěn)的數(shù)據(jù)。.

3) Flume的管道是基于事務(wù)，保證了數(shù)據(jù)在傳送和接收時(shí)的一致性。

4) 支持多路徑流量，多管道接入流量，多管道接出流量，上下文路由等。

Kafka

1) 分布式，可劃分，可靠性強(qiáng)的日志服務(wù)。

2) 以時(shí)間復(fù)雜度為O(1)的方式提供消息持久化能力。

3) 高吞吐率，即使在非常廉價(jià)的商用機(jī)器上也能做到單機(jī)支持每秒100K條以上消息的傳輸。

4) 支持Kafka Server間的消息分區(qū)及分布式消費(fèi)，同時(shí)保證每個(gè)Partition內(nèi)的消息順序傳輸。

5) 同時(shí)支持離線數(shù)據(jù)處理和實(shí)時(shí)數(shù)據(jù)處理。

6) 支持在線水平擴(kuò)展。

Oozie

1) Oozie是管理Hadoop作業(yè)的工作流調(diào)度系統(tǒng)

2) Oozie的工作流是一系列的操作圖

3) Oozie協(xié)調(diào)作業(yè)是通過時(shí)間（頻率）以及有效數(shù)據(jù)觸發(fā)當(dāng)前的Oozie工作流程

4) Oozie是針對(duì)Hadoop開發(fā)的開源工作流引擎，專門針對(duì)大規(guī)模復(fù)雜工作流程和數(shù)據(jù)管道設(shè)計(jì)

5) Oozie圍繞兩個(gè)核心：工作流和協(xié)調(diào)器，前者定義任務(wù)的拓?fù)浜蛨?zhí)行邏輯，后者負(fù)責(zé)工作流的依賴和觸發(fā)。

Zookeeper

1) 為了允許在分布式系統(tǒng)中對(duì)共享資源進(jìn)行有序的訪問，提供分布式互斥功能。

2) 與互斥同時(shí)出現(xiàn)的是同步訪問共享資源的需求。無論是實(shí)現(xiàn)一個(gè)生產(chǎn)者-消費(fèi)者隊(duì)列，還是實(shí)現(xiàn)一個(gè)障礙，Zookeeper 都提供一個(gè)簡(jiǎn)單的接口來實(shí)現(xiàn)該操作。

3) Zookeeper可用于處理分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題，如統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項(xiàng)的管理等。

4) 分布式系統(tǒng)可能必須處理節(jié)點(diǎn)停機(jī)的問題，Zookeeper 通過領(lǐng)導(dǎo)者選舉對(duì)此提供現(xiàn)成的支持。

Hive

1) Hive本身不支持?jǐn)?shù)據(jù)存儲(chǔ)和運(yùn)算，完全依賴HDFS和MapReduce、Spark、Tez中的一種。

2) 數(shù)據(jù)模型和關(guān)系數(shù)據(jù)庫(kù)類似，為結(jié)構(gòu)化的表；列的數(shù)量有限。

3) 同時(shí)支持行存儲(chǔ)與列存儲(chǔ)，但數(shù)據(jù)處理邏輯是基于行的模式。

4) 有限支持Update以及Delete操作（部分表類型支持，但計(jì)算時(shí)延高開銷大）。

5) 不能保證處理的低遲延問題，適用于離線的批量數(shù)據(jù)計(jì)算。

6) 與Spark、Hbase和Impala等組件有良好的交互。

7) Hive的版本更新或更改計(jì)算引擎不會(huì)影響到當(dāng)前的語法，只會(huì)添加語句，語法以及API接口，或者優(yōu)化內(nèi)部算法。

Spark

1) RDD，彈性分布式數(shù)據(jù)集，是一種編程抽象，代表可以跨機(jī)器進(jìn)行分割的只讀對(duì)象集合。RDD可以從一個(gè)繼承結(jié)構(gòu)（lineage）重建，提供了完善容錯(cuò)機(jī)制。同時(shí)，RDD支持并行操作，可以效率的讀寫HDFS或S3等分布式存儲(chǔ)。

2) 由于RDD可以被緩存，因而避免了復(fù)雜運(yùn)算中多次與HDFS交換數(shù)據(jù)流，同時(shí)避免在HDFS存儲(chǔ)讀取臨時(shí)數(shù)據(jù)，簡(jiǎn)化了數(shù)據(jù)流。因此，Spark對(duì)迭代應(yīng)用特別有效。大多數(shù)機(jī)器學(xué)習(xí)和最優(yōu)化算法都是迭代的，使得Spark對(duì)數(shù)據(jù)科學(xué)來說是個(gè)非常有效的工具。

3) Spark支持多種語言，目前版本（2.2.0）可以在Shell中使用Python，Java以及Scala語言交互。

2. 平臺(tái)的價(jià)值

慧都大數(shù)據(jù)基礎(chǔ)平臺(tái)實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)，該文件系統(tǒng)有高容錯(cuò)性的特點(diǎn)，并且設(shè)計(jì)用來部署在低廉的硬件上；而且它提供高吞吐量來訪問應(yīng)用程序的數(shù)據(jù)，適合有超大數(shù)據(jù)集的應(yīng)用程序。平臺(tái)支持以流的形式訪問文件系統(tǒng)中的數(shù)據(jù)。

慧都大數(shù)據(jù)基礎(chǔ)平臺(tái)在數(shù)據(jù)準(zhǔn)備(Data Preparation)方面上具備天然的優(yōu)勢(shì)。平臺(tái)的分布式架構(gòu)，將大數(shù)據(jù)處理引擎盡可能的靠近存儲(chǔ)，對(duì)例如像數(shù)據(jù)準(zhǔn)備這樣的批處理操作相對(duì)合適，因?yàn)轭愃七@樣操作的批處理結(jié)果可以直接走向存儲(chǔ)。平臺(tái)實(shí)現(xiàn)了將單個(gè)任務(wù)打碎，并將碎片任務(wù)發(fā)送到多個(gè)節(jié)點(diǎn)上，之后再以單個(gè)數(shù)據(jù)集的形式加載到數(shù)據(jù)倉(cāng)庫(kù)里。

關(guān)于慧都大數(shù)據(jù)分析平臺(tái)

慧都大數(shù)據(jù)分析平臺(tái)「GetInsight®」升級(jí)發(fā)布，將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測(cè)、設(shè)備分析及預(yù)測(cè)等大數(shù)據(jù)模型的構(gòu)建，助力企業(yè)由傳統(tǒng)運(yùn)營(yíng)模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級(jí)，抓住數(shù)據(jù)經(jīng)濟(jì)的發(fā)展勢(shì)頭，提供管理效能，精準(zhǔn)布局未來。了解更多，請(qǐng)聯(lián)系在線客服。

慧都大數(shù)據(jù)專業(yè)團(tuán)隊(duì)為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺(tái)搭建，免費(fèi)業(yè)務(wù)咨詢，定制開發(fā)等完整服務(wù)，快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。

歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服，我們有專業(yè)的大數(shù)據(jù)團(tuán)隊(duì)，為您提供免費(fèi)大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢！

慧都科技版權(quán)所有 Copyright 2003-2024 渝ICP備12000582號(hào)-13 渝公網(wǎng)安備 50010702500608號(hào) 本站由提供CDN加速/云存儲(chǔ)服務(wù)

掃碼咨詢

添加微信立即咨詢

電話咨詢

客服熱線
023-68661681

TOP

三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();