GetInsight組件技術(shù)及功能(五):系統(tǒng)綜合管理平臺和分布式計算框架
GetInsight是慧都自主研發(fā)、應(yīng)用最靈活的大數(shù)據(jù)平臺。能夠幫助您隨時找到您想要的數(shù)據(jù),使數(shù)據(jù)得到安全、穩(wěn)定和高效的管理與應(yīng)用。GetInsight是企業(yè)大數(shù)據(jù)解決方案的重要組成部分,除了提供完整的大數(shù)據(jù)功能組件,我們還提供組件自定義搭配,為企業(yè)選擇滿足方案需要的大數(shù)據(jù)功能組件,使您的大數(shù)據(jù)解決方案成本降到最低,從而高品質(zhì)的解決您的大數(shù)據(jù)需求問題。
了解什么是GetInsight,請點擊這里查看GetInsight的基礎(chǔ)介紹>>
本文主要跟大家介紹GetInsight的系統(tǒng)綜合管理平臺、分布式計算框架和分布式MLlib。
系統(tǒng)綜合管理平臺
系統(tǒng)綜合管理平臺是大數(shù)據(jù)平臺的管理軟件,通過棧的形式提供Service的組合使用,簡化了部署過程,使集群快速運行起來。它具備大數(shù)據(jù)其他組件的安裝、管理、運維等基本功能,提供Web UI進行可視化的集群管理,簡化了大數(shù)據(jù)平臺的安裝、使用難度。同時,它實現(xiàn)集群狀態(tài)的監(jiān)控,可以方便的通過瀏覽器交互并進行參數(shù)的修改和節(jié)點擴展。
管控組件有自身的用戶管理系統(tǒng),基于RBAC賦予用戶對集群的管理權(quán)限。同時,它支持基于Kerberos的認證系統(tǒng),提供了基于角色的用戶認證、授權(quán)和審計功能,并為用戶管理集成了LDAP和Active Directory。
管控組件的實現(xiàn)使用了很多開源組件,其中:
- 在Agent端,采用了puppet管理節(jié)點;
- 在Web端,采用了ember.js作為前端的MVC構(gòu)架和NodeJS相關(guān)工具,用handlebars.js作為頁面渲染引擎,在CSS/HTML方面還用了Bootstrap 框架;
- 在Server端,采用了Jetty, Spring,Jetty,JAX-RS等;
- 同時利用了Ganglia,Nagios的分布式監(jiān)控能力。
GetInsight系統(tǒng)綜合管理平臺的功能
操作級別
集群管控組件支持三種不同類型的操作級別,它們分別是:
- Service Level Action - 基于Service級別的操作粒度管理,例如Mapreduce作業(yè)、Spark作業(yè)、Tez作業(yè)等;
- Host Level Action - 基于機器級別的操作粒度管理,例如開啟或停止文件系統(tǒng)集群、分布式數(shù)據(jù)庫等;
- Component Level Action - 基于模塊級別的操作粒度管理,例如在單個節(jié)點開啟或停止文件系統(tǒng)或分布式數(shù)據(jù)庫的數(shù)據(jù)節(jié)點等。
用戶管理
管控組件有自身的用戶與角色管理系統(tǒng),組件默認的權(quán)限有下面幾種:
- Cluster User - 以只讀的權(quán)限查看集群和Service的信息,如節(jié)點配置、service狀態(tài)、健康狀態(tài)等。
- Service Operator - 能夠操作Service的生命周期,如啟動,停止,也可以進行一些如平衡負載和的資源管理進程刷新操作
- Service Administrator - 在Service Operator的基礎(chǔ)上增加了配置service,移動管理節(jié)點,啟用HA等操作
- Cluster Operator - 在Service Administrator的基礎(chǔ)上增加了對節(jié)點和集群成員的操作,如增加,刪除集群成員等
- Cluster Administrator - 集群的超級管理員,可以操作任何組件。
集群監(jiān)控
集群管控組件實現(xiàn)的集群監(jiān)控,主要體現(xiàn)在下面幾個方面:
- 作業(yè)監(jiān)控 - 支持作業(yè)與任務(wù)執(zhí)行的可視化與分析,能夠更好地查看依賴和性能。
- 狀態(tài)查看 - 用戶界面非常直觀,用戶可以輕松有效地查看集群當(dāng)前信息并控制集群。
- 通知系統(tǒng) - 當(dāng)需要引起關(guān)注時,例如節(jié)點停機或磁盤剩余空間不足等問題,系統(tǒng)將向其發(fā)送郵件。
- 組件導(dǎo)向 - 集群管控組件并沒有對其他組件進行過多的功能集成,為了盡量保持了跟原生大數(shù)據(jù)組件的隔離性,通過Quick Links 直接導(dǎo)向其他組件的管理界面。
告警機制
為了幫助用戶鑒別以及定位集群的問題,實現(xiàn)了告警機制(Alert)。很多告警已經(jīng)被提前設(shè)定并默認維持,這些告警用于監(jiān)測集群的各個模塊以及機器的狀態(tài)。對于告警來說,主要有兩個概念,一個是Alert Definition,一個是 Alert Instance。顧名思義,Alert Definition 就是告警的定義,其中會定告警的檢測時間間隔(interval)、類型(type)、以及閾值(threshold)等。這些定義會被定期讀取,然后創(chuàng)建對應(yīng)的實例(instance)。例如 MapReduce2 這個 Service 就定義了兩個告警“History Server WEB UI”和“History Server Process”來定期檢查 History Server 模塊的狀態(tài)。
告警的檢查結(jié)果會以五種級別呈現(xiàn),分別是 OK、WARNING,CRITICAL、UNKNOW 和 NONE。其中最常見的是前三種。告警分為 5 種類型,分為 WEB、Port、Metric、Aggregate 和 Script。具體的區(qū)別見下面的表格。
類型 |
用途 |
告警級別 |
閥值是否可配 |
單位 |
PORT |
用來監(jiān)測機器上的一個端口是否可用 |
OK, WARN, CRIT |
是 |
秒 |
METRIC |
用來監(jiān)測 Metric 相關(guān)的配置屬性 |
OK, WARN, CRIT |
是 |
變量 |
AGGREGATE |
用于收集其他某些 Alert 的狀態(tài) |
OK, WARN, CRIT |
是 |
百分比 |
WEB |
用于監(jiān)測一個 WEB UI(URL)地址是否可用 |
OK, WARN, CRIT |
否 | 無 |
SCRIPT |
Alert 的監(jiān)測邏輯由一個自定義的 python 腳本執(zhí)行 |
OK, CRIT |
否 |
無 |
分布式計算框架
分布式計算框架是一個圍繞速度、易用性和復(fù)雜分析構(gòu)建的大數(shù)據(jù)處理框架,支持實時流計算,是大數(shù)據(jù)核心計算引擎,可以獨立集群部署,大量數(shù)據(jù)集計算任務(wù)分配到多臺計算機上,同時也是基于內(nèi)存的迭代式計算框架,也可以基于磁盤做迭代計算,提供高效內(nèi)存計算。該框架會使用一種名為Resilient Distributed Dataset(彈性分布式數(shù)據(jù)集)的數(shù)據(jù)模型,即RDD的模型來處理數(shù)據(jù),另外該算框架基于內(nèi)存的計算特點,使得在某些業(yè)務(wù)場景相比傳統(tǒng)的Hadoop MapReduce帶來幾十到上百倍的性能提升,特別契合機器學(xué)習(xí)迭代計算的要求。同時支持批處理、流處理、交互式查詢、機器學(xué)習(xí)、圖計算等常見的數(shù)據(jù)處理場景,而且兼容HDFS、Hive等分布式存儲系統(tǒng),可融入Hadoop生態(tài)。憑借高性能和全面的場景支持,成為大數(shù)據(jù)處理的主流標(biāo)準(zhǔn)。分布式計算框架
分布式MLlib
分布式MLlib一個常用的分布式機器學(xué)習(xí)算法庫,算法被實現(xiàn)為對RDD的Spark操作。機器學(xué)習(xí)是一門涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多領(lǐng)域的交叉學(xué)科,專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。MLlib目前已經(jīng)提供了基礎(chǔ)統(tǒng)計、分析、回歸、決策樹、隨機森林、樸素貝葉斯、保序回歸、協(xié)同過濾、聚類、維數(shù)縮減、特征提取與轉(zhuǎn)型、頻繁模式挖掘、預(yù)言模型標(biāo)記語言、管道等多種數(shù)理統(tǒng)計、概率論、數(shù)據(jù)挖掘方面的數(shù)學(xué)算法,可以分為回歸、分類、聚類、協(xié)同過濾四類。分布式計算框架立足于內(nèi)存計算,天然的適應(yīng)于迭代式計算,符合機器學(xué)習(xí)平臺所要求的強大處理能力。機器學(xué)習(xí)的運行流程如下
慧都工業(yè)大數(shù)據(jù)分析方案即將精益生產(chǎn)理論體系進行了完美的融合和應(yīng)用,并對大數(shù)據(jù)總體架構(gòu)進行了更細致明確的解讀,提供自主研發(fā)的大數(shù)據(jù)平臺,實現(xiàn)ETL、數(shù)據(jù)管理及存儲、數(shù)據(jù)建模。如下圖所示:
關(guān)于慧都大數(shù)據(jù)分析平臺
慧都大數(shù)據(jù)分析平臺「GetInsight®」升級發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測、設(shè)備分析及預(yù)測等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運營模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級,抓住數(shù)據(jù)經(jīng)濟的發(fā)展勢頭,提供管理效能,精準(zhǔn)布局未來。了解更多,請聯(lián)系在線客服。
慧都大數(shù)據(jù)專業(yè)團隊為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺搭建,免費業(yè)務(wù)咨詢,定制開發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業(yè)的大數(shù)據(jù)團隊,為您提供免費大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢!