GetInsight組件技術(shù)及功能(四):Hadoop數(shù)倉(cāng)系統(tǒng)和全文搜索功能
GetInsight是慧都自主研發(fā)、應(yīng)用最靈活的大數(shù)據(jù)平臺(tái)。能夠幫助您隨時(shí)找到您想要的數(shù)據(jù),使數(shù)據(jù)得到安全、穩(wěn)定和高效的管理與應(yīng)用。GetInsight是企業(yè)大數(shù)據(jù)解決方案的重要組成部分,除了提供完整的大數(shù)據(jù)功能組件,我們還提供組件自定義搭配,為企業(yè)選擇滿足方案需要的大數(shù)據(jù)功能組件,使您的大數(shù)據(jù)解決方案成本降到最低,從而高品質(zhì)的解決您的大數(shù)據(jù)需求問(wèn)題。
了解什么是GetInsight,請(qǐng)點(diǎn)擊這里查看GetInsight的基礎(chǔ)介紹>>
本文主要跟大家介紹GetInsight的Hadoop數(shù)倉(cāng)系統(tǒng)和全文搜索系統(tǒng)。
Hadoop數(shù)倉(cāng)系統(tǒng)
Hadoop數(shù)倉(cāng)系統(tǒng)將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供SQL交互的功能。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)本身不存儲(chǔ)和計(jì)算數(shù)據(jù),它完全依賴分布式文件管理系統(tǒng)和分布式計(jì)算工具。它的數(shù)據(jù)模型和關(guān)系數(shù)據(jù)庫(kù)類似,是結(jié)構(gòu)化的表,且列的數(shù)量有限。但不同的是,它在支持行存儲(chǔ)的同時(shí),也支持列存儲(chǔ)格式的表。它在處理大規(guī)模、大批量數(shù)據(jù)時(shí)性能優(yōu)于傳統(tǒng)數(shù)據(jù)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)組件,但是犧牲了小批量數(shù)據(jù)的低時(shí)延查詢能力。最后,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)支持多種接口,支持集成大數(shù)據(jù)平臺(tái)的其他系統(tǒng),同時(shí)提供WEB SERVICE等接口供其他系統(tǒng)集成。
GetInsight- Hadoop數(shù)倉(cāng)系統(tǒng)的特性
Hadoop數(shù)倉(cāng)系統(tǒng)具有如下特性:
- 本身不支持?jǐn)?shù)據(jù)存儲(chǔ)和運(yùn)算,完全依賴分布式文件管理系統(tǒng)和分布式計(jì)算工具。
- 數(shù)據(jù)模型和關(guān)系數(shù)據(jù)庫(kù)類似,為結(jié)構(gòu)化的表;列的數(shù)量有限。
- 同時(shí)支持行存儲(chǔ)與列存儲(chǔ),但數(shù)據(jù)處理邏輯是基于行的模式。
- 有限支持Update以及Delete操作(部分表類型支持,但計(jì)算時(shí)延高開(kāi)銷大)。
- 不能保證處理的低遲延問(wèn)題,適用于離線的批量數(shù)據(jù)計(jì)算。
- 支持多種訪問(wèn)方式,包括命令行、JAVA API、RESTFUL API、WEB SERVICE等。
GetInsight - Hadoop數(shù)倉(cāng)系統(tǒng)的應(yīng)用案例
Hadoop數(shù)倉(cāng)規(guī)模
30人的數(shù)據(jù)資源中心團(tuán)隊(duì),定期發(fā)布更新數(shù)據(jù);進(jìn)行數(shù)據(jù)使用培訓(xùn);監(jiān)控前端應(yīng)用,如找出并解決過(guò)度消耗資源的查詢;指導(dǎo)各層應(yīng)用對(duì)DW的數(shù)據(jù)使用。
3000個(gè)活躍用戶,包括ETL、應(yīng)用、業(yè)務(wù)信息工具、SAS和許多通過(guò)其他DBMS實(shí)現(xiàn)的連接。
每月查詢次數(shù)在1~1.4億之間。數(shù)據(jù)訪問(wèn)工具包括SAS、Qlik、ORACLE、分布式計(jì)算組件、全文搜索系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)分析平臺(tái)等。
元數(shù)據(jù)管理
IT和業(yè)務(wù)部門均設(shè)有元數(shù)據(jù)專家。數(shù)據(jù)模型的更新通過(guò)變革流程通知到數(shù)據(jù)倉(cāng)庫(kù),詳細(xì)到數(shù)據(jù)要素。數(shù)據(jù)倉(cāng)庫(kù)通過(guò)主數(shù)據(jù)和客戶數(shù)據(jù)達(dá)到數(shù)據(jù)整合,保證數(shù)據(jù)的一致性。
元數(shù)據(jù)管理可以真正發(fā)揮數(shù)據(jù)倉(cāng)庫(kù)窗口的作用,能夠?yàn)闃I(yè)務(wù)人員及應(yīng)用開(kāi)發(fā)人員提供如下信息:數(shù)據(jù)倉(cāng)庫(kù)中有什么數(shù)據(jù),這些數(shù)據(jù)從哪里來(lái),到何處去,加工邏輯是什么。
元數(shù)據(jù)管理沒(méi)有針對(duì)性的權(quán)限控制,因?yàn)樵獢?shù)據(jù)信息對(duì)企業(yè)中每個(gè)人都有價(jià)值,合法的局域網(wǎng)用戶均可訪問(wèn)。
數(shù)據(jù)質(zhì)量
關(guān)于數(shù)據(jù)質(zhì)量的基本原則:業(yè)務(wù)部門是數(shù)據(jù)的擁有者,因此他們應(yīng)當(dāng)對(duì)數(shù)據(jù)質(zhì)量負(fù)責(zé)。技術(shù)人員配合業(yè)務(wù)人員維護(hù)數(shù)據(jù)質(zhì)量,數(shù)據(jù)倉(cāng)庫(kù)只接收數(shù)據(jù),不修改數(shù)據(jù)。
數(shù)據(jù)質(zhì)量是數(shù)據(jù)倉(cāng)庫(kù)中非常重要的一個(gè)環(huán)節(jié),有一個(gè)集中的團(tuán)隊(duì)負(fù)責(zé)對(duì)數(shù)據(jù)質(zhì)量的監(jiān)控,同時(shí)每個(gè)業(yè)務(wù)部門和IT部門都設(shè)有數(shù)據(jù)管理員,他們會(huì)定期對(duì)數(shù)據(jù)質(zhì)量進(jìn)行檢查。他們重點(diǎn)監(jiān)控關(guān)鍵的數(shù)據(jù)元素,首要任務(wù)是解決數(shù)據(jù)缺失和數(shù)據(jù)異常的問(wèn)題。
每個(gè)業(yè)務(wù)部門在年初的計(jì)劃中會(huì)設(shè)定數(shù)據(jù)質(zhì)量目標(biāo),年終會(huì)考核相關(guān)人員的數(shù)據(jù)質(zhì)量目標(biāo)完成情況。
全文搜索系統(tǒng)
全文搜索引擎是一個(gè)基于Apache Lucene(TM)的實(shí)時(shí)分布式搜索和分析引擎。它使用Java開(kāi)發(fā)并使用Lucene作為其核心來(lái)實(shí)現(xiàn)所有索引和搜索的功能。它的目的是通過(guò)簡(jiǎn)單的RESTful API來(lái)隱藏Lucene的復(fù)雜性,從而讓全文搜索變得簡(jiǎn)單。
不過(guò),全文搜索引擎不僅僅是全文搜索,我們還能這樣去描述它:
- 分布式的實(shí)時(shí)文件存儲(chǔ),每個(gè)字段都被索引并可被搜索
- 分布式的實(shí)時(shí)分析搜索引擎
- 可以擴(kuò)展到上百臺(tái)服務(wù)器,處理PB級(jí)結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)
慧都工業(yè)大數(shù)據(jù)分析方案即將精益生產(chǎn)理論體系進(jìn)行了完美的融合和應(yīng)用,并對(duì)大數(shù)據(jù)總體架構(gòu)進(jìn)行了更細(xì)致明確的解讀,提供自主研發(fā)的大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)ETL、數(shù)據(jù)管理及存儲(chǔ)、數(shù)據(jù)建模。如下圖所示:
關(guān)于慧都大數(shù)據(jù)分析平臺(tái)
慧都大數(shù)據(jù)分析平臺(tái)「GetInsight®」升級(jí)發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測(cè)、設(shè)備分析及預(yù)測(cè)等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運(yùn)營(yíng)模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級(jí),抓住數(shù)據(jù)經(jīng)濟(jì)的發(fā)展勢(shì)頭,提供管理效能,精準(zhǔn)布局未來(lái)。了解更多,請(qǐng)聯(lián)系在線客服。
慧都大數(shù)據(jù)專業(yè)團(tuán)隊(duì)為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺(tái)搭建,免費(fèi)業(yè)務(wù)咨詢,定制開(kāi)發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業(yè)的大數(shù)據(jù)團(tuán)隊(duì),為您提供免費(fèi)大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢!