想了解數(shù)據(jù)倉(cāng)庫(kù)到底是什么?看這一篇文章就夠了!
本文部分內(nèi)容選自MAB智庫(kù)百科
在大數(shù)據(jù)系統(tǒng)平臺(tái)當(dāng)中,數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)是非常重要的概念,共同支持大數(shù)據(jù)存儲(chǔ)的實(shí)際需求。在大數(shù)據(jù)處理當(dāng)中,大數(shù)據(jù)存儲(chǔ)這個(gè)環(huán)節(jié),數(shù)據(jù)倉(cāng)庫(kù)技術(shù)起到重要的作用。今天我們來對(duì)數(shù)據(jù)倉(cāng)庫(kù)做一個(gè)簡(jiǎn)單的介紹。(大數(shù)據(jù)認(rèn)知 | 一篇文章讓你讀懂大數(shù)據(jù))
什么是數(shù)據(jù)倉(cāng)庫(kù)?
數(shù)據(jù)倉(cāng)庫(kù)顧名思義就是儲(chǔ)存數(shù)據(jù)的倉(cāng)庫(kù),也可以當(dāng)做信息的中央存儲(chǔ)庫(kù)。通常,數(shù)據(jù)定期從事務(wù)系統(tǒng)、關(guān)系數(shù)據(jù)庫(kù)和其他來源流入數(shù)據(jù)倉(cāng)庫(kù)。業(yè)務(wù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家和決策者通過商業(yè)智能 (BI) 工具、SQL 客戶端和其他分析應(yīng)用程序訪問數(shù)據(jù)。
數(shù)據(jù)和分析已然成為各大企業(yè)保持競(jìng)爭(zhēng)力所不可或缺的部分。企業(yè)用戶依靠報(bào)告、控制面板和分析工具從其數(shù)據(jù)中獲得洞察力、監(jiān)控企業(yè)績(jī)效以及更明智地決策。數(shù)據(jù)倉(cāng)庫(kù)通過高效地存儲(chǔ)數(shù)據(jù)以便最大限度地減少數(shù)據(jù)輸入和輸出 (I/O),并快速地同時(shí)向成千上萬的用戶提供查詢結(jié)果,為這些報(bào)告、控制面板和分析工具由數(shù)據(jù)倉(cāng)庫(kù)提供支持。
數(shù)據(jù)倉(cāng)庫(kù)的組成
- 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對(duì)數(shù)據(jù)檢索的支持。相對(duì)于操縱型數(shù)據(jù)庫(kù)來說其突出的特點(diǎn)是對(duì)海量數(shù)據(jù)的支持和快速的檢索技術(shù)。
- 數(shù)據(jù)抽取工具
數(shù)據(jù)抽取工具把數(shù)據(jù)從各種各樣的存儲(chǔ)方式中拿出來,進(jìn)行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉(cāng)庫(kù)內(nèi)。對(duì)各種不同數(shù)據(jù)存儲(chǔ)方式的訪問能力是數(shù)據(jù)抽取工具的關(guān)鍵,應(yīng)能生成COBOL程序、MVS作業(yè)控制語言(JCL)、UNIX腳本、和SQL語句等,以訪問不同的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換都包括,刪除對(duì)決策應(yīng)用沒有意義的數(shù)據(jù)段;轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱和定義;計(jì)算統(tǒng)計(jì)和衍生數(shù)據(jù);給缺值數(shù)據(jù)賦給缺省值;把不同的數(shù)據(jù)定義方式統(tǒng)一。
- 元數(shù)據(jù)
元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)??蓪⑵浒从猛镜牟煌譃閮深悾夹g(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。
技術(shù)元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉(cāng)庫(kù)是用的數(shù)據(jù)。包括:數(shù)據(jù)源信息;數(shù)據(jù)轉(zhuǎn)換的描述;數(shù)據(jù)倉(cāng)庫(kù)內(nèi)對(duì)象和數(shù)據(jù)結(jié)構(gòu)的定義;數(shù)據(jù)清理和數(shù)據(jù)更新時(shí)用的規(guī)則;源數(shù)據(jù)到目的數(shù)據(jù)的映射;用戶訪問權(quán)限,數(shù)據(jù)備份歷史記錄,數(shù)據(jù)導(dǎo)入歷史記錄,信息發(fā)布?xì)v史記錄等。
商業(yè)元數(shù)據(jù)從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。包括:業(yè)務(wù)主題的描述,包含的數(shù)據(jù)、查詢、報(bào)表;
元數(shù)據(jù)為訪問數(shù)據(jù)倉(cāng)庫(kù)提供了一個(gè)信息目錄(informationdirectory),這個(gè)目錄全面描述了數(shù)據(jù)倉(cāng)庫(kù)中都有什么數(shù)據(jù)、這些數(shù)據(jù)怎么得到的、和怎么訪問這些數(shù)據(jù)。是數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行和維護(hù)的中心,數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器利用他來存貯和更新數(shù)據(jù),用戶通過他來了解和訪問數(shù)據(jù)。
- 訪問工具
為用戶訪問數(shù)據(jù)倉(cāng)庫(kù)提供手段。有數(shù)據(jù)查詢和報(bào)表工具;應(yīng)用開發(fā)工具;經(jīng)理信息系統(tǒng)(EIS)工具;聯(lián)機(jī)分析處理(OLAP)工具;數(shù)據(jù)挖掘工具。
- 數(shù)據(jù)集市(Data Marts)
為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉(cāng)庫(kù)中獨(dú)立出來的一部分?jǐn)?shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施過程中往往可以從一個(gè)部門的數(shù)據(jù)集市著手,以后再用幾個(gè)數(shù)據(jù)集市組成一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù)。需要注意的就是再實(shí)施不同的數(shù)據(jù)集市時(shí),同一含義的字段定義一定要相容,這樣再以后實(shí)施數(shù)據(jù)倉(cāng)庫(kù)時(shí)才不會(huì)造成大麻煩。
- 數(shù)據(jù)倉(cāng)庫(kù)管理:安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理和更新元數(shù)據(jù);審計(jì)和報(bào)告數(shù)據(jù)倉(cāng)庫(kù)的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲(chǔ)管理。
- 信息發(fā)布系統(tǒng):把數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)或用戶?;赪eb的信息發(fā)布系統(tǒng)是對(duì)付多用戶訪問的最有效方法。
如何架構(gòu)數(shù)據(jù)倉(cāng)庫(kù)?
數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)包含多個(gè)層。頂層是通過報(bào)告、分析和數(shù)據(jù)挖掘工具呈現(xiàn)結(jié)果的前端客戶端。中間層包括用于訪問和分析數(shù)據(jù)的分析引擎。架構(gòu)的底層是加載和存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)庫(kù)服務(wù)器。數(shù)據(jù)使用兩種不同類型的方式存儲(chǔ):
- 經(jīng)常訪問的數(shù)據(jù)存儲(chǔ)在最快的存儲(chǔ)裝置中(例如,SSD 驅(qū)動(dòng)器)
- 不經(jīng)常訪問的數(shù)據(jù)存儲(chǔ)在便宜的對(duì)象存儲(chǔ)區(qū)中,例如 Amazon S3。數(shù)據(jù)倉(cāng)庫(kù)將自動(dòng)確保經(jīng)常訪問的數(shù)據(jù)被移進(jìn)“快速”存儲(chǔ)以便優(yōu)化查詢速度。
數(shù)據(jù)倉(cāng)庫(kù)如何運(yùn)作?
數(shù)據(jù)倉(cāng)庫(kù)可能包含多個(gè)數(shù)據(jù)庫(kù)。在每個(gè)數(shù)據(jù)庫(kù)中,數(shù)據(jù)整理進(jìn)表和列中。在每個(gè)列中,您可以定義數(shù)據(jù)的說明,例如整數(shù)、數(shù)據(jù)字段或字符串。表可以在 Schema 內(nèi)整理,您可以將其視為文件夾。提取的數(shù)據(jù)將存儲(chǔ)在 Schema 描述的各種表中。查詢工具使用 Schema 來確定要訪問和分析哪些數(shù)據(jù)表。
慧都大數(shù)據(jù)應(yīng)用架構(gòu)及流程
使用數(shù)據(jù)倉(cāng)庫(kù)有哪些優(yōu)勢(shì)?
數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)勢(shì)包括:
- 知情地做出決定
- 整合多個(gè)來源的數(shù)據(jù)
- 歷史數(shù)據(jù)分析
- 數(shù)據(jù)質(zhì)量高、一致且準(zhǔn)確
- 將分析處理從事務(wù)數(shù)據(jù)庫(kù)中分離出來,從而提高兩個(gè)系統(tǒng)的性能
關(guān)于慧都大數(shù)據(jù)分析平臺(tái)
慧都大數(shù)據(jù)分析平臺(tái)「GetInsight®」升級(jí)發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測(cè)、設(shè)備分析及預(yù)測(cè)等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運(yùn)營(yíng)模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級(jí),抓住數(shù)據(jù)經(jīng)濟(jì)的發(fā)展勢(shì)頭,提供管理效能,精準(zhǔn)布局未來。了解更多,請(qǐng)聯(lián)系在線客服。
慧都大數(shù)據(jù)專業(yè)團(tuán)隊(duì)為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺(tái)搭建,免費(fèi)業(yè)務(wù)咨詢,定制開發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業(yè)的大數(shù)據(jù)團(tuán)隊(duì),為您提供免費(fèi)大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢!