傳統(tǒng)行業(yè)如何建立數(shù)據(jù)倉庫?(下)
建立數(shù)據(jù)倉庫是一個解決企業(yè)數(shù)據(jù)問題應(yīng)用的過程,是企業(yè)信息化發(fā)展到一定階段必不可少的一步,也是發(fā)展數(shù)據(jù)化管理的重要基礎(chǔ)。數(shù)倉的知識市面上的書籍和文章不少,但是實(shí)際實(shí)施依據(jù)行業(yè)不同,企業(yè)核心訴求不同,從技術(shù)到方法論各有不同。如何實(shí)施數(shù)倉項目,本文先以傳統(tǒng)行業(yè)的數(shù)倉切入,從整體上講下數(shù)據(jù)倉庫的實(shí)施方法論。(點(diǎn)擊此處查看上文)
四、數(shù)據(jù)倉庫建模
數(shù)據(jù)倉庫建模在前面已經(jīng)有了詳細(xì)的介紹,數(shù)據(jù)倉庫模型是IT技術(shù)開發(fā)人員、業(yè)務(wù)人員、決策管理者相互溝通的一套語言和平臺。對于數(shù)據(jù)建模工程師來說,對業(yè)務(wù)的深刻理解是首要任務(wù),因為數(shù)據(jù)倉庫建模分為概念模型設(shè)計、邏輯模型設(shè)計和物理模型設(shè)計3個階段,一般按照自頂向下的順序依次對模型進(jìn)行設(shè)計。
概念模型主要是模型設(shè)計人員對業(yè)務(wù)規(guī)則的理解,是最高層次的數(shù)據(jù)模型,幾乎涵蓋了業(yè)務(wù)所有的核心概念和重要的主題,為以后邏輯模型的建設(shè)打下了基礎(chǔ)。
邏輯模型是對概念模型的分解、細(xì)化,將數(shù)據(jù)主題劃分成一個個的實(shí)體和實(shí)體關(guān)系,一般將第三范式作為設(shè)計的模板。
物理模型在邏輯模型的基礎(chǔ)上對模型實(shí)體進(jìn)行細(xì)節(jié)性的描述,包括字段類型、長度、索引等因素,最后轉(zhuǎn)化成數(shù)據(jù)庫存儲的物理表。
五、數(shù)據(jù)集市建模
一般數(shù)據(jù)集市模型的建設(shè)是基于需求分析得到的結(jié)果,數(shù)據(jù)集巾的建模主要針對事實(shí)表和維表的設(shè)計。例如,部門員工關(guān)系表,如果事實(shí)表包含部門編碼,則數(shù)據(jù)可以分析到部門。如果事實(shí)表又包含員工編碼,則數(shù)據(jù)既可以分析到部門,又可以分析到員工。一張事實(shí)表除了包含所要分析的維度編碼外,還包括需要分析的度量值。例如,用戶用電分析事實(shí)表,它的主題描述就是按地區(qū)、時間、電壓等級統(tǒng)計用戶的耗電量、應(yīng)收電費(fèi),并進(jìn)行同期對比;它的維度就是地區(qū)、時間、電壓等級,度量值包括耗電量、應(yīng)收電費(fèi)等;指標(biāo)來源就是數(shù)據(jù)倉庫中的計費(fèi)結(jié)果表、用戶基本信息表。維表一般采用增量的方式進(jìn)行抽取。
六、數(shù)據(jù)源分析
所謂數(shù)據(jù)源分析,就是對源數(shù)據(jù)進(jìn)行分析和總結(jié),得出源數(shù)據(jù)的范圍、格式、更新方式、更新頻率和質(zhì)量好壞的過程。
數(shù)據(jù)源分析是指通過需求調(diào)研得知業(yè)務(wù)數(shù)據(jù)源的基本情況,并且加以詳細(xì)說明,具體內(nèi)容包括數(shù)據(jù)源中存在哪些物理表,表之間的關(guān)系和表中每個字段的數(shù)據(jù)類型和含義等。一般來說,業(yè)務(wù)數(shù)據(jù)源通常會有數(shù)據(jù)不完整、口徑不一致,或者各個數(shù)據(jù)源存在業(yè)務(wù)規(guī)則不統(tǒng)一的情況。
另外,在分析的過程中,需要確定業(yè)務(wù)源數(shù)據(jù)中哪些數(shù)據(jù)需要被抽取。為了確定合適的抽取方式,需要在抽取之前對數(shù)據(jù)源進(jìn)行分析,分析的范圍一般包括數(shù)據(jù)的格式、數(shù)據(jù)的范圍、更新的方式、數(shù)據(jù)質(zhì)量的好壞。在分析的過程中,應(yīng)該盡可能獲取分析的結(jié)果,形成數(shù)據(jù)源分析報告,在仔細(xì)研究分析報告后,再選擇合適的抽取、加載方式。了解這些數(shù)據(jù)源的特點(diǎn),有利于ETL 抽取時對數(shù)據(jù)的整合和統(tǒng)一,從而保證數(shù)據(jù)的質(zhì)量和可信度。
七、數(shù)據(jù)的獲取與整合
數(shù)據(jù)的獲取與整合存在于數(shù)據(jù)倉庫項目中的各個階段。數(shù)據(jù)倉庫很重要的一個作用就是將散落在各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)整合起來,不規(guī)范的數(shù)據(jù)規(guī)范起來,以一種便于分析和應(yīng)用的方式放到數(shù)據(jù)倉庫里,供前端應(yīng)用分析。ETL 過程實(shí)際上就是數(shù)據(jù)流動的過程,即從不同的數(shù)據(jù)源流向統(tǒng)一的目標(biāo)數(shù)據(jù)庫。數(shù)據(jù)的獲取與整合是完成數(shù)據(jù)倉庫建設(shè)取復(fù)雜的過程,它關(guān)系到數(shù)據(jù)的質(zhì)量,是數(shù)據(jù)倉庫項目建設(shè)的根基。
八、數(shù)據(jù)應(yīng)用和報表展現(xiàn)
報表絕對是讓人痛苦的東西。格式復(fù)雜、需求多變,業(yè)務(wù)沒事就改需求或者增加幾個。雖然說起報表感覺很老土,但確實(shí)是整個數(shù)倉項目價值落地呈現(xiàn)的東西。
做報表多的人,基本上都會做一個自己的工具,至少也會做一個引擎,按照自己的理解用一種結(jié)構(gòu)化加動態(tài)的方式去定義所需要的報表,可以靈活的選擇所需要的數(shù)據(jù),設(shè)計展現(xiàn)樣式生成報表。不過現(xiàn)在一般都是采用專業(yè)的低代碼的報表工具來做報表,一般人都不想每天被報表纏身。
結(jié)合前面談到的數(shù)據(jù)分層的機(jī)制,會發(fā)現(xiàn),不管基于哪一層,都有做報表的需求。報表的重點(diǎn)不在與報表的制作,而在于如何利用報表為業(yè)務(wù)為項目謀價值。
大公司都會有負(fù)責(zé)報表分析這塊的項目人員,那針對報表延伸出來的工作,報表需求分析、指標(biāo)體系規(guī)劃、以及各位為經(jīng)營為管理為基層人員的報表分類,還有圍繞業(yè)務(wù)的分層設(shè)計。
對于基層員工,報表使用的最多的就是錄數(shù)據(jù),查詢數(shù)據(jù)。比如商場售貨員瀏覽數(shù)據(jù)來查看商品的售賣情況,以此來及時補(bǔ)貨,還有每天的日銷售數(shù)據(jù)錄入。
對于部分業(yè)務(wù)人員,報表的不再是簡單的展示和錄入,會衍生出一些分析的需求,比如采購經(jīng)理,他需要決定采購哪些品牌的商品,從哪一家供應(yīng)商來采購,如何規(guī)劃商店的商品。那方法就是看報表看哪些商品買的好,以此來考慮是否需要加購哪些品牌商品,放棄那些品牌商品或者搞促銷。高大上一點(diǎn)的說辭就是利用數(shù)據(jù)優(yōu)化商品結(jié)構(gòu),選擇供應(yīng)商。
對于企業(yè)管理層,更多的說是做dashboard進(jìn)行指標(biāo)的監(jiān)控,做的業(yè)績分析(時間、地區(qū)緯度等)。而這一過程,也是通過數(shù)據(jù)使管理層可以更容易的按照標(biāo)準(zhǔn)的管理方法進(jìn)行決策
關(guān)于慧都大數(shù)據(jù)分析平臺
慧都大數(shù)據(jù)分析平臺「GetInsight®」升級發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測、設(shè)備分析及預(yù)測等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運(yùn)營模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級,抓住數(shù)據(jù)經(jīng)濟(jì)的發(fā)展勢頭,提供管理效能,精準(zhǔn)布局未來。了解更多,請聯(lián)系在線客服。
慧都大數(shù)據(jù)專業(yè)團(tuán)隊為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺搭建,免費(fèi)業(yè)務(wù)咨詢,定制開發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業(yè)的大數(shù)據(jù)團(tuán)隊,為您提供免費(fèi)大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢!