• <menu id="w2i4a"></menu>
  • logo 大數(shù)據(jù)干貨(二)

    文檔首頁(yè)>>大數(shù)據(jù)干貨(二)>>淺談大數(shù)據(jù)的核心:云技術(shù)和BI

    淺談大數(shù)據(jù)的核心:云技術(shù)和BI


    關(guān)于大數(shù)據(jù)和云計(jì)算的關(guān)系人們通常會(huì)有誤解。而且也會(huì)把它們混起來(lái)說(shuō),分別做一句話(huà)直白解釋就是:云計(jì)算就是硬件資源的虛擬化;大數(shù)據(jù)就是海量數(shù)據(jù)的高效處理。如果做一個(gè)更形象的解釋?zhuān)朴?jì)算相當(dāng)于我們的計(jì)算機(jī)和操作系統(tǒng),將大量的硬件資源虛擬化之后再進(jìn)行分配使用;大數(shù)據(jù)則相當(dāng)于海量數(shù)據(jù)的“數(shù)據(jù)庫(kù)”。

    整體來(lái)看,未來(lái)的趨勢(shì)是,云計(jì)算作為計(jì)算資源的底層,支撐著上層的大數(shù)據(jù)處理,而大數(shù)據(jù)的發(fā)展趨勢(shì)是,實(shí)時(shí)交互式的查詢(xún)效率和分析能力,當(dāng)前的大數(shù)據(jù)處理一直在向著近似于傳統(tǒng)數(shù)據(jù)庫(kù)體驗(yàn)的方向發(fā)展。

    大數(shù)據(jù)的4V特性,即類(lèi)型復(fù)雜、海量、快速和價(jià)值,其總體架構(gòu)包括三層,數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理和數(shù)據(jù)分析。類(lèi)型復(fù)雜和海量由數(shù)據(jù)存儲(chǔ)層解決,快速和時(shí)效性要求由數(shù)據(jù)處理層解決,價(jià)值由數(shù)據(jù)分析層解決。數(shù)據(jù)先要通過(guò)存儲(chǔ)層存儲(chǔ)下來(lái),然后根據(jù)數(shù)據(jù)需求和目標(biāo)來(lái)建立相應(yīng)的數(shù)據(jù)模型和數(shù)據(jù)分析指標(biāo)體系對(duì)數(shù)據(jù)進(jìn)行分析產(chǎn)生價(jià)值。而中間的時(shí)效性又通過(guò)中間數(shù)據(jù)處理層提供的強(qiáng)大的并行計(jì)算和分布式計(jì)算能力來(lái)完成。三層相互配合,讓大數(shù)據(jù)最終產(chǎn)生價(jià)值。

    數(shù)據(jù)存儲(chǔ)層

    數(shù)據(jù)有很多分法,有結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化;也有元數(shù)據(jù)、主數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù);還可以分為GIS、視頻、文件、語(yǔ)音、業(yè)務(wù)交易類(lèi)各種數(shù)據(jù)。傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)已經(jīng)無(wú)法滿(mǎn)足數(shù)據(jù)多樣性的存儲(chǔ)要求,因此在RDBMS基礎(chǔ)上增加了兩種類(lèi)型,一種是hdfs可以直接應(yīng)用于非結(jié)構(gòu)化文件存儲(chǔ),一種是nosql類(lèi)數(shù)據(jù)庫(kù),可以應(yīng)用于結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。

    從存儲(chǔ)層的搭建來(lái)說(shuō),關(guān)系型數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)和hdfs分布式文件系統(tǒng)三種存儲(chǔ)方式都需要。業(yè)務(wù)應(yīng)用根據(jù)實(shí)際的情況選擇不同的存儲(chǔ)模式,但是為了業(yè)務(wù)的存儲(chǔ)和讀取方便性,我們可以對(duì)存儲(chǔ)層進(jìn)一步的封裝,形成一個(gè)統(tǒng)一的共享存儲(chǔ)服務(wù)層,簡(jiǎn)化這種操作。從用戶(hù)來(lái)講并不關(guān)心底層存儲(chǔ)細(xì)節(jié),只關(guān)心數(shù)據(jù)的存儲(chǔ)和讀取的方便性,通過(guò)共享數(shù)據(jù)存儲(chǔ)層可以實(shí)現(xiàn)在存儲(chǔ)上的應(yīng)用和存儲(chǔ)基礎(chǔ)設(shè)置的徹底解耦。

    數(shù)據(jù)處理層

    數(shù)據(jù)處理層核心解決問(wèn)題在于數(shù)據(jù)存儲(chǔ)出現(xiàn)分布式后帶來(lái)的數(shù)據(jù)處理上的復(fù)雜度,海量存儲(chǔ)后帶來(lái)了數(shù)據(jù)處理上的時(shí)效性要求,這些都是數(shù)據(jù)處理層要解決的問(wèn)題。

    在傳統(tǒng)的云相關(guān)技術(shù)架構(gòu)上,可以將hive,pighadoop-mapreduce框架相關(guān)的技術(shù)內(nèi)容全部劃入到數(shù)據(jù)處理層的能力。原來(lái)我思考的是將hive劃入到數(shù)據(jù)分析層能力不合適,因?yàn)?/span>hive重點(diǎn)還是在真正處理下的復(fù)雜查詢(xún)的拆分、查詢(xún)結(jié)果的重新聚合,而mapreduce本身又實(shí)現(xiàn)真正的分布式處理能力。

    mapreduce只是實(shí)現(xiàn)了一個(gè)分布式計(jì)算的框架和邏輯,而真正的分析需求的拆分分析結(jié)果的匯總和合并還是需要hive層的能力整合。最終的目的很簡(jiǎn)單,即支持分布式架構(gòu)下的時(shí)效性要求。

    數(shù)據(jù)分析層

    最后回到分析層,分析層重點(diǎn)是真正挖掘大數(shù)據(jù)的價(jià)值所在,而價(jià)值的挖掘核心又在于數(shù)據(jù)分析和挖掘。那么數(shù)據(jù)分析層核心仍然在于傳統(tǒng)的BI分析的內(nèi)容。包括數(shù)據(jù)的維度分析、數(shù)據(jù)的切片、數(shù)據(jù)的上鉆和下鉆、cube等。

    數(shù)據(jù)分析我只關(guān)注兩個(gè)內(nèi)容,一個(gè)就是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)下的數(shù)據(jù)建模,在該數(shù)據(jù)模型下需要支持上面各種分析方法和分析策略;其次是根據(jù)業(yè)務(wù)目標(biāo)和業(yè)務(wù)需求建立的KPI指標(biāo)體系,對(duì)應(yīng)指標(biāo)體系的分析模型和分析方法。解決這兩個(gè)問(wèn)題基本解決數(shù)據(jù)分析的問(wèn)題。

    傳統(tǒng)的BI分析通過(guò)大量的ETL數(shù)據(jù)抽取和集中化,形成一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù),而基于大數(shù)據(jù)的BI分析,可能并沒(méi)有一個(gè)集中化的數(shù)據(jù)倉(cāng)庫(kù),或者將數(shù)據(jù)倉(cāng)庫(kù)本身也是分布式的了,BI分析的基本方法和思路并沒(méi)有變化,但是落地到執(zhí)行的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理方法卻發(fā)生了大變化。

    談了這么多,核心還是想說(shuō)明大數(shù)據(jù)兩大核心為云技術(shù)和BI,離開(kāi)云技術(shù)大數(shù)據(jù)沒(méi)有根基和落地可能,離開(kāi)BI和價(jià)值,大數(shù)據(jù)又變化為舍本逐末,丟棄關(guān)鍵目標(biāo)。簡(jiǎn)單總結(jié)就是大數(shù)據(jù)目標(biāo)驅(qū)動(dòng)是BI,大數(shù)據(jù)實(shí)施落地式云技術(shù)。


    慧都大數(shù)據(jù)團(tuán)隊(duì)將大數(shù)據(jù)總體架構(gòu)進(jìn)行了更細(xì)致明確的解讀,并提供自主研發(fā)的大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)ETL、數(shù)據(jù)管理及存儲(chǔ)、數(shù)據(jù)建模。如下圖所示:




    立即申請(qǐng)慧都大數(shù)據(jù)demo



    關(guān)于慧都大數(shù)據(jù)分析平臺(tái)

    慧都大數(shù)據(jù)分析平臺(tái)「GetInsight®」升級(jí)發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測(cè)、設(shè)備分析及預(yù)測(cè)等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運(yùn)營(yíng)模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級(jí),抓住數(shù)據(jù)經(jīng)濟(jì)的發(fā)展勢(shì)頭,提供管理效能,精準(zhǔn)布局未來(lái)。了解更多,請(qǐng)聯(lián)系在線(xiàn)客服。


    慧都大數(shù)據(jù)專(zhuān)業(yè)團(tuán)隊(duì)為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺(tái)搭建,免費(fèi)業(yè)務(wù)咨詢(xún),定制開(kāi)發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。

    歡迎撥打慧都熱線(xiàn)023-68661681或咨詢(xún)慧都在線(xiàn)客服,我們有專(zhuān)業(yè)的大數(shù)據(jù)團(tuán)隊(duì),為您提供免費(fèi)大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢(xún)!

    掃碼咨詢(xún)


    添加微信 立即咨詢(xún)

    電話(huà)咨詢(xún)

    客服熱線(xiàn)
    023-68661681

    TOP
    三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();