• <menu id="w2i4a"></menu>
  • logo 大數(shù)據(jù)干貨(三)

    文檔首頁>>大數(shù)據(jù)干貨(三)>>2017大數(shù)據(jù)十大趨勢(shì):海量數(shù)據(jù)洶涌而來,Hadoop不再一家獨(dú)大

    2017大數(shù)據(jù)十大趨勢(shì):海量數(shù)據(jù)洶涌而來,Hadoop不再一家獨(dú)大


    2017年大數(shù)據(jù)將不再是Hadoop一家獨(dú)大,也不再是編程者們的自娛自樂,企業(yè)和終端用戶的不斷涌入,海量數(shù)據(jù)“堆積如山”,隨之而來的儲(chǔ)存、分析、處理成為從業(yè)者的下一挑戰(zhàn)。數(shù)據(jù)如何變現(xiàn),價(jià)值怎么挖掘?2017大數(shù)據(jù)十大趨勢(shì),興許給你驚艷的解答~

    隨著對(duì)不同類型、不同體量數(shù)據(jù)的結(jié)構(gòu)化存儲(chǔ)、批量處理以及價(jià)值挖掘需求的增多,2016年注定是大數(shù)據(jù)里程碑式的一年。

    2017年,支持大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)將繼續(xù)增長(zhǎng)。市場(chǎng)需要數(shù)據(jù)平臺(tái)來幫助數(shù)據(jù)管理人員管理和保護(hù)大數(shù)據(jù),同時(shí)允許最終用戶進(jìn)行數(shù)據(jù)分析。這些系統(tǒng)將逐步成熟,在企業(yè)內(nèi)部的IT系統(tǒng)中更好地運(yùn)行。

    1.數(shù)據(jù)處理變得更加快速,數(shù)據(jù)也變得更加易于使用

    選項(xiàng)擴(kuò)展將加速Hadoop

    當(dāng)然,你可以在Hadoop上執(zhí)行機(jī)器學(xué)習(xí)和情緒分析,但人們常常會(huì)問的第一個(gè)問題是:交互式SQL(結(jié)構(gòu)化查詢語言,一種數(shù)據(jù)庫查詢和程序設(shè)計(jì)語言,用于存取數(shù)據(jù)以及查詢、更新和管理關(guān)系數(shù)據(jù)庫系統(tǒng))究竟有多快?畢竟,SQL相當(dāng)于企業(yè)用戶的“導(dǎo)管”——他們希望使用Hadoop數(shù)據(jù)來更快的獲得可復(fù)用的BI儀表盤(一種向企業(yè)展示度量信息和關(guān)鍵業(yè)務(wù)指標(biāo)即KPI現(xiàn)狀的數(shù)據(jù)虛擬化工具),或者是進(jìn)行一些探索性分析。

    這種對(duì)速度的需求促使用戶采用訪問速度更快和執(zhí)行效率更高的數(shù)據(jù)庫,如Exasol、MemSQL,或者是類似于Kudu這種基于Hadoop的商店,當(dāng)然還需要能夠更快查詢數(shù)據(jù)的技術(shù)。諸如SQL-on-Hadoop引擎(Apache Impala,Hive LLAP,Presto,Phoenix和Drill)和OLAP-on-Hadoop技術(shù)(AtScale,Jethro Data和Kyvos Insights)這樣的數(shù)據(jù)查詢加速器將進(jìn)一步模糊傳統(tǒng)數(shù)據(jù)庫與大數(shù)據(jù)世界的邊界。

    2.大數(shù)據(jù)不再只是Hadoop

    專門基于Hadoop開發(fā)的工具已過時(shí)

    在過去的幾年中,隨著大數(shù)據(jù)浪潮來襲,數(shù)種為了滿足Hadoop分析需求的技術(shù)興起。但是,身處復(fù)雜,異構(gòu)環(huán)境中的企業(yè)不再希望僅為一個(gè)數(shù)據(jù)源(Hadoop)采用孤立的BI訪問點(diǎn)。他們需要的答案被埋沒在一大堆數(shù)據(jù)源中,從記錄系統(tǒng)到云端,再到來自Hadoop和非Hadoop源的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。(順便說一句,甚至連關(guān)系型數(shù)據(jù)庫也正在為大數(shù)據(jù)趨勢(shì)做準(zhǔn)備。例如,SQL Server 2016于近日添加了JSON支持)。

    在2017年,客戶將會(huì)需要對(duì)所有數(shù)據(jù)都進(jìn)行分析。不依賴于數(shù)據(jù)源的平臺(tái)將會(huì)茁壯成長(zhǎng),而專為Hadoop而設(shè)計(jì)的平臺(tái)和未能跨應(yīng)用部署的平臺(tái)將被棄用。Platfora的退出便是這一趨勢(shì)的預(yù)示。

    3.相關(guān)組織將利用數(shù)據(jù)湖(DataLake)來實(shí)現(xiàn)價(jià)值

    數(shù)據(jù)湖就像一個(gè)人造水庫

    數(shù)據(jù)湖就像一個(gè)人造水庫。首先你要建造一個(gè)水壩(構(gòu)建一個(gè)集群),然后填滿水(數(shù)據(jù))。一旦建立了湖泊,你將開始因?yàn)楦鞣N目的而使用這些水資源(數(shù)據(jù)),如發(fā)電,飲用以及各種消遣(預(yù)測(cè)分析,機(jī)器學(xué)習(xí),網(wǎng)絡(luò)安全等)。

    而今,保有數(shù)據(jù)湖里的數(shù)據(jù)已經(jīng)變成了一種為了保留而保留的行為。在2017年,這將隨著Hadoop業(yè)務(wù)的收緊而改變。各個(gè)組織要求可重復(fù)的并且敏捷地使用數(shù)據(jù)湖,以便更快地獲得響應(yīng)。在確定對(duì)人事、數(shù)據(jù)和基礎(chǔ)設(shè)施的相應(yīng)投資之前,企業(yè)會(huì)更加慎重的考慮業(yè)務(wù)成果。這將促進(jìn)業(yè)務(wù)和IT之間的強(qiáng)力耦合。而自助服務(wù)平臺(tái)作為分析大數(shù)據(jù)資產(chǎn)的工具將獲得更深入的認(rèn)可。

    另外,公司還將關(guān)注業(yè)務(wù)驅(qū)動(dòng)型應(yīng)用,避免數(shù)據(jù)湖陷入困境。在2017年,企業(yè)機(jī)構(gòu)將從“構(gòu)建未來”的數(shù)據(jù)湖應(yīng)用轉(zhuǎn)向業(yè)務(wù)驅(qū)動(dòng)型數(shù)據(jù)應(yīng)用。當(dāng)今世界需要分析和操作能力去觸及客戶、處理索賠并且連接到個(gè)體的不同設(shè)備。

    舉例而言,任何商業(yè)網(wǎng)站需要提供實(shí)時(shí)的個(gè)性化推薦和價(jià)格查詢。醫(yī)療健康型企業(yè)必須處理有效的索賠并且運(yùn)用分析運(yùn)營(yíng)系統(tǒng)來防止索賠欺詐。媒體公司需要通過機(jī)頂盒提供個(gè)性化的內(nèi)容。汽車制造商和汽車共享公司則要交互運(yùn)營(yíng)其車輛和司機(jī)。這些案例的實(shí)施交付均需要由一個(gè)敏捷平臺(tái)來實(shí)現(xiàn),同時(shí)提供分析和運(yùn)營(yíng)的處理,跨越后臺(tái)分析和前臺(tái)運(yùn)營(yíng)進(jìn)行整合,提升了商業(yè)價(jià)值。

    4.成熟的架構(gòu)拒絕通用型框架

    Hadoop不再只是一個(gè)用于數(shù)據(jù)科學(xué)用例的批處理平臺(tái)。

    Hadoop不再只是一個(gè)用于數(shù)據(jù)科學(xué)用例的批處理平臺(tái)。它已經(jīng)成為一種專為特殊分析而架設(shè)的多用途分析引擎,甚至被用于日常工作負(fù)載的操作報(bào)告——傳統(tǒng)上這項(xiàng)任務(wù)是由數(shù)據(jù)倉庫(大量數(shù)據(jù)提取和分析的工具)來處理的。

    在2017年,各個(gè)組織將通過特定的用例的架構(gòu)設(shè)計(jì)來滿足現(xiàn)存的混合需求。他們將研究一系列的因素,包括用戶角色模型、訪問頻率、數(shù)據(jù)速度和聚合級(jí)別等,然后才能提交合適的數(shù)據(jù)策略。這些現(xiàn)代化的參考架構(gòu)由需求驅(qū)動(dòng),他們將以某種方式將最好的自助服務(wù)數(shù)據(jù)準(zhǔn)備工具Hadoop核心和最終用戶分析平臺(tái)結(jié)合起來,以便可以根據(jù)這些需求進(jìn)行重新配置。這些架構(gòu)的靈活性將最終推動(dòng)技術(shù)選擇。

    5.推動(dòng)大數(shù)據(jù)投資的是數(shù)據(jù)的多樣性,而不是體量和速

    Gartner將大數(shù)據(jù)定義為“三高”

    Gartner將大數(shù)據(jù)定義為“三高”:高容量,高速率,高品類的信息資產(chǎn)。正如New Vantage Partners最近的一項(xiàng)調(diào)查結(jié)果所示:雖然三個(gè)特性都在凸顯,但其中,多元化無疑正成為大數(shù)據(jù)投資的主導(dǎo)推動(dòng)力。

    隨著企業(yè)尋求整合更多來源并關(guān)注大數(shù)據(jù)的“長(zhǎng)尾”,這一趨勢(shì)將更加明顯。從自由模式的JSON到嵌入式的數(shù)據(jù)庫(如關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫),到非平面數(shù)據(jù)(如Avro,Parquet,XML),數(shù)據(jù)格式正在成倍增長(zhǎng),連接器變得至關(guān)重要,它將不同格式的數(shù)據(jù)變成統(tǒng)一的表達(dá)/它讓不同格式的數(shù)據(jù)之間實(shí)現(xiàn)互通。在2017年,為零散的、不同的資源提供即時(shí)連接的能力,將成為評(píng)估一個(gè)平臺(tái)能力的重要方面。

    6.Spark和機(jī)器學(xué)習(xí)打通大數(shù)據(jù)的任督二脈

    Apache Spark曾是Hadoop生態(tài)系統(tǒng)的一個(gè)組件,現(xiàn)在正成為大數(shù)據(jù)平臺(tái)企業(yè)的首選。

    在對(duì)數(shù)據(jù)架構(gòu)師、IT經(jīng)理和BI分析師的調(diào)查中,近70%的受訪者表示,現(xiàn)有的MapReduce里邊最青睞Spark,它是批量導(dǎo)向的并行處理,但不適合交互式應(yīng)用程序或?qū)崟r(shí)流處理。

    這些以大數(shù)據(jù)為基礎(chǔ)的超級(jí)計(jì)算能力為計(jì)算密集型的平臺(tái)提供了極大的助力,如:機(jī)器學(xué)習(xí)(ML)、人工智能(AI)、圖形算法等。尤其對(duì)于Microsoft Azure 機(jī)器學(xué)習(xí),由于上述計(jì)算能力也完全適用于初學(xué)者,并能迅速集成到現(xiàn)有的Microsoft平臺(tái)。向大眾開放機(jī)器學(xué)習(xí)將有助于創(chuàng)建更多的模型和應(yīng)用程序來生成PB級(jí)數(shù)據(jù)。隨著機(jī)器學(xué)習(xí)和系統(tǒng)日益智能化,自助服務(wù)軟件提供商們是時(shí)候要挖掘一下大數(shù)據(jù)的力量如何變現(xiàn)到最終用戶身上。

    7.物聯(lián)網(wǎng)、云服務(wù)和大數(shù)據(jù)集結(jié)起來便是自助服務(wù)的新機(jī)遇

    在2017年,似乎一切都將有一個(gè)傳感器把信息送回主體

    IoT正在生成大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),而且越來越多的數(shù)據(jù)部署在云服務(wù)上。數(shù)據(jù)通常是異構(gòu)的,并且存在于多個(gè)關(guān)系和非關(guān)系系統(tǒng)中,如Hadoop集群、非關(guān)系數(shù)據(jù)庫等。

    雖然存儲(chǔ)和管理服務(wù)的創(chuàng)新加快了數(shù)據(jù)獲取的步伐、進(jìn)程程,但訪問和理解數(shù)據(jù)本身仍然是棘手的“最后一米”。因此,對(duì)于無縫連接和組合各種云托管數(shù)據(jù)源的分析工具的需求正在增長(zhǎng)。這樣的工具使企業(yè)實(shí)現(xiàn)了大數(shù)據(jù)庫的即時(shí)調(diào)取和可視化管理,,從而幫助物聯(lián)網(wǎng)投資者挖掘隱藏的機(jī)會(huì)。

    8.在最終用戶驅(qū)動(dòng)下,自助數(shù)據(jù)預(yù)處理走向主流

    Hadoop數(shù)據(jù)如何走進(jìn)企業(yè)用戶,是當(dāng)下最大的挑戰(zhàn)之一。

    Hadoop數(shù)據(jù)如何走進(jìn)企業(yè)用戶,是當(dāng)下最大的挑戰(zhàn)之一。自助服務(wù)分析平臺(tái)的興起改善了這一過程。但企業(yè)用戶希望進(jìn)一步簡(jiǎn)化數(shù)據(jù)分析的流程,尤其在處理多種數(shù)據(jù)類型和格式時(shí),這一訴求更加明顯。

    敏捷的自助服務(wù)數(shù)據(jù)預(yù)處理工具不僅可以在源處預(yù)處理Hadoop數(shù)據(jù),而且還使數(shù)據(jù)作為快照來用,從而進(jìn)行簡(jiǎn)易便捷的進(jìn)一步處理。

    我們已經(jīng)看到了的一大批面向終端用戶的大數(shù)據(jù)預(yù)處理創(chuàng)新, Alteryx、Trifacta和Paxata。這些工具降低了后期Hadoop采用者和初學(xué)者的進(jìn)入門檻,并將在2017年體現(xiàn)更大價(jià)值。

    9.大數(shù)據(jù)成長(zhǎng):Hadoop增加了企業(yè)標(biāo)準(zhǔn)

    Hadoop將逐漸成為企業(yè)IT環(huán)境的核心部分。

    Hadoop將逐漸成為企業(yè)IT環(huán)境的核心部分。在2017年,我們將看到圍繞企業(yè)系統(tǒng)的安全、管理成為投資熱地的更多投資。ApacheSentry提供了一個(gè)系統(tǒng),在這個(gè)系統(tǒng)中,我們可以強(qiáng)制對(duì)元數(shù)據(jù)進(jìn)行細(xì)致的、按需分配的授權(quán)。

    作為數(shù)據(jù)管理的一項(xiàng)重大創(chuàng)舉,Apache Atlas,讓企業(yè)可以在繁雜的數(shù)據(jù)生態(tài)系統(tǒng)中實(shí)行統(tǒng)一的數(shù)據(jù)分類。Apache Ranger為Hadoop提供集中式安全管理。

    客戶開始期望從企業(yè)級(jí)RDBMS平臺(tái)獲得這些類型的功能。這些功能走在新興大數(shù)據(jù)技術(shù)的前沿,從而消除了企業(yè)關(guān)于技術(shù)迭代而被淘汰方面的擔(dān)憂。

    Hadoop對(duì)數(shù)據(jù)進(jìn)行細(xì)致管理、按需分配的實(shí)例

    Last.fm創(chuàng)建于2002年,是提供網(wǎng)絡(luò)電臺(tái)和音樂服務(wù)的社交網(wǎng)絡(luò)。每個(gè)月有2500萬人使用,產(chǎn)生大量數(shù)據(jù)。2006年初,Last.fm開始使用Hadoop。Hadoop是Last.fm基礎(chǔ)平臺(tái)的關(guān)鍵組件,有2個(gè)Hadoop集群,運(yùn)行數(shù)百種各種日常作業(yè),包括日志文件分析,A/B測(cè)試評(píng)測(cè),即時(shí)處理和圖表生成。

    圖表生成:圖表生成是Hadoop在Last.fm的第一個(gè)應(yīng)用。

    數(shù)據(jù)從哪里來:Last.fm有兩種收聽信息:用戶播放自己的音樂,如pc或者其他設(shè)備mp3,這種信息通過Last.fm的客戶端或者第三方應(yīng)用發(fā)送到Last.fm,這一類叫scrobble收藏?cái)?shù)據(jù);用戶收聽Last.fm網(wǎng)絡(luò)電臺(tái)的節(jié)目,以及聽節(jié)目時(shí)候的喜愛,跳過,禁止等操作信息,這一類叫radio listen電臺(tái)收聽數(shù)據(jù)。

    數(shù)據(jù)存儲(chǔ):收聽數(shù)據(jù)被發(fā)送到Last.fm,經(jīng)歷驗(yàn)證和轉(zhuǎn)換,形成一系列有空格分隔的文本文件,包含用戶id-userid,音樂id-trackid,這首音樂被收藏的次數(shù)scrobble,這首音樂在電臺(tái)中收聽的次數(shù)radio,被跳過的次數(shù)skip。真實(shí)數(shù)據(jù)達(dá)到GB級(jí)別,有更多屬性字段。

    數(shù)據(jù)處理:

    Unique Listeners作業(yè):統(tǒng)計(jì)收聽某一首歌的不同用戶數(shù),也就說說,有多少個(gè)用戶聽過某個(gè)歌,如果用戶重復(fù)收聽,只算一次。

    Sum作業(yè):每首歌的收聽總數(shù),收藏總數(shù),電臺(tái)收聽總數(shù),被跳過的總數(shù)。

    合作作業(yè):每首歌被多少用戶收聽總數(shù),收聽總數(shù),收藏總數(shù),電臺(tái)收聽總數(shù),被跳過的總數(shù)等。

    最后,這些數(shù)據(jù)會(huì)被作為周排行榜等在Last.fm主站上顯示出來。

    Hadoop大數(shù)據(jù)技術(shù)案例

    讓Hadoop和其他大數(shù)據(jù)技術(shù)如此引人注目的部分原因是,他們讓企業(yè)找到問題的答案,而在此之前他們甚至不知道問題是什么。包括谷歌,F(xiàn)acebook、LinkedIn還在內(nèi)的諸多巨頭,都在幫助Hadoop改善運(yùn)營(yíng)效率。具體包括包括:

    情感分析: Hadoop與先進(jìn)的文本分析工具結(jié)合,分析社會(huì)化媒體和社交網(wǎng)絡(luò)發(fā)布的非結(jié)構(gòu)化的文本,包括Tweets和Facebook,以確定用戶對(duì)特定公司,品牌或產(chǎn)品的情緒。分析既可以專注于宏觀層面的情緒,也可以細(xì)分到個(gè)人用戶的情緒。

    風(fēng)險(xiǎn)建模: 財(cái)務(wù)公司、銀行等公司使用Hadoop和下一代數(shù)據(jù)倉庫分析大量交易數(shù)據(jù),以確定金融資產(chǎn)的風(fēng)險(xiǎn),模擬市場(chǎng)行為為潛在的“假設(shè)”方案做準(zhǔn)備,并根據(jù)風(fēng)險(xiǎn)為潛在客戶打分。

    欺詐檢測(cè): 金融公司、零售商等使用大數(shù)據(jù)技術(shù)將客戶行為與歷史交易數(shù)據(jù)結(jié)合來檢測(cè)欺詐行為。例如,信用卡公司使用大數(shù)據(jù)技術(shù)識(shí)別可能的被盜卡的交易行為。

    客戶流失分析: 企業(yè)使用Hadoop和大數(shù)據(jù)技術(shù)分析客戶行為數(shù)據(jù)并確定分析模型,該模型指出哪些客戶最有可能流向存在競(jìng)爭(zhēng)關(guān)系的供應(yīng)商或服務(wù)商。企業(yè)就能采取最有效的措施挽留欲流失客戶。

    用戶體驗(yàn)分析: 面向消費(fèi)者的企業(yè)使用Hadoop和其他大數(shù)據(jù)技術(shù)將之前單一 客戶互動(dòng)渠道(如呼叫中心,網(wǎng)上聊天,微博等)數(shù)據(jù)整合在一起, 以獲得對(duì)客戶體驗(yàn)的完整視圖。這使企業(yè)能夠了解客戶交互渠道之間的相互影響,從而優(yōu)化整個(gè)客戶生命周期的用戶體驗(yàn)。

    10.元數(shù)據(jù)目錄的建立幫助篩選出具有分析價(jià)值的數(shù)據(jù)

    很長(zhǎng)一段時(shí)間以來,公司拋棄了數(shù)據(jù),因?yàn)樗麄冋J(rèn)為海量的數(shù)據(jù)處理起來確實(shí)無從下手。

    很長(zhǎng)一段時(shí)間以來,公司拋棄了數(shù)據(jù),因?yàn)樗麄冋J(rèn)為海量的數(shù)據(jù)處理起來確實(shí)無從下手。用Hadoop當(dāng)然也可以處理大量的數(shù)據(jù),但是這些數(shù)據(jù)仍然沒有一個(gè)清晰的分類、易追溯的架構(gòu)。

    元數(shù)據(jù)目錄可以幫助用戶發(fā)現(xiàn)和理解哪些數(shù)據(jù)需要使用自助服務(wù)工具進(jìn)行分析??蛻舻倪@種需求正被Alation和Waterline這樣的公司填補(bǔ),它們使用機(jī)器學(xué)習(xí)來自動(dòng)篩選Hadoop需要分析的數(shù)據(jù):

    如,使用標(biāo)簽對(duì)文件進(jìn)行編目,標(biāo)明數(shù)據(jù)資產(chǎn)之間的關(guān)聯(lián),必要時(shí)還會(huì)提供搜索UI給出的查詢建議。這大大縮短了數(shù)據(jù)使用者和管理者取得信任、查找以及準(zhǔn)確查詢數(shù)據(jù)的時(shí)間。在2017年,作為自助服務(wù)的自然延伸,我們將看到更多企業(yè)意識(shí)到自助分析的重要性,以及對(duì)其迫切的需求。

    文章來源:36大數(shù)據(jù) 原文鏈接:http://www.36dsj.com/archives/77765

    更多大數(shù)據(jù)與分析相關(guān)行業(yè)資訊、解決方案、案例、教程等請(qǐng)點(diǎn)擊查看>>>

    詳情請(qǐng)咨詢在線客服!

    客服熱線:023-66090381

    掃碼咨詢


    添加微信 立即咨詢

    電話咨詢

    客服熱線
    023-68661681

    TOP
    三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();