Hadoop教程:Hadoop企業(yè)級應(yīng)用新添重磅案例
當(dāng)下大數(shù)據(jù)之熱使得技術(shù)界對Hadoop的話題熱火朝天。但在日常工作中,企業(yè)往往還是遵循既有模式,對于Hadoop到底能否真正幫到企業(yè)的應(yīng)用依然心存顧慮。Hadoop是不是很年輕?這個開源的事物能否符合公司業(yè)務(wù)級的嚴(yán)謹(jǐn)要求?有沒有企業(yè)真的應(yīng)用過?一系列問題縈繞人們心頭。這可以理解,畢竟任何一個新生事物出來都要有一個接受過程 。
對于Hadoop,其實這些都不是問題。專業(yè)人士都知道,Hadoop到現(xiàn)在已有15個年頭,這對于一個實用技術(shù)的穩(wěn)定發(fā)展已足夠長久。 事實上,雖然“大數(shù)據(jù)”一詞才出來二三年,但它實際指稱的海量的、多類型的數(shù)據(jù)現(xiàn)象早就有了,不但在互聯(lián)網(wǎng)領(lǐng)域,更在工業(yè)、商業(yè)、通信、金融、傳媒等存在久遠(yuǎn)。比如,生產(chǎn)線上巨量傳感器數(shù)據(jù)的接收分析、通信系統(tǒng)全程全網(wǎng)的實時日志文件采集與分析、醫(yī)療系統(tǒng)密集數(shù)據(jù)采集與分析從而幫助快速的科學(xué)診斷……所有這些都需要新型的數(shù)據(jù)處理技術(shù)來支撐。Hadoop在這些領(lǐng)域突顯了強大競爭力,并在國內(nèi)外的相關(guān)實踐中獲得廣泛應(yīng)用。
在Hadoop還是開源的時候, 眾多非 IT 型企業(yè)不具備自我開發(fā)條件,由此限制了Hadoop在企業(yè)里的普及。但隨著專注于企業(yè)級市場的Hadoop發(fā)行版的技術(shù)公司出現(xiàn),這個問題迎刃而解。從此, 各類型企業(yè)終于可以安心駕馭真正的企業(yè)化“大數(shù)據(jù)浪潮”了。
在中國,廣電系統(tǒng)正經(jīng)歷著數(shù)字化浪潮的沖擊,基于網(wǎng)絡(luò)化的影視播放給傳統(tǒng)廣電運營商很大挑戰(zhàn)。 在此背景下,廣電系統(tǒng)的生力軍華數(shù)傳媒敏銳地意識到,要想獲得未來網(wǎng)絡(luò)化傳媒的生存與競爭優(yōu)勢,現(xiàn)在就必需向用戶傾斜,以適應(yīng)未來發(fā)展的數(shù)據(jù)基礎(chǔ)架構(gòu)為依托,才能打造“精準(zhǔn)型”廣電內(nèi)容及傳播運營商。
2013年,華數(shù)傳媒的大數(shù)據(jù)系統(tǒng)完成了從無到有的基礎(chǔ)建設(shè),實現(xiàn)了基本應(yīng)用。然而,華數(shù)大數(shù)據(jù)仍面臨很多挑戰(zhàn):數(shù)據(jù)量增加帶來的服務(wù)性能壓力、數(shù)據(jù)分析無法滿足高時效性業(yè)務(wù)、業(yè)務(wù)支撐功能無法滿足復(fù)雜的商用需求、對網(wǎng)絡(luò)和服務(wù)器質(zhì)量等數(shù)據(jù)分析仍為空白、等等。為此,華數(shù)傳媒亟需解決方案以解決如下幾個問題:
1. 數(shù)據(jù)采集、存儲和轉(zhuǎn)發(fā)。通過大數(shù)據(jù)技術(shù)滿足海量、多來源、多樣性數(shù)據(jù)的存儲、管理要求,支持平臺硬件的線性擴展,并提供快速實時的數(shù)據(jù)分析結(jié)果,并迅速作用于業(yè)務(wù)。
2. 個性化用戶推薦。不僅限于數(shù)據(jù)本身的分析和決策價值,通過構(gòu)建在大數(shù)據(jù)平臺之上整合業(yè)務(wù)能力,為用戶提供融合、個性化的內(nèi)容服務(wù)。
3. 從內(nèi)容傳輸?shù)絻?nèi)容制造。使用大數(shù)據(jù)挖掘技術(shù)提前先于觀眾知道他們需求,預(yù)知將受到追捧的電視。另外, 還可通過觀眾對演員、情節(jié)、基調(diào)、類型等元數(shù)據(jù)的標(biāo)簽化,來了解受眾偏好,從而進行分析觀測,為后續(xù)的影視制作等內(nèi)容開發(fā)做好準(zhǔn)備。
作為眾多廣電運營商其中的重要一員,華數(shù)傳媒的這些需求,也是廣電運營商們的共同訴求。
針對華數(shù)傳媒的需要,國內(nèi)首家專業(yè)的企業(yè)級Hadoop發(fā)行版廠商星環(huán)科技給出了令人滿意的答卷。 星環(huán)科技基于自主研發(fā)的一站式Hadoop發(fā)行版Transwarp Data Hub (TDH),綜合運用了其中的TDH Hadoop、Inceptor分布式內(nèi)存引擎、Hyperbase實時數(shù)據(jù)庫等技術(shù)產(chǎn)品組件,為華數(shù)傳媒提供了如下的綜合方案:
數(shù)字電視分析系統(tǒng)
TDH平臺用以整合各個相關(guān)數(shù)據(jù)源數(shù)據(jù),包括Portal、CA、CDN、SRM日志、用戶使用瀏覽信息、AAA、BOSS結(jié)構(gòu)化數(shù)據(jù)、用戶基本信息、消費數(shù)據(jù)、用戶上網(wǎng)流量數(shù)據(jù)、網(wǎng)管數(shù)據(jù)等。通過TDH的快速分布式數(shù)據(jù)查詢引擎,實現(xiàn)海量數(shù)據(jù)的秒級查詢。為用戶提供智能推薦、實時榜單和新媒體指數(shù)分析。
1. 提供基于全量數(shù)據(jù)的實時榜單。以時間(小時/天/周)、用戶等維度,對點播節(jié)目、直播節(jié)目、節(jié)目類別、搜索關(guān)鍵詞等進行排名分析、同比環(huán)比分析、趨勢分析等。地區(qū)風(fēng)向標(biāo)主要以城市和時間等維度分析點播排行、劇集排行、分類排行、熱搜排行及用戶數(shù)量的變化。另外,從時間、頻道、影片類型、劇集等維度,根據(jù)在看數(shù)量、新增數(shù)量、結(jié)束觀看數(shù)量、完整看完等分析用戶走向。
圖一:華數(shù)傳媒以企業(yè)級Hadoop發(fā)新版為基礎(chǔ)的大數(shù)據(jù)架構(gòu)
2. 新媒體指數(shù)分析。通過對用戶行為分析獲取很多的隱性指標(biāo),從側(cè)面反映用戶對業(yè)務(wù)的認(rèn)可度、用戶的使用行為習(xí)慣等。在此基礎(chǔ)之上,TDH大數(shù)據(jù)分析可幫助華數(shù)傳媒構(gòu)建規(guī)范的指標(biāo)分析和衡量體系,為業(yè)務(wù)運營提供強有力的指導(dǎo)。
3.智能推薦。運用星環(huán)科技大數(shù)據(jù)基礎(chǔ)架構(gòu),通過對用戶行為數(shù)據(jù)的采集分析,進行精準(zhǔn)畫像,使用智能推薦引擎,實現(xiàn)信息的個性化推薦(TV屏、手機、PC),個性化營銷(個性化廣告、豐富產(chǎn)品組合、市場分析)?;诳沙掷m(xù)擴展和優(yōu)化智能推薦算法,以及大數(shù)據(jù)帶來的實時數(shù)據(jù)交互能力,為每一個用戶量身定做的推薦節(jié)目極大提高了產(chǎn)品的到達率,增強了用戶忠誠度。
結(jié)語:
對于包括廣電運營商在內(nèi)的眾多企業(yè)而言,精細(xì)化的用戶需求掌控是未來發(fā)展不可變更的趨勢。在此,Hadoop發(fā)行版系統(tǒng)再次證明了其業(yè)務(wù)價值,這是傳統(tǒng)數(shù)據(jù)管理系統(tǒng)力所不能及的。星環(huán)科技是國內(nèi)鮮有的掌握企業(yè)級Hadoop和Spark核心技術(shù)的高科技創(chuàng)業(yè)公司,在電信、金融、交通、政府等領(lǐng)域的落地應(yīng)用擁有豐富經(jīng)驗。相信通過類似星環(huán)科技的Hadoop發(fā)行版系統(tǒng),企業(yè)級大數(shù)據(jù)應(yīng)用將更能順應(yīng)業(yè)務(wù)發(fā)展要求,企業(yè)也可更從容面對市場競爭。
原文鏈接:http://internet.chinaitlab.com/news/967120.html