• <menu id="w2i4a"></menu>
  • logo Hadoop教程

    文檔首頁>>Hadoop教程>>Hadoop教程:Hadoop和大數(shù)據(jù)在電信業(yè)里的典型應(yīng)用

    Hadoop教程:Hadoop和大數(shù)據(jù)在電信業(yè)里的典型應(yīng)用


    2013年11月22-23日,作為國內(nèi)唯一專注于Hadoop技術(shù)與應(yīng)用分享的大規(guī)模行業(yè)盛會(huì),2013 Hadoop中國技術(shù)峰會(huì)(China Hadoop Summit 2013)于北京福朋喜來登集團(tuán)酒店隆重舉行。來自國內(nèi)外各行業(yè)領(lǐng)域的近千名CIO、CTO、架構(gòu)師、IT經(jīng)理、咨詢顧問、工程師、Hadoop技術(shù)愛好者,以及從事Hadoop研究與推廣的IT廠商和技術(shù)專家將共襄盛舉。

    大會(huì)現(xiàn)場來自聯(lián)通研究院移動(dòng)互聯(lián)網(wǎng)產(chǎn)品開發(fā)事業(yè)部主任王志軍,為大家介紹了Hadoop和大數(shù)據(jù)在行業(yè)里的典型應(yīng)用。

    Hadoop在電信大數(shù)據(jù)業(yè)務(wù)系統(tǒng)中的應(yīng)用

    王主任主要從四個(gè)方面介紹了大數(shù)據(jù)的應(yīng)用:第一方面源起,第二、電信運(yùn)營商有哪些大數(shù)據(jù),第三、中國聯(lián)通建成的正在投入使用的大數(shù)據(jù)業(yè)務(wù)系統(tǒng),第四、大數(shù)據(jù)應(yīng)用的展望舉幾個(gè)簡單的例子。

    一、源起

    我們進(jìn)入到移動(dòng)互聯(lián)網(wǎng)的時(shí)代,幾乎每個(gè)人都有手機(jī),現(xiàn)在在用手機(jī)的時(shí)候,更多的是個(gè)人的電腦,所做的工作除了做一些基本語音和短信的功能之外,絕大部分在手機(jī)上的工作是使用數(shù)據(jù)的流量,移動(dòng)通訊從語音的時(shí)代跨越到數(shù)據(jù)的時(shí)代,運(yùn)營商有很大的機(jī)會(huì),同時(shí)運(yùn)營商遇到了很多流量消費(fèi)爭議的問題。

    目前流量消費(fèi)爭議已經(jīng)躍升成為用戶通訊服務(wù)投訴的首位。首先的問題是數(shù)據(jù)流量消費(fèi)遠(yuǎn)不如語音消費(fèi)清晰透明。語音消費(fèi)的時(shí)候撥打一個(gè)電話,對方是誰,打了多長時(shí)間,這個(gè)時(shí)間是可以感知到的。運(yùn)營商也可以語音通話的詳單,如果是發(fā)短信,發(fā)了多少條短信大體是心中有數(shù)的。

    流量消費(fèi)首先是計(jì)費(fèi)單位是KB,流量消費(fèi)有一定的不確定性。剛才用手機(jī)刷了一下微博、用了一會(huì)兒微信,到底用了多少流量,他不知道到底如何進(jìn)行計(jì)費(fèi)。所以說很多用戶基于這種了解,可能很多時(shí)候主觀認(rèn)為自己根本沒有使用流量,或者是使用了比較小的流量,為什么有的時(shí)候會(huì)產(chǎn)生比較高額的流量的花費(fèi),這時(shí)用戶運(yùn)營商來告訴我,這個(gè)流量用到哪去了?上了什么網(wǎng)址、用了什么應(yīng)用產(chǎn)生了什么流量,而不是簡單說這個(gè)月用了1G或者是700兆的流量,傳統(tǒng)的方式已經(jīng)不滿足現(xiàn)在用戶的需要了。

    現(xiàn)在3G客戶數(shù)據(jù)流量爭議占3G業(yè)務(wù)投訴是10%,現(xiàn)在整個(gè)比例是在逐漸的上升。個(gè)別的省份已經(jīng)達(dá)到了20%的比例。目前中國聯(lián)通每月打到10010客服流量上的投訴是近萬起。同時(shí)很多用戶也基于運(yùn)營商無法提供上網(wǎng)記錄的詳單,提出了法律的訴訟。例如某iphone合約計(jì)劃的用戶,他是晚上凌晨到四點(diǎn)睡覺期間發(fā)生了巨額的流量,智能手機(jī)可能語音的應(yīng)用、有很多自動(dòng)更新的應(yīng)用,這些應(yīng)用并不是使用了才產(chǎn)生流量,這種情況下用戶難以理解。運(yùn)營商的計(jì)量設(shè)備無法提供了詳單就提出了訴訟。運(yùn)營商的計(jì)量設(shè)備就相當(dāng)于家里的水表,現(xiàn)在是區(qū)分不出來做飯、沖馬桶、洗衣服用了多少水。如果是給用戶提供詳單,我們就需要做準(zhǔn)確的計(jì)量設(shè)備做流量的區(qū)分。

    原來運(yùn)營商如何提供詳單的,主要是產(chǎn)生于網(wǎng)頁設(shè)備,GGSN,之前產(chǎn)生話單的方式流量累計(jì)到一定的限度,或者是達(dá)到一定的時(shí)長,或者是現(xiàn)在已經(jīng)把網(wǎng)絡(luò)關(guān)閉掉了,這時(shí)候才是產(chǎn)生流量的話單,這主要是運(yùn)營商做計(jì)費(fèi)用的,不是給用戶來去說明情況的。里面包含的信息可能有手機(jī)號碼、上頁流量是多少,下頁流量是多少,或有話單的持續(xù)時(shí)長,但是不包含網(wǎng)址的信息和訪問記錄的信息。

    這種情況下,中國聯(lián)通的移動(dòng)業(yè)務(wù),此前有個(gè)客服部門的統(tǒng)計(jì)數(shù)據(jù),每萬元應(yīng)收收入中因無法提供上網(wǎng)記錄詳單的數(shù)據(jù),造成的投訴和退費(fèi)賠付是60塊錢。GGSN不光是中國聯(lián)通在用,來自愛立信、華為、中興、諾基亞都在使用,這種成熟的設(shè)備,出現(xiàn)偏差的概率是很小了,絕大部分的賠付是運(yùn)營商說不清楚,用戶有投訴,為了避免爭議擴(kuò)大化,運(yùn)營商是采用了賠付與和解的方式來處理。

    由此可見提供用戶上網(wǎng)記錄詳單,成為了互聯(lián)網(wǎng)透明健康環(huán)境的關(guān)鍵的因素,這是運(yùn)營商希望能夠做到的事情。

    上網(wǎng)記錄是典型的大數(shù)據(jù)

    例如,每個(gè)用戶,可能每月的通話記錄是幾百、幾千條,上網(wǎng)的記錄絕對不是這個(gè)數(shù)量級,可能是幾萬,用的量大可能是幾十萬條上網(wǎng)數(shù)據(jù)。例如用手機(jī)訪問新浪網(wǎng)的首頁大致是產(chǎn)生20多條記錄,包括手機(jī)發(fā)起,DS的查詢,包括網(wǎng)頁中每個(gè)元素的下載,其實(shí)對網(wǎng)絡(luò)來說都是獨(dú)立的請求這樣都會(huì)產(chǎn)生一條記錄。如果用IPAD,新浪網(wǎng)的首頁會(huì)產(chǎn)生40條記錄,如果看了IPAD里的新聞,過來會(huì)產(chǎn)生180條記錄。

    例如說訪問淘寶的觸摸平板也會(huì)產(chǎn)生6條記錄,此外還有大量后臺推送的消息,相當(dāng)于是蘋果的手機(jī)有很多通知的服務(wù),例如說微信,很多的通知的服務(wù)業(yè)在悄悄的進(jìn)行。

    經(jīng)過統(tǒng)計(jì),中國聯(lián)通用戶上網(wǎng)記錄每個(gè)月是超過了兩萬億條,并且還在增長。數(shù)據(jù)量是全國目前運(yùn)營商所有類型的計(jì)費(fèi)話單的30倍以上,包括語音詳單、短信詳單、采信詳單以及包括此前運(yùn)營商給的流量記錄詳單,所有的數(shù)據(jù)量的30倍以上。

    移動(dòng)互聯(lián)網(wǎng)是快速的發(fā)展期,大約每8個(gè)月流量會(huì)翻一番,今年年底4G的牌照會(huì)發(fā)放,在LTE的時(shí)代,用戶的流量的消費(fèi)會(huì)越來越大,現(xiàn)在是兩萬億,明年這個(gè)時(shí)候是五萬億條,之后也許是八萬億條,數(shù)據(jù)很巨大。

    上網(wǎng)數(shù)據(jù)是個(gè)典型的大數(shù)據(jù)

    采用什么方式進(jìn)行存儲(chǔ)和檢索呢是個(gè)大問題,此前運(yùn)營商采用的架構(gòu)方式是IUE的架構(gòu),用IBM小型機(jī),用商用的關(guān)系型數(shù)據(jù)庫,用高可靠性的EMC的存儲(chǔ),構(gòu)建無論是計(jì)費(fèi)系統(tǒng)還是帳戶系統(tǒng),很多的系統(tǒng)都是這樣方式構(gòu)建的這個(gè)很昂貴,但是它解決不了我們的問題。存儲(chǔ)這么大規(guī)模量的數(shù)據(jù),以后超越了可管理容量的上線。在做查詢的時(shí)候,關(guān)系型數(shù)據(jù)庫對大規(guī)模操作的時(shí)候性能是嚴(yán)重下降的。

    數(shù)據(jù)量達(dá)到500G延時(shí)可能是三千秒,意味著兩萬億條記錄的數(shù)據(jù),分期、分表存下來,達(dá)到500G用戶有個(gè)查詢的請求意味著一個(gè)小時(shí)才能給用戶響應(yīng),即使做過優(yōu)化查詢的速度也是半個(gè)小時(shí)以上,審核公司也做過實(shí)驗(yàn),經(jīng)常一個(gè)查詢是幾個(gè)小時(shí)才能查詢到用戶的詳單。

    我們面臨的問題是數(shù)據(jù)快速的寫入,每月有兩萬億條記錄,每天有超過七百億條記錄,這么大的數(shù)據(jù)量如何快速的存儲(chǔ)下來,那面記錄在源源不斷的生成,我們必須保持足夠的速度記錄下來,第二我們的數(shù)據(jù)如何快速檢索提供給用戶,在什么時(shí)候上了什么網(wǎng)址用了多少流量。上網(wǎng)記錄的數(shù)據(jù)本身是個(gè)高價(jià)值的數(shù)據(jù),它是目前為止可能是用戶在移動(dòng)互聯(lián)網(wǎng)行為上的一個(gè)最基礎(chǔ)、最原始的數(shù)據(jù),這個(gè)數(shù)據(jù)如何進(jìn)行高效的分析和挖掘。這么大的數(shù)據(jù)量,如何來進(jìn)行低成本的存儲(chǔ),都是當(dāng)時(shí)面臨的問題。

    Hadoop可以幫助我們解決這些問題

    Hadoop采用開源的方式,構(gòu)架了普通的PC服務(wù)器之上,拋棄了高端的存儲(chǔ),也可以保證高可靠性,適合數(shù)據(jù)快速的寫入,以及有快速檢索的方式,這樣相當(dāng)于有十億的業(yè)務(wù)需求解決不了問題,Hadoop幫我們解決了,這是我們跟Hadoop脫離了實(shí)驗(yàn)室的概念,是真正的商用系統(tǒng)上第一次親密接觸。

    掃碼咨詢


    添加微信 立即咨詢

    電話咨詢

    客服熱線
    023-68661681

    TOP
    三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();