• <menu id="w2i4a"></menu>
  • logo 大數(shù)據(jù)干貨(三)

    文檔首頁(yè)>>大數(shù)據(jù)干貨(三)>>案例:電信用戶(hù)分群精準(zhǔn)畫(huà)像的7個(gè)步驟

    案例:電信用戶(hù)分群精準(zhǔn)畫(huà)像的7個(gè)步驟


    本期我們有幸采訪(fǎng)到的嘉賓名叫蘭錦池,2012年碩士畢業(yè),概率論與數(shù)理統(tǒng)計(jì)專(zhuān)業(yè),崇尚概率論和統(tǒng)計(jì)學(xué)解決問(wèn)題的思想,喜愛(ài)折騰各種實(shí)際數(shù)據(jù),愿意跟數(shù)據(jù)挖掘模型死磕。

    現(xiàn)在他是一名資深數(shù)據(jù)挖掘工程師,主要負(fù)責(zé)用戶(hù)行為分析和精準(zhǔn)營(yíng)銷(xiāo)相關(guān)工作;曾做過(guò)某電信省公司的手機(jī)用戶(hù)行為價(jià)值分群、手機(jī)終端升級(jí)概率預(yù)測(cè)模型、用戶(hù)流失預(yù)警模型等。

    在蘭錦池看來(lái),工作中最困難的還是數(shù)據(jù)源的采集和結(jié)構(gòu)化數(shù)據(jù)的獲取,比如曾經(jīng)做用戶(hù)的手機(jī)上網(wǎng)行為畫(huà)像,需要采集手機(jī)上網(wǎng)日志數(shù)據(jù),并轉(zhuǎn)化為興趣點(diǎn)數(shù)據(jù)。需要數(shù)據(jù)分析獅提出數(shù)據(jù)需求、采集規(guī)則、計(jì)算口徑等非常詳細(xì)的方案,期間還得與業(yè)務(wù)和數(shù)據(jù)采集部門(mén)深入合作。簡(jiǎn)而言之,就是,數(shù)據(jù)分析獅不僅僅是呆板的技術(shù)人員,而且能溝通協(xié)調(diào)、整合資源的多面手。

    本期,他帶來(lái)了一個(gè)電信用戶(hù)分群案例,與大家分享。

    1、業(yè)務(wù)問(wèn)題背景

    某省電信運(yùn)營(yíng)商e8套餐(寬帶+固話(huà))升級(jí)e9(寬帶+固話(huà)+手機(jī))的主要業(yè)務(wù)目標(biāo)為針對(duì)e8客戶(hù)加裝電信C網(wǎng)號(hào)碼并購(gòu)買(mǎi)手機(jī),升級(jí)為e9融合套餐或e9自主套餐用戶(hù)。即,通過(guò)電信的自身的寬帶客戶(hù)資源,進(jìn)行精準(zhǔn)電話(huà)營(yíng)銷(xiāo),促使用戶(hù)購(gòu)買(mǎi)手機(jī),從而提升電信在手機(jī)市場(chǎng)的占有率。

    2、數(shù)據(jù)理解:e8升e9的數(shù)據(jù)理解

    1.png


    3、確定分析對(duì)象

    本環(huán)節(jié)關(guān)鍵點(diǎn):

    縮小分析基礎(chǔ)客戶(hù)群范圍,從表中238萬(wàn)寬帶客戶(hù)中篩選出24萬(wàn)符合業(yè)務(wù)目標(biāo)的e8客戶(hù),作為數(shù)據(jù)挖掘的基礎(chǔ)客戶(hù)群

    具體步驟:

    常用的數(shù)據(jù)挖掘基礎(chǔ)客戶(hù)群篩選維度如下:

    • 客戶(hù)群篩選,如寬帶客戶(hù)、手機(jī)客戶(hù)、固話(huà)客戶(hù)
    • 套餐大類(lèi)篩選:如e8、e9、樂(lè)享
    • 特定業(yè)務(wù)規(guī)則篩選:如活動(dòng)對(duì)客戶(hù)網(wǎng)齡、套餐檔位的限定
    • 互斥協(xié)議等篩選:根據(jù)活動(dòng)規(guī)則,對(duì)已有互斥協(xié)議的客戶(hù)進(jìn)行篩選

    分析對(duì)象篩選流程:

    以e8升e9為例,根據(jù)前期業(yè)務(wù)和數(shù)據(jù)理解,本次挖掘的基本目標(biāo)客戶(hù)為e8用戶(hù),且在同賬戶(hù)下無(wú)C網(wǎng)手機(jī)。

    具體數(shù)據(jù)樣本選取路徑如下:

    2.png

    注,具體操作方法:

    • e8客戶(hù)篩選操作:選擇客戶(hù)“套餐類(lèi)型”字段為“e8”的客戶(hù)
    • e8客戶(hù)無(wú)C網(wǎng)手機(jī)篩選過(guò)程:將所有e8客戶(hù)的ACC_ID字段與“CDMA單月寬表”進(jìn)行關(guān)聯(lián),能關(guān)聯(lián)出C網(wǎng)號(hào)碼的即視為同賬戶(hù)下有C網(wǎng)手機(jī)。形成241243數(shù)據(jù)樣本。

    4、變量篩選

    以e8升e9案例中變量處理為例,具體篩選流程如下:

    3.png
    • 通過(guò)對(duì)67個(gè)字段明顯無(wú)關(guān)字段初步篩選后獲得18個(gè)主要字段。
    • 此后,需根據(jù)字段理解對(duì)有明顯相關(guān)性的變量進(jìn)行篩選合并,如下面表格中的紅色字段,寬帶上行流量、寬帶下行流量和寬帶總流量三個(gè)字段存在明顯的關(guān)聯(lián)關(guān)系,因此根據(jù)業(yè)務(wù)需求可直接只選擇寬帶總流量進(jìn)行分析即可。
    • 對(duì)于不確定是否有相關(guān)性的部分字段,可通過(guò)SPSS中“輸出”模塊中的“統(tǒng)計(jì)量”節(jié)點(diǎn)進(jìn)行相關(guān)性判斷。通常分析相關(guān)性結(jié)果大于0.666以上可基本判斷相關(guān)性較強(qiáng)。例如:寬帶使用流量字段與其他字段進(jìn)行關(guān)聯(lián)性分析,發(fā)現(xiàn)與寬帶使用時(shí)長(zhǎng)存在較強(qiáng)的相關(guān)性,因此這兩個(gè)個(gè)字段可選擇其中一個(gè)作為輸入變量即可。
      15.png
    • 最終確定模型的10個(gè)主要輸入變量。


    5、決策樹(shù)模型的建立

    (1)選擇模型輸入變量

    根據(jù)數(shù)據(jù)準(zhǔn)備階段字段篩選結(jié)果選擇了9個(gè)字段作為模型輸入變量。CHAID節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)變量和預(yù)測(cè)變量設(shè)置,見(jiàn)下截圖。

    4.png


    (2)模型輸出結(jié)果

    運(yùn)行CHAID決策樹(shù)節(jié)點(diǎn)后,Modeler會(huì)根據(jù)樣本數(shù)據(jù)和輸入變量訓(xùn)練決策樹(shù)模型。雖然輸入了9個(gè)變量但是CHAID決策樹(shù)節(jié)點(diǎn)訓(xùn)練的模型最終生成決策樹(shù)所選擇的變量只有5個(gè),分別是寬帶在網(wǎng)時(shí)長(zhǎng)(PD_PROM_FEE)、固話(huà)通話(huà)時(shí)長(zhǎng)(VO_MOU_FIX_AVG)、固話(huà)ARPU(MB_FIX_ARPU_AVG)、寬帶在網(wǎng)時(shí)長(zhǎng)(PD_BB_TENURE)、寬帶流量(VO_BB_VOL)??梢钥闯?,這5個(gè)變量在都是具有重要業(yè)務(wù)含義的字段,基本符合建模目標(biāo)。

    5.png

    (3)決策樹(shù)輸出的初步結(jié)果

    下圖,是決策樹(shù)模型輸出的結(jié)果,樹(shù)狀結(jié)構(gòu)末端的每個(gè)“葉子”,代表一個(gè)細(xì)分用戶(hù)群體。這個(gè)決策樹(shù)結(jié)果共有17個(gè)“葉子”節(jié)點(diǎn)。

    6.png

    6、模型調(diào)優(yōu)

    e8升級(jí)e9模型中,決策樹(shù)模型驗(yàn)證調(diào)優(yōu)流程如下:

    初步結(jié)果判定:

    決策樹(shù)結(jié)果共有17個(gè)“葉子”節(jié)點(diǎn),用戶(hù)細(xì)分群體偏多,部分群體的規(guī)模小,占比不足5%,因此需要根據(jù)各葉子節(jié)點(diǎn)的特征,對(duì)決策樹(shù)的“葉子”進(jìn)行修剪合并。

    7.png


    比如,上圖中的節(jié)點(diǎn)1(套餐檔位<=68元的用戶(hù)),這個(gè)節(jié)點(diǎn)中的類(lèi)別“1”用戶(hù)占比僅0.56%,較全樣本的整體類(lèi)別“1”占比0.786%較低,說(shuō)明套餐檔位<=68元的用戶(hù)都是質(zhì)量較差的部分,加裝3G手機(jī)的可能性較低。從選取營(yíng)銷(xiāo)目標(biāo)用戶(hù)的角度,對(duì)這類(lèi)用戶(hù)不需要進(jìn)行深入分析,因此可以把該節(jié)點(diǎn)下面的三層節(jié)點(diǎn)都剪裁合并。

    模型的調(diào)整和優(yōu)化—子模型的建立

    如果認(rèn)為決策樹(shù)的某個(gè)子節(jié)點(diǎn)對(duì)應(yīng)的決策樹(shù)規(guī)則不符合業(yè)務(wù)邏輯,則可選擇該決策樹(shù)節(jié)點(diǎn)下的樣本再建立一個(gè)子模型,從新選擇新的變量。

    比如,對(duì)上述決策樹(shù)模型的結(jié)果,在套餐檔位為80~98元且寬帶在網(wǎng)時(shí)長(zhǎng)13個(gè)月以上的樣本分了四個(gè)子節(jié)點(diǎn),但是這四個(gè)節(jié)點(diǎn)的類(lèi)別“1”占比并沒(méi)有遞增或者遞減的規(guī)律,這在業(yè)務(wù)邏輯上很難解釋。因此可針對(duì)該條件(套餐檔位為80~98元且寬帶在網(wǎng)時(shí)長(zhǎng)13個(gè)月以上)的樣本數(shù)據(jù),再單獨(dú)建立一個(gè)決策樹(shù)模型。

    8.png


    決策樹(shù)子模型的建立可參見(jiàn)如下截圖。首先,利用Modeler的樣本選擇節(jié)點(diǎn),選擇套餐檔位為80~98元且寬帶在網(wǎng)時(shí)長(zhǎng)13個(gè)月以上的樣本數(shù)據(jù);然后,在決策樹(shù)模型的節(jié)點(diǎn)選擇輸入變量時(shí),不要選擇寬帶在網(wǎng)時(shí)長(zhǎng)的字段,即調(diào)整輸入變量;這樣Modeler會(huì)根據(jù)新選擇的樣本和輸入變量建立一個(gè)新的決策樹(shù)模型(見(jiàn)下圖)。這就建立了一個(gè)更具有業(yè)務(wù)解釋性的決策樹(shù)子模型。

    9.png


    7、模型結(jié)果解釋

    具體分群的數(shù)據(jù)結(jié)果如下:

    10.png


    根據(jù)三個(gè)主要判斷分群有效的原則,選擇提升倍數(shù)在1.3以上、客戶(hù)群規(guī)模占比5%以上的群體作為主要目標(biāo)客戶(hù),一共4個(gè)客戶(hù)群。上述的群劃分規(guī)則即建模變量。

    通過(guò)決策樹(shù)模型篩選出目標(biāo)用戶(hù)群后,需要進(jìn)一步根據(jù)不同細(xì)分目標(biāo)群體的消費(fèi)行為特征來(lái)推測(cè)客戶(hù)的主要業(yè)務(wù)需求。此時(shí)需要根據(jù)e8升e9的業(yè)務(wù)目標(biāo),選擇主要的字段來(lái)刻畫(huà)客戶(hù)特征。通常對(duì)客戶(hù)群各變量的均值來(lái)進(jìn)行描述,具體如下:

    11.png

    因此,具體客戶(hù)特征總結(jié)描述如下:

     

    12.png

    轉(zhuǎn)自:CDA數(shù)據(jù)分析師

    掃碼咨詢(xún)


    添加微信 立即咨詢(xún)

    電話(huà)咨詢(xún)

    客服熱線(xiàn)
    023-68661681

    TOP
    三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();