IBM SPSS Modeler隨機森林算法介紹
在之前的文章《Bagging 或Boosting讓你的模型更加優(yōu)化》中,我們介紹了可以通過Bagging或Boosting技術(shù),使得模型更加穩(wěn)定和準(zhǔn)確率更高,那么今天要介紹的隨機森林算法,本身的算法邏輯已經(jīng)使用了Bagging技術(shù),來構(gòu)建多棵樹,最終實現(xiàn)構(gòu)建“森林”的目的。
首先我們先來了解下這個算法,記住幾個要點就可以:
1.在IBM SPSS Modeler中,隨機森林構(gòu)建的每棵樹,使用的算法是C&RT,關(guān)于C&RT算法的介紹可以參考之前的文章《IBM SPSS Modeler算法系列------C&R Tree算法介紹》;
2.使用Bagging,每構(gòu)建一棵樹,都是通過隨機選擇樣本數(shù)據(jù)來構(gòu)建(有放回的);
3.除了使用Bagging技術(shù),對使用的輸入指標(biāo),也隨機選擇。比如說一共有20個輸入指標(biāo),每選完一次樣本數(shù)據(jù)后,會再隨機選擇其中的10個指標(biāo)來構(gòu)建樹。
4.最終的預(yù)測結(jié)果,會綜合前面構(gòu)建的決策樹通過投票的方式得到最終的預(yù)測結(jié)果,如果是數(shù)值型的預(yù)測,則是取平均值做為最終的預(yù)測結(jié)果。
5.在IBM SPSS Modeler中,隨機森林算法不僅支持傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,比如DB2、Oracle、SQL Server等通過ODBC可連接的數(shù)據(jù)庫,也支持Haoop分布式架構(gòu)的數(shù)據(jù),它可以生成MapReduce或者Spark,放到Hadoop平臺上去執(zhí)行,從而提升整個計算效率。
那么接下來,我們來看下在IBM SPSS Modeler的隨機森林算法實現(xiàn)客戶的流失預(yù)測,能給我們呈現(xiàn)出什么樣的結(jié)果。
首先,我們創(chuàng)建數(shù)據(jù)流文件 ,如下圖:
Step1:連接數(shù)據(jù)源Excel文件,文件內(nèi)容如下:
Step2:類型節(jié)點設(shè)置影響因素及目標(biāo),如下圖:
Step3:選擇隨機森林算法,并使用默認參數(shù)設(shè)置生成模型。
該面板主要涉及到模型構(gòu)建和樹增長兩方面的參數(shù),包括以下內(nèi)容:
- 構(gòu)建的模型數(shù)量:即構(gòu)建多少棵樹;
- 樣本大小:是每次隨機選擇的樣本占原來的百分比,如果是1的話,代表每次選擇的樣本數(shù)據(jù)與原來的數(shù)據(jù)量一樣,如果是0.9,則選擇原來的數(shù)據(jù)量的90%作為的樣本數(shù)據(jù),在處理大數(shù)據(jù)集時,減少樣本大小可以提高性能。
- 是否需要處理不平衡數(shù)據(jù):如果模型的目標(biāo)是標(biāo)志結(jié)果(例如,流失或不流失) 比率很小,那么數(shù)據(jù)是不平衡數(shù)據(jù)并且模型所執(zhí)行的 Bootstrap 采樣可能會影響模型精確性。要提高準(zhǔn)確性,請選中此復(fù)選框;模型隨后會捕獲所需結(jié)果中的更大比例部分并生成更好的模型。
- 使用加權(quán)采樣選擇變量: 缺省情況下,每個葉節(jié)點的變量是使用同一概率隨機選擇的。要將加權(quán)用于變量并改進選擇過程,請選中此復(fù)選框。
- 最大節(jié)點數(shù):指定允許各個樹中存在的最大葉節(jié)點數(shù)。如果下一次分割時將超過此數(shù)字,那么樹增長將在進行拆分之前停止。
- 最大樹深度:指定根節(jié)點下方的最大葉節(jié)點級別數(shù);即,樣本進行遞歸拆分的次數(shù)。
- 最小子節(jié)點大小:指定拆分父節(jié)點之后必須包含在子節(jié)點中的最小記錄數(shù)。如果子節(jié)點包含的記錄數(shù)少于您輸入的數(shù)目,那么不會拆分父節(jié)點。
- 指定要用于拆分的最小預(yù)測變量數(shù):如果是構(gòu)建拆分模型,請設(shè)置要用于構(gòu)建每個拆分的最小預(yù)測變量數(shù)。這防止拆分創(chuàng)建過小的子組。
- 當(dāng)準(zhǔn)確性無法再提高時停止構(gòu)建:要改進模型構(gòu)建時間,請選擇此選項,以在結(jié)果的準(zhǔn)確性無法提高時停止模型構(gòu)建過程。
在高級面板中,考慮到對樣本數(shù)據(jù)選擇的質(zhì)量要求,該算法也涵蓋了數(shù)據(jù)準(zhǔn)備的內(nèi)容。
數(shù)據(jù)準(zhǔn)備可設(shè)置的參數(shù)包括:
- 缺失值最大百分比指定允許任何輸入中存在的缺失值的最大百分比:如果該百分比超過了此數(shù)字,那么將從模型構(gòu)建中排除此輸出。
- 排除單個類別多數(shù)超過以下值的字段指定單個類別可以在某個字段中具有的最大記錄百分比:如果任何類別值表示的記錄百分比高于指定值,那么將從模型構(gòu)建中排除整個字段。
- 最大字段類別數(shù):指定字段中可以包含的最大類別數(shù)。如果類別數(shù)超過了此數(shù)字,那么將從模型構(gòu)建中排除此字段。
- 最小字段變化:如果連續(xù)字段的變異系數(shù)小于您在此處指定的值,那么將從模型構(gòu)建中排除此字段。
- 分箱數(shù):請指定要用于連續(xù)輸入的均等頻率分箱數(shù)??捎眠x項包括:2、4、5、10、20、25、50 或 100。
Step4:生成客戶流失分析模型。
在生成的模型結(jié)果里面,會包括對輸入指標(biāo)的重要性排序,如下圖:
模型結(jié)果中,也會包含在生成的這些樹中,最頻繁出現(xiàn)的規(guī)則集,包括決策規(guī)則內(nèi)容、類別、準(zhǔn)確性等內(nèi)容。這些規(guī)則集可以協(xié)助我們做一些業(yè)務(wù)解讀。
Step5:可以通過表格查看預(yù)測結(jié)果。
Step6:通過分析節(jié)點查看模型準(zhǔn)確率。
慧都控件網(wǎng)超級促銷月,全場6折起,豪禮搶不停>>>
截止時間:2016年11月30日
更多大數(shù)據(jù)與分析相關(guān)行業(yè)資訊、解決方案、案例、教程等請點擊查看>>>
詳情請咨詢在線客服!
客服熱線:023-66090381