數(shù)據(jù)科學(xué)平臺(tái)—體驗(yàn)強(qiáng)大的數(shù)據(jù)挖掘和預(yù)測(cè)分析能力
數(shù)據(jù)科學(xué)平臺(tái)是慧都提供的數(shù)據(jù)挖掘、預(yù)測(cè)分析解決方案,平臺(tái)擁有簡(jiǎn)單的圖形界面和高級(jí)分析能力,利用強(qiáng)大的建模、評(píng)估和自動(dòng)化功能發(fā)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的趨勢(shì),使得企業(yè)和分析師增加生產(chǎn)力,分析大數(shù)據(jù)以獲取預(yù)測(cè)性洞察,制定有效的業(yè)務(wù)戰(zhàn)略。數(shù)據(jù)科學(xué)平臺(tái)可按照企業(yè)實(shí)際需求完全定制。
主要算法(并不僅限于本案例)
1.Logistic回歸
Logistic回歸是一種廣義線性回歸(generalized linear model),因此與多重線性回歸分析有很多相同之處。
優(yōu)點(diǎn):計(jì)算代價(jià)不高,易于理解和實(shí)現(xiàn);
缺點(diǎn):容易欠擬合,分類精度可能不高。
適用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型數(shù)據(jù)。
適用情景:LR的好處是輸出值自然地落在0到1之間,并且有概率意義,但處理不好特征之間相關(guān)的情況。雖然效果一般,卻勝在模型清晰,背后的概率學(xué)經(jīng)得住推敲。它擬合出來(lái)的參數(shù)就代表了每一個(gè)特征對(duì)結(jié)果的影響,是一個(gè)理解數(shù)據(jù)的好工具。
2.決策樹(shù)(decision tree)
決策樹(shù)是一個(gè)樹(shù)結(jié)構(gòu)(可以是二叉樹(shù)或非二叉樹(shù))。其每個(gè)非葉節(jié)點(diǎn)表示一個(gè)特征屬性上的測(cè)試,每個(gè)分支代表這個(gè)特征屬性在某個(gè)值域上的輸出,而每個(gè)葉節(jié)點(diǎn)存放一個(gè)類別。
優(yōu)點(diǎn):容易解釋,非參數(shù)型
缺點(diǎn):趨向過(guò)擬合,可能或陷于局部最小值中,沒(méi)有在線學(xué)習(xí)。
適用情景:數(shù)據(jù)分析師希望更好的理解手上的數(shù)據(jù)的時(shí)候往往可以使用決策樹(shù)。同時(shí)它抗噪聲的能力較低,換句話說(shuō),它很容易被“臟數(shù)據(jù)”影響的分類器。因?yàn)闆Q策樹(shù)最終在底層判斷是基于單個(gè)條件的,往往只要有一小部分“臟數(shù)據(jù)”就可以影響學(xué)習(xí)效果。受限于它的簡(jiǎn)單性,決策樹(shù)更大的用處是作為一些更有用的算法的基石。
3.隨機(jī)森林
隨機(jī)森林顧名思義,是用隨機(jī)的方式建立一個(gè)森林,森林里面有很多的決策樹(shù)組成,隨機(jī)森林的每一棵決策樹(shù)之間是沒(méi)有關(guān)聯(lián)的。
優(yōu)點(diǎn):不會(huì)過(guò)擬合,能夠展現(xiàn)變量的權(quán)重,具有很好的抗干擾能力
缺點(diǎn):可能由于疊加掩蓋真實(shí)的結(jié)果,對(duì)小數(shù)據(jù)或者低維數(shù)據(jù)分類效果差,學(xué)習(xí)效率慢。
適用情景:數(shù)據(jù)維度相對(duì)低(幾十維),同時(shí)對(duì)準(zhǔn)確性有較高要求時(shí)。因?yàn)椴恍枰芏鄥?shù)調(diào)整就可以達(dá)到不錯(cuò)的效果,不知道用什么方法的時(shí)候都可以先試一下隨機(jī)森林。
4.支持向量機(jī)(SVM)
支持向量機(jī)是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無(wú)錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳折中,以求獲得最好的推廣能力 。
優(yōu)點(diǎn):在非線性可分問(wèn)題上表現(xiàn)優(yōu)秀
缺點(diǎn):非常難以訓(xùn)練,很難解釋
適用情景:SVM在很多數(shù)據(jù)集上都有優(yōu)秀的表現(xiàn)。相對(duì)來(lái)說(shuō),SVM盡量保持與樣本間距離的性質(zhì)導(dǎo)致它抗攻擊的能力更強(qiáng)。和隨機(jī)森林一樣,這也是一個(gè)拿到數(shù)據(jù)就可以先嘗試一下的算法。
5.樸素貝葉斯(Naive Bayes)
在機(jī)器學(xué)習(xí)中,樸素貝葉斯分類器是一個(gè)基于貝葉斯定理的比較簡(jiǎn)單的概率分類器,其中樸素是指的對(duì)于模型中各個(gè)特征有強(qiáng)獨(dú)立性的假設(shè),并未將 feature 間的相關(guān)性納入考慮中。
優(yōu)點(diǎn):快速、易于訓(xùn)練、給出了它們所需的資源能帶來(lái)良好的表現(xiàn)
缺點(diǎn):如果輸入變量是相關(guān)的,則會(huì)出現(xiàn)問(wèn)題
適用情景:需要一個(gè)比較容易解釋,而且不同維度之間相關(guān)性較小的模型的時(shí)候??梢愿咝幚砀呔S數(shù)據(jù),雖然結(jié)果可能不盡如人意。
6.KNN
kNN算法又稱為k近鄰分類(k-nearest neighbor classification)算法,是從訓(xùn)練集中找到和新數(shù)據(jù)最接近的k條記錄,然后根據(jù)他們的主要分類來(lái)決定新數(shù)據(jù)的類別。該算法涉及3個(gè)主要因素:訓(xùn)練集、距離或相似的衡量、k的大小。
優(yōu)點(diǎn):簡(jiǎn)單,易于理解,易于實(shí)現(xiàn),無(wú)需估計(jì)參數(shù),無(wú)需訓(xùn)練
缺點(diǎn):懶惰算法,對(duì)測(cè)試樣本分類時(shí)的計(jì)算量大,可解釋性較差。
適用情景:適合對(duì)稀有事件進(jìn)行分類(例如當(dāng)流失率很低時(shí),比如低于0.5%,構(gòu)造流失預(yù)測(cè)模型)。特別適合于多分類問(wèn)題(multi-modal,對(duì)象具有多個(gè)類別標(biāo)簽),例如根據(jù)基因特征來(lái)判斷其功能分類
7.線性回歸
線性回歸是最為人熟知的建模技術(shù)之一,通常也是預(yù)測(cè)模型的首選技術(shù)之一。在這種技術(shù)中,因變量是連續(xù)的,自變量可以是連續(xù)的也可以是離散的,回歸線的性質(zhì)是線性的。
優(yōu)點(diǎn):適合多因素模型,簡(jiǎn)單,方便,計(jì)算結(jié)果唯一,可以準(zhǔn)確地計(jì)量各個(gè)因素之間的相關(guān)程度與回歸擬合程度的高低。
缺點(diǎn):需要選擇合適的輸入變量,且輸入變量不能有相關(guān)性,且有較高的局限性(響應(yīng)變量和預(yù)測(cè)變量必須存在線性關(guān)系才能使用線性回歸)。
適用情景:如果輸入數(shù)據(jù)符合回歸模型的假設(shè)條件時(shí),此種方法為最簡(jiǎn)單明了,預(yù)測(cè)效果最佳的方法。任何數(shù)據(jù)質(zhì)量不高或者數(shù)據(jù)模型選取不當(dāng)?shù)男袨?,都?huì)導(dǎo)致學(xué)習(xí)的結(jié)果異常。
汽車制造企業(yè)案例:設(shè)備運(yùn)維預(yù)測(cè)
案例客戶為國(guó)內(nèi)一家汽車制造企業(yè),旗下暢銷車型銷量一直位列國(guó)內(nèi)同級(jí)別前三位,工廠各產(chǎn)線常年處于全負(fù)荷運(yùn)轉(zhuǎn)的狀態(tài)。此外,工廠擁有數(shù)量眾多的現(xiàn)代化生產(chǎn)設(shè)備,如沖壓設(shè)備、焊裝設(shè)備、涂裝設(shè)備、總裝設(shè)備等,企業(yè)設(shè)備管理科對(duì)各種設(shè)備維護(hù)檢修壓力巨大,設(shè)備配件的備件工作也始終是困擾客戶的難題。
經(jīng)過(guò)多次去客戶現(xiàn)場(chǎng)實(shí)地考察以及和設(shè)備管理人員的深入溝通,慧都為客戶量身定制了設(shè)備運(yùn)維預(yù)測(cè)分析平臺(tái)解決方案,方案依托于數(shù)據(jù)科學(xué)平臺(tái)打造,基于客戶的業(yè)務(wù)目標(biāo),利用機(jī)器學(xué)習(xí)算法,結(jié)合業(yè)務(wù)對(duì)象模型對(duì)特征值(采集的設(shè)備各參數(shù))進(jìn)行數(shù)據(jù)探究和特征項(xiàng)的預(yù)處理,通過(guò)不斷迭代的過(guò)程構(gòu)建設(shè)備維護(hù)及故障預(yù)測(cè)模型,再結(jié)合測(cè)試數(shù)據(jù)集對(duì)構(gòu)建的模型進(jìn)行評(píng)估。
預(yù)測(cè)平臺(tái)的誕生,使得設(shè)備的維護(hù)不再像此前只是遵循固定的維護(hù)時(shí)間表,而是用預(yù)測(cè)模型判斷設(shè)備實(shí)際的運(yùn)行狀況是否需要維護(hù),有效降低維護(hù)的頻率,從而減少工廠設(shè)備維護(hù)的支出,設(shè)備配件備件人員也可按照預(yù)測(cè)情況進(jìn)行科學(xué)的備件。除此之外,平臺(tái)還可根據(jù)歷史數(shù)據(jù)對(duì)設(shè)備的突發(fā)故障進(jìn)行預(yù)測(cè)和預(yù)警,降低設(shè)備宕機(jī)的風(fēng)險(xiǎn)。
設(shè)備參數(shù)類型截圖:
經(jīng)過(guò)對(duì)工廠設(shè)備數(shù)據(jù)的分析及考證,設(shè)備故障率隨時(shí)間變化趨勢(shì)如下:
平臺(tái)截圖如下:
關(guān)于慧都大數(shù)據(jù)分析平臺(tái)
慧都大數(shù)據(jù)分析平臺(tái)「GetInsight®」升級(jí)發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測(cè)、設(shè)備分析及預(yù)測(cè)等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運(yùn)營(yíng)模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級(jí),抓住數(shù)據(jù)經(jīng)濟(jì)的發(fā)展勢(shì)頭,提供管理效能,精準(zhǔn)布局未來(lái)。了解更多,請(qǐng)聯(lián)系在線客服。
慧都大數(shù)據(jù)專業(yè)團(tuán)隊(duì)為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺(tái)搭建,免費(fèi)業(yè)務(wù)咨詢,定制開(kāi)發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業(yè)的大數(shù)據(jù)團(tuán)隊(duì),為您提供免費(fèi)大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢!