<menu id="w2i4a"></menu>

慧都大數(shù)據(jù)（一）

文檔首頁(yè)>>慧都大數(shù)據(jù)（一）>>數(shù)據(jù)科學(xué)平臺(tái)—體驗(yàn)強(qiáng)大的數(shù)據(jù)挖掘和預(yù)測(cè)分析能力

數(shù)據(jù)科學(xué)平臺(tái)—體驗(yàn)強(qiáng)大的數(shù)據(jù)挖掘和預(yù)測(cè)分析能力

數(shù)據(jù)科學(xué)平臺(tái)是慧都提供的數(shù)據(jù)挖掘、預(yù)測(cè)分析解決方案，平臺(tái)擁有簡(jiǎn)單的圖形界面和高級(jí)分析能力，利用強(qiáng)大的建模、評(píng)估和自動(dòng)化功能發(fā)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的趨勢(shì)，使得企業(yè)和分析師增加生產(chǎn)力，分析大數(shù)據(jù)以獲取預(yù)測(cè)性洞察，制定有效的業(yè)務(wù)戰(zhàn)略。數(shù)據(jù)科學(xué)平臺(tái)可按照企業(yè)實(shí)際需求完全定制。

主要算法（并不僅限于本案例）

1.Logistic回歸

Logistic回歸是一種廣義線性回歸（generalized linear model），因此與多重線性回歸分析有很多相同之處。

優(yōu)點(diǎn)：計(jì)算代價(jià)不高，易于理解和實(shí)現(xiàn)；

缺點(diǎn)：容易欠擬合，分類精度可能不高。

適用數(shù)據(jù)類型：數(shù)值型和標(biāo)稱型數(shù)據(jù)。

適用情景：LR的好處是輸出值自然地落在0到1之間，并且有概率意義，但處理不好特征之間相關(guān)的情況。雖然效果一般，卻勝在模型清晰，背后的概率學(xué)經(jīng)得住推敲。它擬合出來(lái)的參數(shù)就代表了每一個(gè)特征對(duì)結(jié)果的影響，是一個(gè)理解數(shù)據(jù)的好工具。

2.決策樹(shù)（decision tree）

決策樹(shù)是一個(gè)樹(shù)結(jié)構(gòu)（可以是二叉樹(shù)或非二叉樹(shù)）。其每個(gè)非葉節(jié)點(diǎn)表示一個(gè)特征屬性上的測(cè)試，每個(gè)分支代表這個(gè)特征屬性在某個(gè)值域上的輸出，而每個(gè)葉節(jié)點(diǎn)存放一個(gè)類別。

優(yōu)點(diǎn)：容易解釋，非參數(shù)型

缺點(diǎn)：趨向過(guò)擬合，可能或陷于局部最小值中，沒(méi)有在線學(xué)習(xí)。

適用情景：數(shù)據(jù)分析師希望更好的理解手上的數(shù)據(jù)的時(shí)候往往可以使用決策樹(shù)。同時(shí)它抗噪聲的能力較低，換句話說(shuō)，它很容易被“臟數(shù)據(jù)”影響的分類器。因?yàn)闆Q策樹(shù)最終在底層判斷是基于單個(gè)條件的，往往只要有一小部分“臟數(shù)據(jù)”就可以影響學(xué)習(xí)效果。受限于它的簡(jiǎn)單性，決策樹(shù)更大的用處是作為一些更有用的算法的基石。

3.隨機(jī)森林

隨機(jī)森林顧名思義，是用隨機(jī)的方式建立一個(gè)森林，森林里面有很多的決策樹(shù)組成，隨機(jī)森林的每一棵決策樹(shù)之間是沒(méi)有關(guān)聯(lián)的。

優(yōu)點(diǎn)：不會(huì)過(guò)擬合，能夠展現(xiàn)變量的權(quán)重，具有很好的抗干擾能力

缺點(diǎn)：可能由于疊加掩蓋真實(shí)的結(jié)果，對(duì)小數(shù)據(jù)或者低維數(shù)據(jù)分類效果差，學(xué)習(xí)效率慢。

適用情景：數(shù)據(jù)維度相對(duì)低（幾十維），同時(shí)對(duì)準(zhǔn)確性有較高要求時(shí)。因?yàn)椴恍枰芏鄥?shù)調(diào)整就可以達(dá)到不錯(cuò)的效果，不知道用什么方法的時(shí)候都可以先試一下隨機(jī)森林。

4.支持向量機(jī)（SVM）

支持向量機(jī)是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的，根據(jù)有限的樣本信息在模型的復(fù)雜性（即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度）和學(xué)習(xí)能力（即無(wú)錯(cuò)誤地識(shí)別任意樣本的能力）之間尋求最佳折中，以求獲得最好的推廣能力。

優(yōu)點(diǎn)：在非線性可分問(wèn)題上表現(xiàn)優(yōu)秀

缺點(diǎn)：非常難以訓(xùn)練，很難解釋

適用情景：SVM在很多數(shù)據(jù)集上都有優(yōu)秀的表現(xiàn)。相對(duì)來(lái)說(shuō)，SVM盡量保持與樣本間距離的性質(zhì)導(dǎo)致它抗攻擊的能力更強(qiáng)。和隨機(jī)森林一樣，這也是一個(gè)拿到數(shù)據(jù)就可以先嘗試一下的算法。

5.樸素貝葉斯（Naive Bayes）

在機(jī)器學(xué)習(xí)中，樸素貝葉斯分類器是一個(gè)基于貝葉斯定理的比較簡(jiǎn)單的概率分類器，其中樸素是指的對(duì)于模型中各個(gè)特征有強(qiáng)獨(dú)立性的假設(shè)，并未將 feature 間的相關(guān)性納入考慮中。

優(yōu)點(diǎn)：快速、易于訓(xùn)練、給出了它們所需的資源能帶來(lái)良好的表現(xiàn)

缺點(diǎn)：如果輸入變量是相關(guān)的，則會(huì)出現(xiàn)問(wèn)題

適用情景：需要一個(gè)比較容易解釋，而且不同維度之間相關(guān)性較小的模型的時(shí)候?？梢愿咝幚砀呔S數(shù)據(jù)，雖然結(jié)果可能不盡如人意。

6.KNN

kNN算法又稱為k近鄰分類(k-nearest neighbor classification)算法，是從訓(xùn)練集中找到和新數(shù)據(jù)最接近的k條記錄，然后根據(jù)他們的主要分類來(lái)決定新數(shù)據(jù)的類別。該算法涉及3個(gè)主要因素：訓(xùn)練集、距離或相似的衡量、k的大小。

優(yōu)點(diǎn)：簡(jiǎn)單，易于理解，易于實(shí)現(xiàn)，無(wú)需估計(jì)參數(shù)，無(wú)需訓(xùn)練

缺點(diǎn)：懶惰算法，對(duì)測(cè)試樣本分類時(shí)的計(jì)算量大，可解釋性較差。

適用情景：適合對(duì)稀有事件進(jìn)行分類（例如當(dāng)流失率很低時(shí)，比如低于0.5%，構(gòu)造流失預(yù)測(cè)模型）。特別適合于多分類問(wèn)題(multi-modal,對(duì)象具有多個(gè)類別標(biāo)簽)，例如根據(jù)基因特征來(lái)判斷其功能分類

7.線性回歸

線性回歸是最為人熟知的建模技術(shù)之一，通常也是預(yù)測(cè)模型的首選技術(shù)之一。在這種技術(shù)中，因變量是連續(xù)的，自變量可以是連續(xù)的也可以是離散的，回歸線的性質(zhì)是線性的。

優(yōu)點(diǎn)：適合多因素模型，簡(jiǎn)單，方便，計(jì)算結(jié)果唯一，可以準(zhǔn)確地計(jì)量各個(gè)因素之間的相關(guān)程度與回歸擬合程度的高低。

缺點(diǎn)：需要選擇合適的輸入變量，且輸入變量不能有相關(guān)性，且有較高的局限性（響應(yīng)變量和預(yù)測(cè)變量必須存在線性關(guān)系才能使用線性回歸）。

適用情景：如果輸入數(shù)據(jù)符合回歸模型的假設(shè)條件時(shí)，此種方法為最簡(jiǎn)單明了，預(yù)測(cè)效果最佳的方法。任何數(shù)據(jù)質(zhì)量不高或者數(shù)據(jù)模型選取不當(dāng)?shù)男袨?，都?huì)導(dǎo)致學(xué)習(xí)的結(jié)果異常。

汽車制造企業(yè)案例：設(shè)備運(yùn)維預(yù)測(cè)

案例客戶為國(guó)內(nèi)一家汽車制造企業(yè)，旗下暢銷車型銷量一直位列國(guó)內(nèi)同級(jí)別前三位，工廠各產(chǎn)線常年處于全負(fù)荷運(yùn)轉(zhuǎn)的狀態(tài)。此外，工廠擁有數(shù)量眾多的現(xiàn)代化生產(chǎn)設(shè)備，如沖壓設(shè)備、焊裝設(shè)備、涂裝設(shè)備、總裝設(shè)備等，企業(yè)設(shè)備管理科對(duì)各種設(shè)備維護(hù)檢修壓力巨大，設(shè)備配件的備件工作也始終是困擾客戶的難題。

經(jīng)過(guò)多次去客戶現(xiàn)場(chǎng)實(shí)地考察以及和設(shè)備管理人員的深入溝通，慧都為客戶量身定制了設(shè)備運(yùn)維預(yù)測(cè)分析平臺(tái)解決方案，方案依托于數(shù)據(jù)科學(xué)平臺(tái)打造，基于客戶的業(yè)務(wù)目標(biāo)，利用機(jī)器學(xué)習(xí)算法，結(jié)合業(yè)務(wù)對(duì)象模型對(duì)特征值（采集的設(shè)備各參數(shù)）進(jìn)行數(shù)據(jù)探究和特征項(xiàng)的預(yù)處理，通過(guò)不斷迭代的過(guò)程構(gòu)建設(shè)備維護(hù)及故障預(yù)測(cè)模型，再結(jié)合測(cè)試數(shù)據(jù)集對(duì)構(gòu)建的模型進(jìn)行評(píng)估。

預(yù)測(cè)平臺(tái)的誕生，使得設(shè)備的維護(hù)不再像此前只是遵循固定的維護(hù)時(shí)間表，而是用預(yù)測(cè)模型判斷設(shè)備實(shí)際的運(yùn)行狀況是否需要維護(hù)，有效降低維護(hù)的頻率，從而減少工廠設(shè)備維護(hù)的支出，設(shè)備配件備件人員也可按照預(yù)測(cè)情況進(jìn)行科學(xué)的備件。除此之外，平臺(tái)還可根據(jù)歷史數(shù)據(jù)對(duì)設(shè)備的突發(fā)故障進(jìn)行預(yù)測(cè)和預(yù)警，降低設(shè)備宕機(jī)的風(fēng)險(xiǎn)。

設(shè)備參數(shù)類型截圖：

經(jīng)過(guò)對(duì)工廠設(shè)備數(shù)據(jù)的分析及考證，設(shè)備故障率隨時(shí)間變化趨勢(shì)如下：

平臺(tái)截圖如下：

關(guān)于慧都大數(shù)據(jù)分析平臺(tái)

慧都大數(shù)據(jù)分析平臺(tái)「GetInsight®」升級(jí)發(fā)布，將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測(cè)、設(shè)備分析及預(yù)測(cè)等大數(shù)據(jù)模型的構(gòu)建，助力企業(yè)由傳統(tǒng)運(yùn)營(yíng)模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級(jí)，抓住數(shù)據(jù)經(jīng)濟(jì)的發(fā)展勢(shì)頭，提供管理效能，精準(zhǔn)布局未來(lái)。了解更多，請(qǐng)聯(lián)系在線客服。

慧都大數(shù)據(jù)專業(yè)團(tuán)隊(duì)為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺(tái)搭建，免費(fèi)業(yè)務(wù)咨詢，定制開(kāi)發(fā)等完整服務(wù)，快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。

歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服，我們有專業(yè)的大數(shù)據(jù)團(tuán)隊(duì)，為您提供免費(fèi)大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢！

慧都科技版權(quán)所有 Copyright 2003-2024 渝ICP備12000582號(hào)-13 渝公網(wǎng)安備 50010702500608號(hào) 本站由提供CDN加速/云存儲(chǔ)服務(wù)

掃碼咨詢

添加微信立即咨詢

電話咨詢

客服熱線
023-68661681

TOP

三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();