文檔首頁>>大數(shù)據(jù)干貨（二）>>【干貨】一文讀懂工業(yè)大數(shù)據(jù)的算法與模型基本知識(shí)與應(yīng)用

【干貨】一文讀懂工業(yè)大數(shù)據(jù)的算法與模型基本知識(shí)與應(yīng)用

隨著信息化和工業(yè)化的深度融合，在目前的工業(yè)企業(yè)產(chǎn)業(yè)鏈中，二維碼、RFID、工業(yè)傳感器、自動(dòng)控制系統(tǒng)、工業(yè)互聯(lián)網(wǎng)、ERP、CAD/CAM/CAE等得到了越來越廣泛的應(yīng)用，大量在工業(yè)生產(chǎn)活動(dòng)中產(chǎn)生的與經(jīng)營(yíng)和設(shè)備相關(guān)的數(shù)據(jù)被實(shí)時(shí)收集并存儲(chǔ)，特別是互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)的應(yīng)用使得大家對(duì)這些數(shù)據(jù)的關(guān)注度也越來越高，對(duì)這些工業(yè)大數(shù)據(jù)的深入分析和利用有助于改進(jìn)生產(chǎn)工藝、提高生產(chǎn)效率、降低生產(chǎn)成本、提升產(chǎn)品附加價(jià)值。

而算法和模型則是大數(shù)據(jù)分析體系中關(guān)鍵的核心問題，因此，本次慧都大數(shù)據(jù)對(duì)相關(guān)的基本概念和算法計(jì)算做一個(gè)系統(tǒng)的梳理和介紹。

算法的基本概念

算法/演算法/算則法（algorithm）為一個(gè)計(jì)算的具體步驟，常用于計(jì)算、數(shù)據(jù)處理和自動(dòng)推理。英文名稱“algorithm”歐幾里得算法被人們認(rèn)為是史上第一個(gè)算法。邱奇-圖靈論題認(rèn)為“任何在算法上可計(jì)算的問題同樣可由圖靈機(jī)計(jì)算”并提出一種假想的計(jì)算機(jī)的抽象模型，這個(gè)模型被稱為圖靈機(jī)。圖靈機(jī)的出現(xiàn)解決了算法定義的難題，我們可以認(rèn)為算法就是一系列為了解決問題和實(shí)現(xiàn)一定目標(biāo)而設(shè)定的相關(guān)規(guī)則。

算法和模型是大數(shù)據(jù)分析系統(tǒng)中的兩個(gè)問題，很多時(shí)候人們無法將這兩個(gè)概念準(zhǔn)確的區(qū)分開來，或者在某些場(chǎng)景下經(jīng)常把算法和模型當(dāng)做是同一個(gè)概念。實(shí)際上，算法和模型是有緊密聯(lián)系的。

數(shù)據(jù)分析的算法是一般規(guī)則，所采用的方法是具有通用性和一般性的，如果需要用算法來解決實(shí)際的問題，達(dá)到商業(yè)的價(jià)值，就需要將算法和實(shí)際的應(yīng)用場(chǎng)景結(jié)合起來，將算法得到的結(jié)果賦予相應(yīng)的含義，提供決策支持或分析結(jié)果，將算法和業(yè)務(wù)場(chǎng)景結(jié)合起來，并對(duì)輸入和輸出的結(jié)果進(jìn)行業(yè)務(wù)上的處理，就是大數(shù)據(jù)分析的建模過程，得到的解決方案就是大數(shù)據(jù)分析模型。

算法的基本特征

確定性：算法中每個(gè)步驟都是明確的，對(duì)結(jié)果的預(yù)期也是確定的，例如在預(yù)測(cè)中的指數(shù)平滑算法中，同樣的輸入數(shù)據(jù)和平滑系數(shù)，得到的結(jié)果是確定的，并且無論算法運(yùn)行多少次，得到的結(jié)果都是相同的。

有窮性：算法必須是有限個(gè)步驟組成的過程，步驟的數(shù)量可能是幾個(gè)，也可能是幾百個(gè)，但是必須有確定的結(jié)束條件。在類似遺傳算法中，迭代次數(shù)或者結(jié)果迭代的條件也都是確定的，這種特征保證了算法的效率，同時(shí)也是在運(yùn)行成本和運(yùn)算結(jié)果滿意度之間的平衡方式，特別對(duì)于一些管理系統(tǒng)中的優(yōu)化算法，是不可能得到最優(yōu)解的，只能在可接受的運(yùn)行效率下得到相對(duì)滿意的解。

可行性：算法中的每一個(gè)步驟都是可行的，只要有一個(gè)不可行，算法就是失敗的，或者不能被稱為算法。

輸入和輸出：算法解決特定的問題，問題來源是算法的輸入，期望結(jié)果是算法的輸出。

目前大數(shù)據(jù)分析的算法主要還是數(shù)據(jù)挖掘算法，它大量采用了統(tǒng)計(jì)學(xué)的思想，原理方法和工具，比如聚類分析、相關(guān)分析、主成分分析、回歸分析和序列分析等，但是相比于傳統(tǒng)的統(tǒng)計(jì)學(xué)方法，工業(yè)大數(shù)據(jù)的數(shù)據(jù)挖掘算法有著以下幾個(gè)方面的區(qū)別：

工業(yè)大數(shù)據(jù)的數(shù)據(jù)源樣品量巨大，相比于統(tǒng)計(jì)學(xué)中樣本數(shù)量大于30就稱之為大樣本的計(jì)量，工業(yè)大數(shù)據(jù)的樣本量往往上百萬級(jí)別的。
工業(yè)大數(shù)據(jù)的數(shù)據(jù)來源和質(zhì)量與統(tǒng)計(jì)學(xué)不同。工業(yè)大數(shù)據(jù)的數(shù)據(jù)來源是實(shí)際的工業(yè)過程和物聯(lián)網(wǎng)，對(duì)處理和分析的實(shí)時(shí)性要求很高，這是傳統(tǒng)統(tǒng)計(jì)學(xué)的分析方法中很難做到的。
工業(yè)大數(shù)據(jù)分析面對(duì)的數(shù)據(jù)不僅包括傳統(tǒng)統(tǒng)計(jì)學(xué)中的結(jié)構(gòu)化數(shù)據(jù)，也包括非結(jié)構(gòu)化和異型數(shù)據(jù)。
傳統(tǒng)的統(tǒng)計(jì)學(xué)方法在對(duì)大規(guī)模數(shù)據(jù)進(jìn)行處理時(shí)的效率較低，因此神經(jīng)網(wǎng)絡(luò)和遺傳算法等機(jī)器學(xué)習(xí)和人工智能算法是工業(yè)大數(shù)據(jù)經(jīng)常采用的方法。

常見算法及分類介紹

01.預(yù)測(cè)算法

預(yù)測(cè)算法，顧名思義就是對(duì)某個(gè)問題做出預(yù)測(cè)，通常說來預(yù)測(cè)的目標(biāo)是數(shù)字形式的連續(xù)值，例如房?jī)r(jià)、GDP等等。根據(jù)預(yù)測(cè)方法的不同，又可以分為外生預(yù)測(cè)和內(nèi)生預(yù)測(cè)。

例如預(yù)測(cè)產(chǎn)品的需求量，外生預(yù)測(cè)是根據(jù)會(huì)影響物流需求量的外部因素，例如地理位置、經(jīng)濟(jì)發(fā)展水平等對(duì)某個(gè)區(qū)域的物流需求量進(jìn)行估計(jì)，典型的例子是線性回歸，將希望預(yù)測(cè)的物流需求量作為因變量，位置和經(jīng)濟(jì)發(fā)展水平作為自變量，用一個(gè)算式將二者之間的關(guān)系表示出來，物流需求量=a*位置+b*發(fā)展水平，求a和b的過程就是線性回歸算法的過程。很多監(jiān)督類算法都具有數(shù)值預(yù)測(cè)能力，例如：神經(jīng)網(wǎng)絡(luò)、決策樹、貝葉斯網(wǎng)絡(luò)、KNN、SVM等。

而內(nèi)生預(yù)測(cè)，主要是指時(shí)間序列分析，則是通過物流需求量的歷史變化估計(jì)其未來趨勢(shì)，通過分解歷史變化中的總體趨勢(shì)、周期性、季節(jié)性、波動(dòng)性等要素，預(yù)測(cè)未來值。例如ARIMA，移動(dòng)平均、指數(shù)平滑等。

還有一類是主觀預(yù)測(cè)法，例如德爾菲法，層次分析法AHP等，這在大數(shù)據(jù)分析中作為專家知識(shí)對(duì)其他預(yù)測(cè)方法就行修正，或者作為平滑系統(tǒng)、移動(dòng)平均系數(shù)的先驗(yàn)條件。

02.分類算法

分類算法，也被稱作有監(jiān)督算法，主要是針對(duì)離散屬性值的判斷和預(yù)測(cè)，如故障檢測(cè)和診斷、客戶細(xì)分在某些方面與預(yù)測(cè)算法類似，都是對(duì)一個(gè)預(yù)先存在的目標(biāo)變量進(jìn)行估計(jì)。但是，預(yù)測(cè)算法的目標(biāo)通常是數(shù)字形態(tài)的值，而分類算法則是一個(gè)類別。一個(gè)典型的例子是設(shè)備的故障診斷。這時(shí)候，目標(biāo)是設(shè)備“是/否”正常運(yùn)行或者，也就是說是一個(gè)類別。

我們可以利用設(shè)備已有的運(yùn)行參數(shù)和故障狀態(tài)建立一個(gè)分類模型，這部分已有的用戶中包含那些正常運(yùn)行和不同故障等級(jí)的運(yùn)行參數(shù)，然后就可以用這個(gè)分類模型判斷一個(gè)新的設(shè)備運(yùn)行狀態(tài)參數(shù)是否正常運(yùn)行。用來建立模型的那部分?jǐn)?shù)據(jù)叫做“訓(xùn)練數(shù)據(jù)”。

分類算法是工業(yè)大數(shù)據(jù)分析中應(yīng)用中常的一類算法，它包含經(jīng)典的決策樹算法貝葉斯分類算法、邏輯回歸、判別式，也包含支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)這些較新的方法。分類算法的模型在實(shí)際應(yīng)用中經(jīng)常表現(xiàn)為一個(gè)“黑箱”，只要能得到滿意的分類結(jié)果，模型內(nèi)部的細(xì)節(jié)可能是不可見的。

03.細(xì)分算法

與監(jiān)督算法相對(duì)應(yīng)的是也被稱為無監(jiān)督算法的一類細(xì)分算法，它和分類算法相類似的地方是，它們的目的都是把數(shù)據(jù)分成幾個(gè)不同的類別。但是，分類算法的類別是已經(jīng)存在的，就像前面提到的設(shè)備故障診斷，我們能夠?qū)υO(shè)備已有的運(yùn)行狀態(tài)參數(shù)進(jìn)行故障等級(jí)的劃分。但細(xì)分算法不同，它沒有這樣一個(gè)預(yù)先分好的類別，而是根據(jù)數(shù)據(jù)本身的分布特點(diǎn)，“自然而然”地劃分出類。

細(xì)分算法常見的應(yīng)用是客戶細(xì)分，購(gòu)物中心根據(jù)會(huì)員的消費(fèi)金額、消費(fèi)頻次和最近一次消費(fèi)時(shí)間將會(huì)員劃分為不同價(jià)值的群體。在實(shí)施細(xì)分算法之前，我們并不知道這些會(huì)員可能被分為幾類，每個(gè)類別是什么，只有建立細(xì)分模型之后，才能根據(jù)劃分出類別在這三個(gè)方面表現(xiàn)出的特點(diǎn)歸納出每一類具體是什么。

在工業(yè)生產(chǎn)中，細(xì)分算法往往應(yīng)用于工藝優(yōu)化，比如對(duì)車間生產(chǎn)歷史數(shù)據(jù)的細(xì)分算法，得到工藝參數(shù)與產(chǎn)品質(zhì)量、能耗水平的影響關(guān)系，從而提升制造水平。對(duì)生產(chǎn)過程和設(shè)備使用過程中異常點(diǎn)的細(xì)分，對(duì)設(shè)備潛在性能提升提供依據(jù)。

細(xì)分算法中主要的就是聚類，主要有基于距離的層次聚類和k-means聚類，基于密度的DBSCAN聚類，以及模糊聚類和核聚類等方法。

04.關(guān)聯(lián)規(guī)則算法

關(guān)聯(lián)規(guī)則的主要目標(biāo)在于發(fā)現(xiàn)數(shù)據(jù)中所存在的關(guān)系，這種關(guān)系會(huì)以規(guī)則的形式表現(xiàn)出來。例如購(gòu)物籃分析就是典型的關(guān)聯(lián)規(guī)則算法的應(yīng)用場(chǎng)景。它的目標(biāo)是發(fā)現(xiàn)消費(fèi)者在超市購(gòu)買商品時(shí)哪些商品同時(shí)購(gòu)買的機(jī)會(huì)比較高，或者購(gòu)買某一項(xiàng)商品時(shí)，同時(shí)購(gòu)買哪個(gè)商品的幾率比較高。通過這樣的分析，我們就可以發(fā)現(xiàn)購(gòu)買商品之間的關(guān)聯(lián)關(guān)系，從而實(shí)現(xiàn)優(yōu)化貨架擺放、提升銷售額的目的。

關(guān)聯(lián)規(guī)則算法可以作為最終的算法目標(biāo)，也可以作為其他算法的手段，比如通過關(guān)聯(lián)規(guī)則算法找出某些因素之間的相關(guān)性，作為數(shù)據(jù)降維的手段，或者作為回歸分析的依據(jù)。

關(guān)聯(lián)規(guī)則經(jīng)典的算法是Apriori算法，但是由于它本身具有適應(yīng)嗎窄、會(huì)產(chǎn)生大量中間集的缺陷，許多專家學(xué)者提出了一些改進(jìn)的算法提供Apriori算法的效率，包括基于抽樣技術(shù)、基于動(dòng)態(tài)的項(xiàng)目集計(jì)數(shù)、基于劃分的方法、基于hash計(jì)數(shù)以及事務(wù)壓縮等方法。除此之外，有出現(xiàn)了其他的算法，其中頻繁樹（FP-Tree）算法的應(yīng)用也十分廣泛。

05.數(shù)據(jù)融合算法

數(shù)據(jù)融合算法主要是把數(shù)據(jù)融合的思想引入到工業(yè)大數(shù)據(jù)的預(yù)處理過程中，加入數(shù)據(jù)的智能化合成，產(chǎn)生比單一信息源更準(zhǔn)確、更完全、更可靠的數(shù)據(jù)進(jìn)行估計(jì)和判斷，解決工業(yè)大數(shù)據(jù)的數(shù)據(jù)源中存在的重復(fù)、冗余、錯(cuò)誤和噪聲。比較常見的一個(gè)場(chǎng)景是對(duì)傳感器測(cè)量數(shù)據(jù)誤差的處理，假設(shè)在工業(yè)設(shè)備中，有額定的理論運(yùn)行參數(shù)，同時(shí)傳感器實(shí)時(shí)監(jiān)測(cè)到一套運(yùn)行參數(shù)，兩種途徑得到的數(shù)據(jù)均有誤差，則可以用數(shù)據(jù)融合算法得到更為滿意更為可靠的數(shù)據(jù)源。

常用的數(shù)據(jù)融合算法有貝葉斯估值算法、遞歸加權(quán)最小平方法、卡爾曼濾波、小波變換的分布式濾波算法、馬爾科夫隨機(jī)場(chǎng)、最大似然法、聚集分析、表決邏輯、信息熵等算法。

慧都大數(shù)據(jù)分析平臺(tái)為您提供從數(shù)據(jù)對(duì)接，數(shù)據(jù)準(zhǔn)備，數(shù)據(jù)建模，可視化分析的端到端解決方案，聚焦制造業(yè)，為制造企業(yè)提供端到端的工業(yè)大數(shù)據(jù)分析平臺(tái)，洞察數(shù)據(jù)的應(yīng)用價(jià)值，讓決策更智能。

歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服，我們將幫您轉(zhuǎn)接大數(shù)據(jù)專業(yè)團(tuán)隊(duì)，為您免費(fèi)定制分析方案！