【干貨】一文讀懂工業(yè)大數(shù)據(jù)的算法與模型基本知識(shí)與應(yīng)用
隨著信息化和工業(yè)化的深度融合,在目前的工業(yè)企業(yè)產(chǎn)業(yè)鏈中,二維碼、RFID、工業(yè)傳感器、自動(dòng)控制系統(tǒng)、工業(yè)互聯(lián)網(wǎng)、ERP、CAD/CAM/CAE等得到了越來越廣泛的應(yīng)用,大量在工業(yè)生產(chǎn)活動(dòng)中產(chǎn)生的與經(jīng)營(yíng)和設(shè)備相關(guān)的數(shù)據(jù)被實(shí)時(shí)收集并存儲(chǔ),特別是互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)的應(yīng)用使得大家對(duì)這些數(shù)據(jù)的關(guān)注度也越來越高,對(duì)這些工業(yè)大數(shù)據(jù)的深入分析和利用有助于改進(jìn)生產(chǎn)工藝、提高生產(chǎn)效率、降低生產(chǎn)成本、提升產(chǎn)品附加價(jià)值。
而算法和模型則是大數(shù)據(jù)分析體系中關(guān)鍵的核心問題,因此,本次慧都大數(shù)據(jù)對(duì)相關(guān)的基本概念和算法計(jì)算做一個(gè)系統(tǒng)的梳理和介紹。
算法的基本概念
算法/演算法/算則法(algorithm)為一個(gè)計(jì)算的具體步驟,常用于計(jì)算、數(shù)據(jù)處理和自動(dòng)推理。英文名稱“algorithm”歐幾里得算法被人們認(rèn)為是史上第一個(gè)算法。邱奇-圖靈論題認(rèn)為“任何在算法上可計(jì)算的問題同樣可由圖靈機(jī)計(jì)算”并提出一種假想的計(jì)算機(jī)的抽象模型,這個(gè)模型被稱為圖靈機(jī)。圖靈機(jī)的出現(xiàn)解決了算法定義的難題,我們可以認(rèn)為算法就是一系列為了解決問題和實(shí)現(xiàn)一定目標(biāo)而設(shè)定的相關(guān)規(guī)則。
算法和模型是大數(shù)據(jù)分析系統(tǒng)中的兩個(gè)問題,很多時(shí)候人們無法將這兩個(gè)概念準(zhǔn)確的區(qū)分開來,或者在某些場(chǎng)景下經(jīng)常把算法和模型當(dāng)做是同一個(gè)概念。實(shí)際上,算法和模型是有緊密聯(lián)系的。
數(shù)據(jù)分析的算法是一般規(guī)則,所采用的方法是具有通用性和一般性的,如果需要用算法來解決實(shí)際的問題,達(dá)到商業(yè)的價(jià)值,就需要將算法和實(shí)際的應(yīng)用場(chǎng)景結(jié)合起來,將算法得到的結(jié)果賦予相應(yīng)的含義,提供決策支持或分析結(jié)果,將算法和業(yè)務(wù)場(chǎng)景結(jié)合起來,并對(duì)輸入和輸出的結(jié)果進(jìn)行業(yè)務(wù)上的處理,就是大數(shù)據(jù)分析的建模過程,得到的解決方案就是大數(shù)據(jù)分析模型。
算法的基本特征
確定性:算法中每個(gè)步驟都是明確的,對(duì)結(jié)果的預(yù)期也是確定的,例如在預(yù)測(cè)中的指數(shù)平滑算法中,同樣的輸入數(shù)據(jù)和平滑系數(shù),得到的結(jié)果是確定的,并且無論算法運(yùn)行多少次,得到的結(jié)果都是相同的。
有窮性: 算法必須是有限個(gè)步驟組成的過程,步驟的數(shù)量可能是幾個(gè),也可能是幾百個(gè),但是必須有確定的結(jié)束條件。在類似遺傳算法中,迭代次數(shù)或者結(jié)果迭代的條件也都是確定的,這種特征保證了算法的效率,同時(shí)也是在運(yùn)行成本和運(yùn)算結(jié)果滿意度之間的平衡方式,特別對(duì)于一些管理系統(tǒng)中的優(yōu)化算法,是不可能得到最優(yōu)解的,只能在可接受的運(yùn)行效率下得到相對(duì)滿意的解。
可行性: 算法中的每一個(gè)步驟都是可行的,只要有一個(gè)不可行,算法就是失敗的,或者不能被稱為算法。
輸入和輸出: 算法解決特定的問題,問題來源是算法的輸入,期望結(jié)果是算法的輸出。
目前大數(shù)據(jù)分析的算法主要還是數(shù)據(jù)挖掘算法,它大量采用了統(tǒng)計(jì)學(xué)的思想,原理方法和工具,比如聚類分析、相關(guān)分析、主成分分析、回歸分析和序列分析等,但是相比于傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,工業(yè)大數(shù)據(jù)的數(shù)據(jù)挖掘算法有著以下幾個(gè)方面的區(qū)別:
- 工業(yè)大數(shù)據(jù)的數(shù)據(jù)源樣品量巨大,相比于統(tǒng)計(jì)學(xué)中樣本數(shù)量大于30就稱之為大樣本的計(jì)量,工業(yè)大數(shù)據(jù)的樣本量往往上百萬級(jí)別的。
- 工業(yè)大數(shù)據(jù)的數(shù)據(jù)來源和質(zhì)量與統(tǒng)計(jì)學(xué)不同。工業(yè)大數(shù)據(jù)的數(shù)據(jù)來源是實(shí)際的工業(yè)過程和物聯(lián)網(wǎng),對(duì)處理和分析的實(shí)時(shí)性要求很高,這是傳統(tǒng)統(tǒng)計(jì)學(xué)的分析方法中很難做到的。
- 工業(yè)大數(shù)據(jù)分析面對(duì)的數(shù)據(jù)不僅包括傳統(tǒng)統(tǒng)計(jì)學(xué)中的結(jié)構(gòu)化數(shù)據(jù),也包括非結(jié)構(gòu)化和異型數(shù)據(jù)。
- 傳統(tǒng)的統(tǒng)計(jì)學(xué)方法在對(duì)大規(guī)模數(shù)據(jù)進(jìn)行處理時(shí)的效率較低,因此神經(jīng)網(wǎng)絡(luò)和遺傳算法等機(jī)器學(xué)習(xí)和人工智能算法是工業(yè)大數(shù)據(jù)經(jīng)常采用的方法。
常見算法及分類介紹
01.預(yù)測(cè)算法
預(yù)測(cè)算法,顧名思義就是對(duì)某個(gè)問題做出預(yù)測(cè),通常說來預(yù)測(cè)的目標(biāo)是數(shù)字形式的連續(xù)值,例如房?jī)r(jià)、GDP等等。根據(jù)預(yù)測(cè)方法的不同,又可以分為外生預(yù)測(cè)和內(nèi)生預(yù)測(cè)。
例如預(yù)測(cè)產(chǎn)品的需求量,外生預(yù)測(cè)是根據(jù)會(huì)影響物流需求量的外部因素,例如地理位置、經(jīng)濟(jì)發(fā)展水平等對(duì)某個(gè)區(qū)域的物流需求量進(jìn)行估計(jì),典型的例子是線性回歸,將希望預(yù)測(cè)的物流需求量作為因變量,位置和經(jīng)濟(jì)發(fā)展水平作為自變量,用一個(gè)算式將二者之間的關(guān)系表示出來,物流需求量=a*位置+b*發(fā)展水平,求a和b的過程就是線性回歸算法的過程。很多監(jiān)督類算法都具有數(shù)值預(yù)測(cè)能力,例如:神經(jīng)網(wǎng)絡(luò)、決策樹、貝葉斯網(wǎng)絡(luò)、KNN、SVM等。
而內(nèi)生預(yù)測(cè),主要是指時(shí)間序列分析,則是通過物流需求量的歷史變化估計(jì)其未來趨勢(shì),通過分解歷史變化中的總體趨勢(shì)、周期性、季節(jié)性、波動(dòng)性等要素,預(yù)測(cè)未來值。例如ARIMA,移動(dòng)平均、指數(shù)平滑等。
還有一類是主觀預(yù)測(cè)法,例如德爾菲法,層次分析法AHP等,這在大數(shù)據(jù)分析中作為專家知識(shí)對(duì)其他預(yù)測(cè)方法就行修正,或者作為平滑系統(tǒng)、移動(dòng)平均系數(shù)的先驗(yàn)條件。
02.分類算法
分類算法,也被稱作有監(jiān)督算法,主要是針對(duì)離散屬性值的判斷和預(yù)測(cè),如故障檢測(cè)和診斷、客戶細(xì)分在某些方面與預(yù)測(cè)算法類似,都是對(duì)一個(gè)預(yù)先存在的目標(biāo)變量進(jìn)行估計(jì)。但是,預(yù)測(cè)算法的目標(biāo)通常是數(shù)字形態(tài)的值,而分類算法則是一個(gè)類別。一個(gè)典型的例子是設(shè)備的故障診斷。這時(shí)候,目標(biāo)是設(shè)備“是/否”正常運(yùn)行或者,也就是說是一個(gè)類別。
我們可以利用設(shè)備已有的運(yùn)行參數(shù)和故障狀態(tài)建立一個(gè)分類模型,這部分已有的用戶中包含那些正常運(yùn)行和不同故障等級(jí)的運(yùn)行參數(shù),然后就可以用這個(gè)分類模型判斷一個(gè)新的設(shè)備運(yùn)行狀態(tài)參數(shù)是否正常運(yùn)行。用來建立模型的那部分?jǐn)?shù)據(jù)叫做“訓(xùn)練數(shù)據(jù)”。
分類算法是工業(yè)大數(shù)據(jù)分析中應(yīng)用中常的一類算法,它包含經(jīng)典的決策樹算法貝葉斯分類算法、邏輯回歸、判別式,也包含支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)這些較新的方法。分類算法的模型在實(shí)際應(yīng)用中經(jīng)常表現(xiàn)為一個(gè)“黑箱”,只要能得到滿意的分類結(jié)果,模型內(nèi)部的細(xì)節(jié)可能是不可見的。
03.細(xì)分算法
與監(jiān)督算法相對(duì)應(yīng)的是也被稱為無監(jiān)督算法的一類細(xì)分算法,它和分類算法相類似的地方是,它們的目的都是把數(shù)據(jù)分成幾個(gè)不同的類別。但是,分類算法的類別是已經(jīng)存在的,就像前面提到的設(shè)備故障診斷,我們能夠?qū)υO(shè)備已有的運(yùn)行狀態(tài)參數(shù)進(jìn)行故障等級(jí)的劃分。但細(xì)分算法不同,它沒有這樣一個(gè)預(yù)先分好的類別,而是根據(jù)數(shù)據(jù)本身的分布特點(diǎn),“自然而然”地劃分出類。
細(xì)分算法常見的應(yīng)用是客戶細(xì)分,購(gòu)物中心根據(jù)會(huì)員的消費(fèi)金額、消費(fèi)頻次和最近一次消費(fèi)時(shí)間將會(huì)員劃分為不同價(jià)值的群體。在實(shí)施細(xì)分算法之前,我們并不知道這些會(huì)員可能被分為幾類,每個(gè)類別是什么,只有建立細(xì)分模型之后,才能根據(jù)劃分出類別在這三個(gè)方面表現(xiàn)出的特點(diǎn)歸納出每一類具體是什么。
在工業(yè)生產(chǎn)中,細(xì)分算法往往應(yīng)用于工藝優(yōu)化,比如對(duì)車間生產(chǎn)歷史數(shù)據(jù)的細(xì)分算法,得到工藝參數(shù)與產(chǎn)品質(zhì)量、能耗水平的影響關(guān)系,從而提升制造水平。對(duì)生產(chǎn)過程和設(shè)備使用過程中異常點(diǎn)的細(xì)分,對(duì)設(shè)備潛在性能提升提供依據(jù)。
細(xì)分算法中主要的就是聚類,主要有基于距離的層次聚類和k-means聚類,基于密度的DBSCAN聚類,以及模糊聚類和核聚類等方法。
04.關(guān)聯(lián)規(guī)則算法
關(guān)聯(lián)規(guī)則的主要目標(biāo)在于發(fā)現(xiàn)數(shù)據(jù)中所存在的關(guān)系,這種關(guān)系會(huì)以規(guī)則的形式表現(xiàn)出來。例如購(gòu)物籃分析就是典型的關(guān)聯(lián)規(guī)則算法的應(yīng)用場(chǎng)景。它的目標(biāo)是發(fā)現(xiàn)消費(fèi)者在超市購(gòu)買商品時(shí)哪些商品同時(shí)購(gòu)買的機(jī)會(huì)比較高,或者購(gòu)買某一項(xiàng)商品時(shí),同時(shí)購(gòu)買哪個(gè)商品的幾率比較高。通過這樣的分析,我們就可以發(fā)現(xiàn)購(gòu)買商品之間的關(guān)聯(lián)關(guān)系,從而實(shí)現(xiàn)優(yōu)化貨架擺放、提升銷售額的目的。
關(guān)聯(lián)規(guī)則算法可以作為最終的算法目標(biāo),也可以作為其他算法的手段,比如通過關(guān)聯(lián)規(guī)則算法找出某些因素之間的相關(guān)性,作為數(shù)據(jù)降維的手段,或者作為回歸分析的依據(jù)。
關(guān)聯(lián)規(guī)則經(jīng)典的算法是Apriori算法,但是由于它本身具有適應(yīng)嗎窄、會(huì)產(chǎn)生大量中間集的缺陷,許多專家學(xué)者提出了一些改進(jìn)的算法提供Apriori算法的效率,包括基于抽樣技術(shù)、基于動(dòng)態(tài)的項(xiàng)目集計(jì)數(shù)、基于劃分的方法、基于hash計(jì)數(shù)以及事務(wù)壓縮等方法。除此之外,有出現(xiàn)了其他的算法,其中頻繁樹(FP-Tree)算法的應(yīng)用也十分廣泛。
05.數(shù)據(jù)融合算法
數(shù)據(jù)融合算法主要是把數(shù)據(jù)融合的思想引入到工業(yè)大數(shù)據(jù)的預(yù)處理過程中,加入數(shù)據(jù)的智能化合成,產(chǎn)生比單一信息源更準(zhǔn)確、更完全、更可靠的數(shù)據(jù)進(jìn)行估計(jì)和判斷,解決工業(yè)大數(shù)據(jù)的數(shù)據(jù)源中存在的重復(fù)、冗余、錯(cuò)誤和噪聲。比較常見的一個(gè)場(chǎng)景是對(duì)傳感器測(cè)量數(shù)據(jù)誤差的處理,假設(shè)在工業(yè)設(shè)備中,有額定的理論運(yùn)行參數(shù),同時(shí)傳感器實(shí)時(shí)監(jiān)測(cè)到一套運(yùn)行參數(shù),兩種途徑得到的數(shù)據(jù)均有誤差,則可以用數(shù)據(jù)融合算法得到更為滿意更為可靠的數(shù)據(jù)源。
常用的數(shù)據(jù)融合算法有貝葉斯估值算法、遞歸加權(quán)最小平方法、卡爾曼濾波、小波變換的分布式濾波算法、馬爾科夫隨機(jī)場(chǎng)、最大似然法、聚集分析、表決邏輯、信息熵等算法。
慧都大數(shù)據(jù)分析平臺(tái)為您提供從數(shù)據(jù)對(duì)接,數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)建模,可視化分析的端到端解決方案,聚焦制造業(yè),為制造企業(yè)提供端到端的工業(yè)大數(shù)據(jù)分析平臺(tái),洞察數(shù)據(jù)的應(yīng)用價(jià)值,讓決策更智能。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們將幫您轉(zhuǎn)接大數(shù)據(jù)專業(yè)團(tuán)隊(duì),為您免費(fèi)定制分析方案!