IBM Streams時間序列數(shù)據(jù)分析
時間序列數(shù)據(jù)是一個物體或多個物體隨著時間不斷產(chǎn)生的數(shù)值序列。比如:從智能電表中獲得月電度使用量;每日股票的價格和交易量;ECG(心電圖);地震儀,網(wǎng)絡(luò)性能數(shù)據(jù)等等。時間序列數(shù)據(jù)一定基于時間順序,這個順序是所有時間分析算法的基礎(chǔ)。IBM Streams時間序列工具包(TimeSeries Toolkit),可以用來預(yù)處理、分析和建模時間序列數(shù)據(jù)。
在IBM Streams里,時間序列數(shù)據(jù)有三種主要類型的處理方法:
- 數(shù)據(jù)預(yù)處理:包括讀取、修復(fù)、條件化數(shù)據(jù)。
- 數(shù)據(jù)分析:包括分析時間序列數(shù)據(jù)的內(nèi)在信息。比如:對時間序列數(shù)進(jìn)行計算統(tǒng)計信息和關(guān)聯(lián),解析和轉(zhuǎn)換.
- 數(shù)據(jù)建模:包括時間序列模型的創(chuàng)建以及使用模型來預(yù)測或回歸。
這個工具包還提供一系列函數(shù)來自動生成以測試和驗證為用途的時間序列數(shù)。以下對該工具包的具體功能:
1. 分析模塊具有以下Operator(對時間序列數(shù)據(jù)流進(jìn)行連續(xù)運算)
- AnomalyDetector異常檢測
- CrossCorrelate2交叉關(guān)聯(lián)(滑動點乘或滑動內(nèi)乘),用于測量兩個時間序列的相似度
- CrossCorrelateMulti用于模式識別,兩個或多個時間序列。
- DSPFilter2數(shù)字信號處理(DSP)的過濾操作算法執(zhí)行對輸入時間序列的數(shù)字濾波操作。數(shù)字濾波是一個普遍的技術(shù)使用,以提高或降低的時間序列的某些特性。它可用于長度不能計數(shù)的數(shù)據(jù)處理,例如,數(shù)據(jù)平滑化,趨勢,增強(qiáng),放大,和頻率解析。
- DSPFilterFinite同上,用于有限長度的數(shù)據(jù)處理。
- DWT2離散小波變換
- Distribution 四位分布圖quartile distribution
- FFT傅里葉變換
- FunctionEvaluator對時間序列中每個值進(jìn)行計算
- Normalize計算均值和方差,零均值和單位方差
- PSAX分段聚合近似Piecewise Aggregate Approximation
- STDseasonal trend decomposition 季節(jié)趨勢分解
2. 分析模塊具有以下函數(shù)(對單個時間序列值進(jìn)行運算)
- convolve,laggedConvolve卷積運算
- crosscorrelate,laggedCrosscorrelate交叉關(guān)聯(lián)
- rms方根均值
3. 距離模塊具有以下函數(shù)(對單個時間序列值進(jìn)行運算)
- dtw動態(tài)時間規(guī)整dynamic time warping (DTW)
- dtw_itakura Itakura Parallelogram DTW
- dtw_sakoe_chiba Sakoe-Chiba Band based DTW
- lcss longest common subsequence (LCSS)最長公共子序列
- lpNorm Lp范式
4. 數(shù)據(jù)生成模塊具有以下函數(shù)Operator(自動生成時間序列數(shù)據(jù)流)
- Generator正弦,三角,鋸齒,或脈沖串
5. 數(shù)據(jù)生成模塊具有以下函數(shù)
- generate_pulsetrain_wave
- generate_sawtooth_wave
- generate_sine_wave
- generate_square_wave
- generate_triangular_wave
6. 建模模塊具有以下函數(shù)Operator((對時間序列數(shù)據(jù)流進(jìn)行連續(xù)運算)
- ARIMA2自回歸積分滑動平均模型
- AutoForecaster2時間序列值自動預(yù)報
- FMPFilter自適應(yīng)褪色記憶多項式濾波器,用于跟蹤、平滑、離群值、異常檢測
- GAMLearner廣義可加模型
- GAMScorer利用廣義可加模型打分
- GMM混合高斯模型,用于概率估計和離群值、異常值檢測
- HoltWinters2三次指數(shù)平滑法,用于長期預(yù)報
- KMeansClusteringKMeans聚類分析
- Kalman卡爾曼濾波器,用于跟蹤、平滑和自適應(yīng)時間序列數(shù)據(jù)。
- LPC線性預(yù)測編碼
- RLSFilter遞歸最小二乘(RLS),預(yù)測
- VAR2,Granger因果關(guān)系算法,用于近期預(yù)測、異常檢測。
- IncrementalInterpolate增量插補,計算遺漏值
- ReSample重采樣
- TSWindowing窗函數(shù),包括 Hamming, Hann, Blackman, Cosine, 和Triangle
Streams TimeSeries 工具包通過許多操作符進(jìn)行了完善,能夠建立預(yù)報、跟蹤、回歸和預(yù)測模型。在一些真實場景中,輸入時間序列可能更改它的頻率范圍或者可能不斷造成干擾,或者開始丟失數(shù)據(jù)。使用這些質(zhì)量糟糕的數(shù)據(jù)來構(gòu)建模型可能導(dǎo)致糟糕的性能。因此,在數(shù)據(jù)質(zhì)量下降時,必須執(zhí)行重新構(gòu)建模型或暫停更新模型參數(shù)的過程。而在運行時這么做是一大挑戰(zhàn)。
TimeSeries 工具包的建模操作符通過使用一個控制端口來接受特定的控制信號,促進(jìn)了模型的再培訓(xùn)、暫?;蚧謴?fù)。一旦在輸入數(shù)據(jù)中檢測到異?;蜃兏?,就可以向建模操作符發(fā)送控制信號,讓其更改其行為。但是,這個控制信號應(yīng)與所監(jiān)視的數(shù)據(jù)同步,否則會導(dǎo)致模型中異常數(shù)據(jù)泛濫。例如,控制信號的細(xì)微延遲可能導(dǎo)致對壞數(shù)據(jù)進(jìn)行模型培訓(xùn)。在流環(huán)境中,控制這一延遲非常棘手,因為無法保證控制信號和數(shù)據(jù)在操作符之間的移動速度。
可以考慮預(yù)報某個區(qū)域的電力使用情況的示例。在模型構(gòu)建周期中,必須忽略小電力故障,否則可能在預(yù)報期間產(chǎn)生失真的結(jié)果。小故障或超出范圍的數(shù)據(jù)需要丟棄,控制端口特性可幫助實現(xiàn)此目的。Streams可以將控制信號的檢測和提交與用于模型學(xué)習(xí)的數(shù)據(jù)進(jìn)行同步。
慧都控件網(wǎng)超級促銷月,全場6折起,豪禮搶不停>>>
截止時間:2016年11月30日
更多大數(shù)據(jù)與分析相關(guān)行業(yè)資訊、解決方案、案例、教程等請點擊查看>>>
詳情請咨詢在線客服!
客服熱線:023-66090381