<menu id="w2i4a"></menu>

Hadoop教程

文檔首頁(yè)>>Hadoop教程>>Hadoop教程：當(dāng)機(jī)器大數(shù)據(jù)遇見Hadoop

Hadoop教程：當(dāng)機(jī)器大數(shù)據(jù)遇見Hadoop

根據(jù)數(shù)據(jù)來(lái)源劃分，大數(shù)據(jù)主要包括三類：商業(yè)運(yùn)作產(chǎn)生的數(shù)據(jù)、人類行為產(chǎn)生的數(shù)據(jù)和機(jī)器數(shù)據(jù)。目前，人們談?wù)撟疃嗟氖乔皟深悢?shù)據(jù)的處理和分析。創(chuàng)立于2004年的Splunk公司獨(dú)樹一幟，從公司成立之初就一直專注于機(jī)器數(shù)據(jù)的處理和分析。Splunk公司產(chǎn)品營(yíng)銷副總裁SanjayMehta在接受本報(bào)記者采訪時(shí)表示，機(jī)器大數(shù)據(jù)未來(lái)具有非常廣闊的發(fā)展前景。

機(jī)器大數(shù)據(jù)有可為

何為機(jī)器數(shù)據(jù)?人們的每項(xiàng)活動(dòng)都會(huì)在機(jī)器數(shù)據(jù)中留下痕跡，這些數(shù)據(jù)包含客戶行為、使用事務(wù)處理、應(yīng)用程序行為、服務(wù)水平等的明確記錄，像人們非常熟悉的日志文件、傳感器數(shù)據(jù)等都是機(jī)器數(shù)據(jù)。SanjayMehta表示：“機(jī)器生成的數(shù)據(jù)是發(fā)展最快、最復(fù)雜同時(shí)也是最寶貴的那部分大數(shù)據(jù)。但是現(xiàn)有的數(shù)據(jù)分析、管理和監(jiān)控解決方案很少有為這類數(shù)據(jù)設(shè)計(jì)的。”

機(jī)器數(shù)據(jù)處理的難點(diǎn)在于以下三方面：機(jī)器數(shù)據(jù)來(lái)自于不同來(lái)源，而將這些不同來(lái)源關(guān)聯(lián)起來(lái)十分復(fù)雜;機(jī)器數(shù)據(jù)主要是非結(jié)構(gòu)化的，很難用預(yù)先定義的架構(gòu)來(lái)處理;機(jī)器數(shù)據(jù)對(duì)實(shí)時(shí)處理的要求非常高。Splunk的產(chǎn)品被外界稱為機(jī)器數(shù)據(jù)的引擎，它能夠有效應(yīng)對(duì)機(jī)器數(shù)據(jù)的種種挑戰(zhàn)，收集非結(jié)構(gòu)化的時(shí)間序列機(jī)器數(shù)據(jù)，并編制索引加以利用。SanjayMehta表示，Splunk可以讀取人們能夠想到的任何來(lái)源的數(shù)據(jù)，比如網(wǎng)絡(luò)流量、Web服務(wù)器、自定義應(yīng)用程序、應(yīng)用程序服務(wù)器、虛擬機(jī)管理程序、GSP系統(tǒng)甚至股市源、社交媒體和結(jié)構(gòu)化數(shù)據(jù)庫(kù)的數(shù)據(jù)，并通過(guò)它們實(shí)時(shí)掌握業(yè)務(wù)狀況，深入分析在整個(gè)IT系統(tǒng)和基礎(chǔ)設(shè)施中發(fā)生了什么，從而做出正確決策。

機(jī)器大數(shù)據(jù)也離不開Hadoop

增強(qiáng)Hadoop的易用性

“我們的某些客戶告訴我們，他們要使用Hadoop，希望以更低成本來(lái)存儲(chǔ)數(shù)據(jù)。但問(wèn)題是，如果想部署Hadoop并基于它獲得更多價(jià)值并不是一件容易的事。部署Hadoop所花費(fèi)的人力和服務(wù)可能是部署普通軟件的20倍。如果想充分發(fā)揮Hadoop的作用，至少要將13個(gè)項(xiàng)目與Hadoop進(jìn)行集成。另外很多客戶反映，Hadoop平臺(tái)上的數(shù)據(jù)量太大而無(wú)法隨意遷移。”SanjayMehta表示，“2012年10月，我們推出了SplunkHadoopConnect，讓用戶可以簡(jiǎn)單、方便地在SplunkEnterprise和Hadoop之間轉(zhuǎn)移數(shù)據(jù)。”

SplunkHadoopConnect打通了Hadoop與Splunk產(chǎn)品平臺(tái)之間的傳輸通道，用戶可以將Splunk平臺(tái)上的數(shù)據(jù)傳輸?shù)紿adoop平臺(tái)上進(jìn)行長(zhǎng)期存儲(chǔ)。Hadoop上的數(shù)據(jù)也可以實(shí)時(shí)地傳輸?shù)絊plunk上進(jìn)行分析和可視化。

對(duì)于很多客戶來(lái)說(shuō)，最棘手的問(wèn)題是Hadoop上的數(shù)據(jù)量太大，無(wú)法隨意移動(dòng)。

2013年6月22日，Splunk發(fā)布了Hunk測(cè)試版——SplunkAnalyticsforHadoop，它提供了針對(duì)Hadoop平臺(tái)的互動(dòng)數(shù)據(jù)探索分析和可視化功能，這為用戶使用Hadoop平臺(tái)提供了更多便利。

SplunkAnalyticsforHadoop是一個(gè)全功能的集成的產(chǎn)品，針對(duì)Hadoop上的數(shù)據(jù)在同一個(gè)平臺(tái)上提供了互動(dòng)的數(shù)據(jù)探索、分析和可視化三種必要的功能。“SplunkAnalyticsforHadoop為用戶提供了一個(gè)簡(jiǎn)單、易用的界面，不僅專業(yè)人員可以使用，即使普通的管理人員也能使用它對(duì)數(shù)據(jù)進(jìn)行訪問(wèn)和分析。以前可能要花幾個(gè)月時(shí)間來(lái)了解和分析數(shù)據(jù)，現(xiàn)在使用SplunkAnalyticsforHadoop，可能只要一小時(shí)甚至幾分鐘。”SanjayMehta表示。

SplunkAnalyticsforHadoop是首個(gè)采用Splunk虛擬索引技術(shù)(正在申請(qǐng)專利)的產(chǎn)品。用戶通過(guò)它可以無(wú)縫使用Splunk的所有技術(shù)，包括Splunk搜索處理語(yǔ)言(SPL)等。它可以實(shí)現(xiàn)互動(dòng)地探索、分析和可視化存儲(chǔ)在任何地方的數(shù)據(jù)，就像這些數(shù)據(jù)存儲(chǔ)在SplunkIndex中一樣。SanjayMehta介紹說(shuō)：“未來(lái)，我們會(huì)把更多技術(shù)創(chuàng)新反饋給Hadoop社區(qū)。目前，我們正在邀請(qǐng)?zhí)囟ǖ挠脩魠⑴cHunk的測(cè)試。”

來(lái)源：中國(guó)計(jì)算機(jī)報(bào) 作者：郭濤

慧都科技版權(quán)所有 Copyright 2003-2024 渝ICP備12000582號(hào)-13 渝公網(wǎng)安備 50010702500608號(hào) 本站由提供CDN加速/云存儲(chǔ)服務(wù)

掃碼咨詢

添加微信立即咨詢

電話咨詢

客服熱線
023-68661681

TOP

三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();