• <menu id="w2i4a"></menu>
  • logo Hadoop教程

    文檔首頁(yè)>>Hadoop教程>>Hadoop教程:當(dāng)機(jī)器大數(shù)據(jù)遇見Hadoop

    Hadoop教程:當(dāng)機(jī)器大數(shù)據(jù)遇見Hadoop


    根據(jù)數(shù)據(jù)來(lái)源劃分,大數(shù)據(jù)主要包括三類:商業(yè)運(yùn)作產(chǎn)生的數(shù)據(jù)、人類行為產(chǎn)生的數(shù)據(jù)和機(jī)器數(shù)據(jù)。目前,人們談?wù)撟疃嗟氖乔皟深悢?shù)據(jù)的處理和分析。創(chuàng)立于2004年的Splunk公司獨(dú)樹一幟,從公司成立之初就一直專注于機(jī)器數(shù)據(jù)的處理和分析。Splunk公司產(chǎn)品營(yíng)銷副總裁SanjayMehta在接受本報(bào)記者采訪時(shí)表示,機(jī)器大數(shù)據(jù)未來(lái)具有非常廣闊的發(fā)展前景。

    機(jī)器大數(shù)據(jù)有可為

    何為機(jī)器數(shù)據(jù)?人們的每項(xiàng)活動(dòng)都會(huì)在機(jī)器數(shù)據(jù)中留下痕跡,這些數(shù)據(jù)包含客戶行為、使用事務(wù)處理、應(yīng)用程序行為、服務(wù)水平等的明確記錄,像人們非常熟悉的日志文件、傳感器數(shù)據(jù)等都是機(jī)器數(shù)據(jù)。SanjayMehta表示:“機(jī)器生成的數(shù)據(jù)是發(fā)展最快、最復(fù)雜同時(shí)也是最寶貴的那部分大數(shù)據(jù)。但是現(xiàn)有的數(shù)據(jù)分析、管理和監(jiān)控解決方案很少有為這類數(shù)據(jù)設(shè)計(jì)的。”

    機(jī)器數(shù)據(jù)處理的難點(diǎn)在于以下三方面:機(jī)器數(shù)據(jù)來(lái)自于不同來(lái)源,而將這些不同來(lái)源關(guān)聯(lián)起來(lái)十分復(fù)雜;機(jī)器數(shù)據(jù)主要是非結(jié)構(gòu)化的,很難用預(yù)先定義的架構(gòu)來(lái)處理;機(jī)器數(shù)據(jù)對(duì)實(shí)時(shí)處理的要求非常高。Splunk的產(chǎn)品被外界稱為機(jī)器數(shù)據(jù)的引擎,它能夠有效應(yīng)對(duì)機(jī)器數(shù)據(jù)的種種挑戰(zhàn),收集非結(jié)構(gòu)化的時(shí)間序列機(jī)器數(shù)據(jù),并編制索引加以利用。SanjayMehta表示,Splunk可以讀取人們能夠想到的任何來(lái)源的數(shù)據(jù),比如網(wǎng)絡(luò)流量、Web服務(wù)器、自定義應(yīng)用程序、應(yīng)用程序服務(wù)器、虛擬機(jī)管理程序、GSP系統(tǒng)甚至股市源、社交媒體和結(jié)構(gòu)化數(shù)據(jù)庫(kù)的數(shù)據(jù),并通過(guò)它們實(shí)時(shí)掌握業(yè)務(wù)狀況,深入分析在整個(gè)IT系統(tǒng)和基礎(chǔ)設(shè)施中發(fā)生了什么,從而做出正確決策。

    機(jī)器大數(shù)據(jù)也離不開Hadoop

    增強(qiáng)Hadoop的易用性

    “我們的某些客戶告訴我們,他們要使用Hadoop,希望以更低成本來(lái)存儲(chǔ)數(shù)據(jù)。但問(wèn)題是,如果想部署Hadoop并基于它獲得更多價(jià)值并不是一件容易的事。部署Hadoop所花費(fèi)的人力和服務(wù)可能是部署普通軟件的20倍。如果想充分發(fā)揮Hadoop的作用,至少要將13個(gè)項(xiàng)目與Hadoop進(jìn)行集成。另外很多客戶反映,Hadoop平臺(tái)上的數(shù)據(jù)量太大而無(wú)法隨意遷移。”SanjayMehta表示,“2012年10月,我們推出了SplunkHadoopConnect,讓用戶可以簡(jiǎn)單、方便地在SplunkEnterprise和Hadoop之間轉(zhuǎn)移數(shù)據(jù)。”

    SplunkHadoopConnect打通了Hadoop與Splunk產(chǎn)品平臺(tái)之間的傳輸通道,用戶可以將Splunk平臺(tái)上的數(shù)據(jù)傳輸?shù)紿adoop平臺(tái)上進(jìn)行長(zhǎng)期存儲(chǔ)。Hadoop上的數(shù)據(jù)也可以實(shí)時(shí)地傳輸?shù)絊plunk上進(jìn)行分析和可視化。

    對(duì)于很多客戶來(lái)說(shuō),最棘手的問(wèn)題是Hadoop上的數(shù)據(jù)量太大,無(wú)法隨意移動(dòng)。

    2013年6月22日,Splunk發(fā)布了Hunk測(cè)試版——SplunkAnalyticsforHadoop,它提供了針對(duì)Hadoop平臺(tái)的互動(dòng)數(shù)據(jù)探索分析和可視化功能,這為用戶使用Hadoop平臺(tái)提供了更多便利。

    SplunkAnalyticsforHadoop是一個(gè)全功能的集成的產(chǎn)品,針對(duì)Hadoop上的數(shù)據(jù)在同一個(gè)平臺(tái)上提供了互動(dòng)的數(shù)據(jù)探索、分析和可視化三種必要的功能。“SplunkAnalyticsforHadoop為用戶提供了一個(gè)簡(jiǎn)單、易用的界面,不僅專業(yè)人員可以使用,即使普通的管理人員也能使用它對(duì)數(shù)據(jù)進(jìn)行訪問(wèn)和分析。以前可能要花幾個(gè)月時(shí)間來(lái)了解和分析數(shù)據(jù),現(xiàn)在使用SplunkAnalyticsforHadoop,可能只要一小時(shí)甚至幾分鐘。”SanjayMehta表示。

    SplunkAnalyticsforHadoop是首個(gè)采用Splunk虛擬索引技術(shù)(正在申請(qǐng)專利)的產(chǎn)品。用戶通過(guò)它可以無(wú)縫使用Splunk的所有技術(shù),包括Splunk搜索處理語(yǔ)言(SPL)等。它可以實(shí)現(xiàn)互動(dòng)地探索、分析和可視化存儲(chǔ)在任何地方的數(shù)據(jù),就像這些數(shù)據(jù)存儲(chǔ)在SplunkIndex中一樣。SanjayMehta介紹說(shuō):“未來(lái),我們會(huì)把更多技術(shù)創(chuàng)新反饋給Hadoop社區(qū)。目前,我們正在邀請(qǐng)?zhí)囟ǖ挠脩魠⑴cHunk的測(cè)試。”

     來(lái)源:中國(guó)計(jì)算機(jī)報(bào)   作者:郭濤

    掃碼咨詢


    添加微信 立即咨詢

    電話咨詢

    客服熱線
    023-68661681

    TOP
    三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();