• <menu id="w2i4a"></menu>
  • logo 大數(shù)據(jù)干貨(二)

    文檔首頁>>大數(shù)據(jù)干貨(二)>>Hadoop和大數(shù)據(jù):60款頂級(jí)開源工具

    Hadoop和大數(shù)據(jù):60款頂級(jí)開源工具


    說到處理大數(shù)據(jù)的工具,普通的開源解決方案(尤其是Apache Hadoop)堪稱中流砥柱。弗雷斯特調(diào)研公司的分析師Mike Gualtieri最近預(yù)測(cè),在接下來幾年,“100%的大公司”會(huì)采用Hadoop。Market Research的一份報(bào)告預(yù)測(cè),到2011年,Hadoop市場(chǎng)會(huì)以58%的年復(fù)合增長(zhǎng)率(CAGR)高速增長(zhǎng);到2020年,市場(chǎng)產(chǎn)值會(huì)超過10億美元。IBM更是非??春瞄_源大數(shù)據(jù)工具,派出了3500名研究人員開發(fā)Apache Spark,這個(gè)工具是Hadoop生態(tài)系統(tǒng)的一部分。

    這回我們推出了最新的頂級(jí)開源大數(shù)據(jù)工具排行榜。這個(gè)領(lǐng)域最近方興未艾,許多新項(xiàng)目紛紛啟動(dòng)。許多最知名的項(xiàng)目由Apache基金會(huì)管理,與Hadoop密切相關(guān)。

    請(qǐng)注意:本文不是要搞什么排名;相反,項(xiàng)目按類別加以介紹。與往常一樣,要是你知道另外的開源大數(shù)據(jù)及/或Hadoop工具應(yīng)該榜上有名,歡迎留言交流。

    一、Hadoop相關(guān)工具

    1. Hadoop

    Apache的Hadoop項(xiàng)目已幾乎與大數(shù)據(jù)劃上了等號(hào)。它不斷壯大起來,已成為一個(gè)完整的生態(tài)系統(tǒng),眾多開源工具面向高度擴(kuò)展的分布式計(jì)算。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://hadoop.apache.org  

    2. Ambari

    作為Hadoop生態(tài)系統(tǒng)的一部分,這個(gè)Apache項(xiàng)目提供了基于Web的直觀界面,可用于配置、管理和監(jiān)控Hadoop集群。有些開發(fā)人員想把Ambari的功能整合到自己的應(yīng)用程序當(dāng)中,Ambari也為他們提供了充分利用REST(代表性狀態(tài)傳輸協(xié)議)的API。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://ambari.apache.org 

    3. Avro

    這個(gè)Apache項(xiàng)目提供了數(shù)據(jù)序列化系統(tǒng),擁有豐富的數(shù)據(jù)結(jié)構(gòu)和緊湊格式。模式用JSON來定義,它很容易與動(dòng)態(tài)語言整合起來。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://avro.apache.org 

    4. Cascading

    Cascading是一款基于Hadoop的應(yīng)用程序開發(fā)平臺(tái)。提供商業(yè)支持和培訓(xùn)服務(wù)。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://www.cascading.org/projects/cascading/ 

    5. Chukwa

    Chukwa基于Hadoop,可以收集來自大型分布式系統(tǒng)的數(shù)據(jù),用于監(jiān)控。它還含有用于分析和顯示數(shù)據(jù)的工具。

    支持的操作系統(tǒng):Linux和OS X。

    相關(guān)鏈接: http://chukwa.apache.org 

    6. Flume

    Flume可以從其他應(yīng)用程序收集日志數(shù)據(jù),然后將這些數(shù)據(jù)送入到Hadoop。官方網(wǎng)站聲稱:“它功能強(qiáng)大、具有容錯(cuò)性,還擁有可以調(diào)整優(yōu)化的可靠性機(jī)制和許多故障切換及恢復(fù)機(jī)制。”

    支持的操作系統(tǒng):Linux和OS X。

    相關(guān)鏈接: https://cwiki.apache.org/confluence/display/FLUME/Home 

    7. HBase

    HBase是為有數(shù)十億行和數(shù)百萬列的超大表設(shè)計(jì)的,這是一種分布式數(shù)據(jù)庫,可以對(duì)大數(shù)據(jù)進(jìn)行隨機(jī)性的實(shí)時(shí)讀取/寫入訪問。它有點(diǎn)類似谷歌的Bigtable,不過基于Hadoop和Hadoop分布式文件系統(tǒng)(HDFS)而建。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://hbase.apache.org 

    8. Hadoop分布式文件系統(tǒng)(HDFS

    HDFS是面向Hadoop的文件系統(tǒng),不過它也可以用作一種獨(dú)立的分布式文件系統(tǒng)。它基于Java,具有容錯(cuò)性、高度擴(kuò)展性和高度配置性。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html 

    9. Hive

    Apache Hive是面向Hadoop生態(tài)系統(tǒng)的數(shù)據(jù)倉庫。它讓用戶可以使用HiveQL查詢和管理大數(shù)據(jù),這是一種類似SQL的語言。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://hive.apache.org 

    10. Hivemall

    Hivemall結(jié)合了面向Hive的多種機(jī)器學(xué)習(xí)算法。它包括諸多高度擴(kuò)展性算法,可用于數(shù)據(jù)分類、遞歸、推薦、k最近鄰、異常檢測(cè)和特征哈希。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: https://github.com/myui/hivemall 

    11. Mahout

    據(jù)官方網(wǎng)站聲稱,Mahout項(xiàng)目的目的是“為迅速構(gòu)建可擴(kuò)展、高性能的機(jī)器學(xué)習(xí)應(yīng)用程序打造一個(gè)環(huán)境。”它包括用于在Hadoop MapReduce上進(jìn)行數(shù)據(jù)挖掘的眾多算法,還包括一些面向Scala和Spark環(huán)境的新穎算法。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://mahout.apache.org 

    12. MapReduce

    作為Hadoop一個(gè)不可或缺的部分,MapReduce這種編程模型為處理大型分布式數(shù)據(jù)集提供了一種方法。它最初是由谷歌開發(fā)的,但現(xiàn)在也被本文介紹的另外幾個(gè)大數(shù)據(jù)工具所使用,包括CouchDB、MongoDB和Riak。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html 

    13. Oozie

    這種工作流程調(diào)度工具是為了管理Hadoop任務(wù)而專門設(shè)計(jì)的。它能夠按照時(shí)間或按照數(shù)據(jù)可用情況觸發(fā)任務(wù),并與MapReduce、Pig、Hive、Sqoop及其他許多相關(guān)工具整合起來。

    支持的操作系統(tǒng):Linux和OS X。

    相關(guān)鏈接: http://oozie.apache.org 

    14. Pig

    Apache Pig是一種面向分布式大數(shù)據(jù)分析的平臺(tái)。它依賴一種名為Pig Latin的編程語言,擁有簡(jiǎn)化的并行編程、優(yōu)化和可擴(kuò)展性等優(yōu)點(diǎn)。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://pig.apache.org 

    15. Sqoop

    企業(yè)經(jīng)常需要在關(guān)系數(shù)據(jù)庫與Hadoop之間傳輸數(shù)據(jù),而Sqoop就是能完成這項(xiàng)任務(wù)的一款工具。它可以將數(shù)據(jù)導(dǎo)入到Hive或HBase,并從Hadoop導(dǎo)出到關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://sqoop.apache.org 

    16. Spark

    作為MapReduce之外的一種選擇,Spark是一種數(shù)據(jù)處理引擎。它聲稱,用在內(nèi)存中時(shí),其速度比MapReduce最多快100倍;用在磁盤上時(shí),其速度比MapReduce最多快10倍。它可以與Hadoop和Apache Mesos一起使用,也可以獨(dú)立使用。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://spark.apache.org 

    17. Tez

    Tez建立在Apache Hadoop YARN的基礎(chǔ)上,這是“一種應(yīng)用程序框架,允許為任務(wù)構(gòu)建一種復(fù)雜的有向無環(huán)圖,以便處理數(shù)據(jù)。”它讓Hive和Pig可以簡(jiǎn)化復(fù)雜的任務(wù),而這些任務(wù)原本需要多個(gè)步驟才能完成。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://tez.apache.org 

    18. Zookeeper

    這種大數(shù)據(jù)管理工具自稱是“一項(xiàng)集中式服務(wù),可用于維護(hù)配置信息、命名、提供分布式同步以及提供群組服務(wù)。”它讓Hadoop集群里面的節(jié)點(diǎn)可以彼此協(xié)調(diào)。

    支持的操作系統(tǒng):Linux、Windows(只適合開發(fā)環(huán)境)和OS X(只適合開發(fā)環(huán)境)。

    相關(guān)鏈接: http://zookeeper.apache.org 

    2016慧都年終促銷

    二、大數(shù)據(jù)分析平臺(tái)和工具

    19. Disco

    Disco最初由諾基亞開發(fā),這是一種分布式計(jì)算框架,與Hadoop一樣,它也基于MapReduce。它包括一種分布式文件系統(tǒng)以及支持?jǐn)?shù)十億個(gè)鍵和值的數(shù)據(jù)庫。

    支持的操作系統(tǒng):Linux和OS X。

    相關(guān)鏈接: http://discoproject.org 

    20. HPCC

    作為Hadoop之外的一種選擇,HPCC這種大數(shù)據(jù)平臺(tái)承諾速度非???,擴(kuò)展性超強(qiáng)。除了免費(fèi)社區(qū)版外,HPCC Systems還提供收費(fèi)的企業(yè)版、收費(fèi)模塊、培訓(xùn)、咨詢及其他服務(wù)。

    支持的操作系統(tǒng):Linux。

    相關(guān)鏈接: http://hpccsystems.com 

    21. Lumify

    Lumify歸Altamira科技公司(以國家安全技術(shù)而聞名)所有,這是一種開源大數(shù)據(jù)整合、分析和可視化平臺(tái)。你只要在Try.Lumify.io試一下演示版,就能看看它的實(shí)際效果。

    支持的操作系統(tǒng):Linux。

    相關(guān)鏈接: http://www.jboss.org/infinispan.html 

    22. Pandas

    Pandas項(xiàng)目包括基于Python編程語言的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具。它讓企業(yè)組織可以將Python用作R之外的一種選擇,用于大數(shù)據(jù)分析項(xiàng)目。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://pandas.pydata.org 

    23. Storm

    Storm現(xiàn)在是一個(gè)Apache項(xiàng)目,它提供了實(shí)時(shí)處理大數(shù)據(jù)的功能(不像Hadoop只提供批任務(wù)處理)。其用戶包括推特、美國天氣頻道、WebMD、阿里巴巴、Yelp、雅虎日本、Spotify、Group、Flipboard及其他許多公司。

    支持的操作系統(tǒng):Linux。

    相關(guān)鏈接: https://storm.apache.org 

    三、數(shù)據(jù)庫/數(shù)據(jù)倉庫

    24. Blazegraph

    Blazegraph之前名為“Bigdata”,這是一種高度擴(kuò)展、高性能的數(shù)據(jù)庫。它既有使用開源許可證的版本,也有使用商業(yè)許可證的版本。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://www.systap.com/bigdata 

    25. Cassandra

    這種NoSQL數(shù)據(jù)庫最初由Facebook開發(fā),現(xiàn)已被1500多家企業(yè)組織使用,包括蘋果、歐洲原子核研究組織(CERN)、康卡斯特、電子港灣、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其他機(jī)構(gòu)。它能支持超大規(guī)模集群;比如說,蘋果部署的Cassandra系統(tǒng)就包括75000多個(gè)節(jié)點(diǎn),擁有的數(shù)據(jù)量超過10 PB。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://cassandra.apache.org 

    26. CouchDB

    CouchDB號(hào)稱是“一款完全擁抱互聯(lián)網(wǎng)的數(shù)據(jù)庫”,它將數(shù)據(jù)存儲(chǔ)在JSON文檔中,這種文檔可以通過Web瀏覽器來查詢,并且用JavaScript來處理。它易于使用,在分布式上網(wǎng)絡(luò)上具有高可用性和高擴(kuò)展性。

    支持的操作系統(tǒng):Windows、Linux、OS X和安卓。

    相關(guān)鏈接: http://couchdb.apache.org 

    27. FlockDB

    由推特開發(fā)的FlockDB是一種非常快、擴(kuò)展性非常好的圖形數(shù)據(jù)庫,擅長(zhǎng)存儲(chǔ)社交網(wǎng)絡(luò)數(shù)據(jù)。雖然它仍可用于下載,但是這個(gè)項(xiàng)目的開源版已有一段時(shí)間沒有更新了。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: https://github.com/twitter/flockdb 

    28. Hibari

    這個(gè)基于Erlang的項(xiàng)目自稱是“一種分布式有序鍵值存儲(chǔ)系統(tǒng),保證擁有很強(qiáng)的一致性”。它最初是由Gemini Mobile Technologies開發(fā)的,現(xiàn)在已被歐洲和亞洲的幾家電信運(yùn)營商所使用。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://hibari.github.io/hibari-doc/ 

    29. Hypertable

    Hypertable是一種與Hadoop兼容的大數(shù)據(jù)數(shù)據(jù)庫,承諾性能超高,其用戶包括電子港灣、百度、高朋、Yelp及另外許多互聯(lián)網(wǎng)公司。提供商業(yè)支持服務(wù)。

    支持的操作系統(tǒng):Linux和OS X。

    相關(guān)鏈接: http://hypertable.org 

    30. Impala

    Cloudera聲稱,基于SQL的Impala數(shù)據(jù)庫是“面向Apache Hadoop的領(lǐng)先的開源分析數(shù)據(jù)庫”。它可以作為一款獨(dú)立產(chǎn)品來下載,又是Cloudera的商業(yè)大數(shù)據(jù)產(chǎn)品的一部分。

    支持的操作系統(tǒng):Linux和OS X。

    相關(guān)鏈接: http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html 

    31. InfoBright社區(qū)版

    InfoBright為數(shù)據(jù)分析而設(shè)計(jì),這是一種面向列的數(shù)據(jù)庫,具有很高的壓縮比。InfoBright.com提供基于同一代碼的收費(fèi)產(chǎn)品,提供支持服務(wù)。

    支持的操作系統(tǒng):Windows和Linux。

    相關(guān)鏈接: http://www.infobright.org 

    32. MongoDB

    mongoDB的下載量已超過1000萬人次,這是一種極其受歡迎的NoSQL數(shù)據(jù)庫。MongoDB.com上提供了企業(yè)版、支持、培訓(xùn)及相關(guān)產(chǎn)品和服務(wù)。

    支持的操作系統(tǒng):Windows、Linux、OS X和Solaris。

    相關(guān)鏈接: http://www.mongodb.org 

    33. Neo4j

    Neo4j自稱是“速度最快、擴(kuò)展性最佳的原生圖形數(shù)據(jù)庫”,它承諾具有大規(guī)模擴(kuò)展性、快速的密碼查詢性能和經(jīng)過改進(jìn)的開發(fā)效率。用戶包括電子港灣、必能寶(Pitney Bowes)、沃爾瑪、德國漢莎航空公司和CrunchBase。

    支持的操作系統(tǒng):Windows和Linux。

    相關(guān)鏈接: http://neo4j.org 

    34. OrientDB

    這款多模型數(shù)據(jù)庫結(jié)合了圖形數(shù)據(jù)庫的一些功能和文檔數(shù)據(jù)庫的一些功能。提供收費(fèi)支持、培訓(xùn)和咨詢等服務(wù)。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://www.orientdb.org/index.htm 

    35. Pivotal Greenplum Database

    Pivotal聲稱,Greenplum是“同類中最佳的企業(yè)級(jí)分析數(shù)據(jù)庫”,能夠非??焖俚貙?duì)龐大的海量數(shù)據(jù)進(jìn)行功能強(qiáng)大的分析。它是Pivotal大數(shù)據(jù)庫套件的一部分。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://pivotal.io/big-data/pivotal-greenplum-database 

    36. Riak

    Riak“功能完備”,有兩個(gè)版本:KV是分布式NoSQL數(shù)據(jù)庫,S2提供了面向云環(huán)境的對(duì)象存儲(chǔ)。它既有開源版,也有商業(yè)版,還有支持Spark、Redis和Solr的附件。

    支持的操作系統(tǒng):Linux和OS X。

    相關(guān)鏈接: http://basho.com/riak-0-10-is-full-of-great-stuff/ 

    37. Redis

    Redis現(xiàn)在由Pivotal贊助,這是一種鍵值緩存和存儲(chǔ)系統(tǒng)。提供收費(fèi)支持。要注意:雖然該項(xiàng)目并不正式支持Windows,不過微軟在GitHub上有一個(gè)Windows派生版。

    支持的操作系統(tǒng):Linux。

    相關(guān)鏈接: http://redis.io 

    四、商業(yè)智能

    38. Talend Open Studio

    Talend的下載量已超過200萬人次,其開源軟件提供了數(shù)據(jù)整合功能。該公司還開發(fā)收費(fèi)的大數(shù)據(jù)、云、數(shù)據(jù)整合、應(yīng)用程序整合和主數(shù)據(jù)管理等工具。其用戶包括美國國際集團(tuán)(AIG)、康卡斯特、電子港灣、通用電氣、三星、Ticketmaster和韋里遜等企業(yè)組織。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://www.talend.com/index.php 

    39. Jaspersoft

    Jaspersoft提供了靈活、可嵌入的商業(yè)智能工具,用戶包括眾多企業(yè)組織:高朋、冠群科技、美國農(nóng)業(yè)部、愛立信、時(shí)代華納有線電視、奧林匹克鋼鐵、內(nèi)斯拉斯加大學(xué)和通用動(dòng)力公司。除了開源社區(qū)版外,它還提供收費(fèi)的報(bào)表版、亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)版、專業(yè)版和企業(yè)版。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://www.jaspersoft.com 

    40. Pentaho

    Pentaho歸日立數(shù)據(jù)系統(tǒng)公司所有,它提供了一系列數(shù)據(jù)整合和業(yè)務(wù)分析工具。官方網(wǎng)站上提供了三個(gè)社區(qū)版;訪問Pentaho.com,即可了解收費(fèi)支持版方面的信息。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://community.pentaho.com 

    41. SpagoBI

    Spago被市場(chǎng)分析師們稱為“開源領(lǐng)袖”,它提供商業(yè)智能、中間件和質(zhì)量保證軟件,另外還提供Java EE應(yīng)用程序開發(fā)框架。該軟件百分之分免費(fèi)、開源,不過也提供收費(fèi)的支持、咨詢、培訓(xùn)及其他服務(wù)。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://www.spagoworld.org/xwiki/bin/view/SpagoWorld/ 

    42. KNIME

    KNIME的全稱是“康斯坦茨信息挖掘工具”(Konstanz Information Miner),這是一種開源分析和報(bào)表平臺(tái)。提供了幾個(gè)商業(yè)和開源擴(kuò)展件,以增強(qiáng)其功能。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://www.knime.org 

    43. BIRT

    BIRT的全稱是“商業(yè)智能和報(bào)表工具”。它提供的一種平臺(tái)可用于制作可以嵌入到應(yīng)用程序和網(wǎng)站中的可視化元素及報(bào)表。它是Eclipse社區(qū)的一部分,得到了Actuate、IBM和Innovent Solutions的支持。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://www.eclipse.org/birt/ 

    五、數(shù)據(jù)挖掘

    44.DataMelt

    作為jHepWork的后續(xù)者,DataMelt可以處理數(shù)學(xué)運(yùn)算、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析和數(shù)據(jù)可視化等任務(wù)。它支持Java及相關(guān)的編程語言,包括Jython、Groovy、JRuby和Beanshell。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://jwork.org/dmelt/ 

    45. KEEL

    KEEL的全稱是“基于進(jìn)化學(xué)習(xí)的知識(shí)提取”,這是一種基于Java的機(jī)器學(xué)習(xí)工具,為一系列大數(shù)據(jù)任務(wù)提供了算法。它還有助于評(píng)估算法在處理遞歸、分類、集群、模式挖掘及類似任務(wù)時(shí)的效果。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://keel.es 

    46. Orange

    Orange認(rèn)為數(shù)據(jù)挖掘應(yīng)該是“碩果累累、妙趣橫生”,無論你是有多年的豐富經(jīng)驗(yàn),還是剛開始接觸這個(gè)領(lǐng)域。它提供了可視化編程和Python腳本工具,可用于數(shù)據(jù)可視化和分析。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://orange.biolab.si 

    47. RapidMiner

    RapidMiner聲稱擁有250000多個(gè)用戶,包括貝寶、德勤、電子港灣、思科和大眾。它提供一系列廣泛的開源版和收費(fèi)版,不過要注意:免費(fèi)的開源版只支持CSV格式或Excel格式的數(shù)據(jù)。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: https://rapidminer.com 

    48. Rattle

    Rattle的全稱是“易學(xué)易用的R分析工具”。它為R編程語言提供了一種圖形化界面,簡(jiǎn)化了這些過程:構(gòu)建數(shù)據(jù)的統(tǒng)計(jì)或可視化摘要、構(gòu)建模型以及執(zhí)行數(shù)據(jù)轉(zhuǎn)換。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://rattle.togaware.com 

    49. SPMF

    SPMF現(xiàn)在包括93種算法,可用于順序模式挖掘、關(guān)聯(lián)規(guī)則挖掘、項(xiàng)集挖掘、順序規(guī)則挖掘和集群。它可以獨(dú)立使用,也可以整合到其他基于Java的程序中。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://www.philippe-fournier-viger.com/spmf/ 

    50. Weka

    懷卡托知識(shí)分析環(huán)境(Weka)是一組基于Java的機(jī)器學(xué)習(xí)算法,面向數(shù)據(jù)挖掘。它可以執(zhí)行數(shù)據(jù)預(yù)處理、分類、遞歸、集群、關(guān)聯(lián)規(guī)則和可視化。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://www.cs.waikato.ac.nz/~ml/weka/ 

    六、查詢引擎

    51. Drill

    這個(gè)Apache項(xiàng)目讓用戶可以使用基于SQL的查詢,查詢Hadoop、NoSQL數(shù)據(jù)庫和云存儲(chǔ)服務(wù)。它可用于數(shù)據(jù)挖掘和即席查詢,它支持一系列廣泛的數(shù)據(jù)庫,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亞馬遜S3、Azure Blob Storage、谷歌云存儲(chǔ)和Swift。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://drill.apache.org 

    七、編程語言

    52. R

    R類似S語言和環(huán)境,旨在處理統(tǒng)計(jì)計(jì)算和圖形。它包括一套整合的大數(shù)據(jù)工具,可用于數(shù)據(jù)處理、計(jì)算和可視化。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://www.r-project.org 

    53. ECL

    企業(yè)控制語言(ECL)是開發(fā)人員用來在HPCC平臺(tái)上構(gòu)建大數(shù)據(jù)應(yīng)用程序的語言。HPCC Systems官方網(wǎng)站上有集成開發(fā)環(huán)境(IDE)、教程以及處理該語言的眾多相關(guān)工具。

    支持的操作系統(tǒng):Linux。

    相關(guān)鏈接: http://hpccsystems.com/download/docs/ecl-language-reference 

    八、大數(shù)據(jù)搜索

    54. Lucene

    基于Java的Lucene可以非常迅速地執(zhí)行全文搜索。據(jù)官方網(wǎng)站聲稱,它在現(xiàn)代硬件上每小時(shí)能夠檢索超過150GB的數(shù)據(jù),它含有強(qiáng)大而高效的搜索算法。開發(fā)工作得到了Apache軟件基金會(huì)的贊助。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://lucene.apache.org/core/ 

    55. Solr

    Solr基于Apache Lucene,是一種高度可靠、高度擴(kuò)展的企業(yè)搜索平臺(tái)。知名用戶包括eHarmony、西爾斯、StubHub、Zappos、百思買、AT&T、Instagram、Netflix、彭博社和Travelocity。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://lucene.apache.org/solr/ 

    九、內(nèi)存中技術(shù)

    56. Ignite

    這個(gè)Apache項(xiàng)目自稱是“一種高性能、整合式、分布式的內(nèi)存中平臺(tái),可用于對(duì)大規(guī)模數(shù)據(jù)集執(zhí)行實(shí)時(shí)計(jì)算和處理,速度比傳統(tǒng)的基于磁盤的技術(shù)或閃存技術(shù)高出好幾個(gè)數(shù)量級(jí)。”該平臺(tái)包括數(shù)據(jù)網(wǎng)格、計(jì)算網(wǎng)格、服務(wù)網(wǎng)格、流媒體、Hadoop加速、高級(jí)集群、文件系統(tǒng)、消息傳遞、事件和數(shù)據(jù)結(jié)構(gòu)等功能。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: https://ignite.incubator.apache.org 

    57. Terracotta

    Terracotta聲稱其BigMemory技術(shù)是“世界上數(shù)一數(shù)二的內(nèi)存中數(shù)據(jù)管理平臺(tái)”,聲稱擁有210萬開發(fā)人員,250家企業(yè)組織部署了其軟件。該公司還提供商業(yè)版軟件,另外提供支持、咨詢和培訓(xùn)等服務(wù)。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

    相關(guān)鏈接: http://www.terracotta.org 

    58. Pivotal GemFire/Geode

    今年早些時(shí)候,Pivotal宣布它將開放其大數(shù)據(jù)套件關(guān)鍵組件的源代碼,其中包括GemFire內(nèi)存中NoSQL數(shù)據(jù)庫。它已向Apache軟件基金會(huì)遞交了一項(xiàng)提案,以便在“Geode”的名下管理GemFire數(shù)據(jù)庫的核心引擎。還提供該軟件的商業(yè)版。

    支持的操作系統(tǒng):Windows和Linux。

    相關(guān)鏈接: http://pivotal.io/big-data/pivotal-gemfire 

    59. GridGain

    由Apache Ignite驅(qū)動(dòng)的GridGrain提供內(nèi)存中數(shù)據(jù)結(jié)構(gòu),用于迅速處理大數(shù)據(jù),還提供基于同一技術(shù)的Hadoop加速器。它既有收費(fèi)的企業(yè)版,也有免費(fèi)的社區(qū)版,后者包括免費(fèi)的基本支持。

    支持的操作系統(tǒng):Windows、Linux和OS X。

    相關(guān)鏈接: http://www.gridgain.com 

    60. Infinispan

    作為一個(gè)紅帽JBoss項(xiàng)目,基于Java的Infinispan是一種分布式內(nèi)存中數(shù)據(jù)網(wǎng)格。它可以用作緩存、用作高性能NoSQL數(shù)據(jù)庫,或者為諸多框架添加集群功能。

    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。 

    相關(guān)鏈接: http://www.jboss.org/infinispan.html 

    轉(zhuǎn)載自:   http://os.51cto.com/art/201508/487936_all.htm 譯者: 布加迪

    慧都控件網(wǎng)超級(jí)促銷月,全場(chǎng)6折起,豪禮搶不停>>>

    截止時(shí)間:2016年11月30日

    更多大數(shù)據(jù)與分析相關(guān)行業(yè)資訊、解決方案、案例、教程等請(qǐng)點(diǎn)擊查看>>>

    詳情請(qǐng)咨詢在線客服!

    客服熱線:023-66090381

    掃碼咨詢


    添加微信 立即咨詢

    電話咨詢

    客服熱線
    023-68661681

    TOP
    三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();