<menu id="w2i4a"></menu>

大數(shù)據(jù)干貨（二）

文檔首頁(yè)>>大數(shù)據(jù)干貨（二）>>干貨丨23個(gè)適合Java開(kāi)發(fā)者的大數(shù)據(jù)工具和框架

干貨丨23個(gè)適合Java開(kāi)發(fā)者的大數(shù)據(jù)工具和框架

目前，編程人員面對(duì)的最大挑戰(zhàn)就是復(fù)雜性，硬件越來(lái)越復(fù)雜，OS越來(lái)越復(fù)雜，編程語(yǔ)言和API越來(lái)越復(fù)雜，我們構(gòu)建的應(yīng)用也越來(lái)越復(fù)雜。根據(jù)外媒的一項(xiàng)調(diào)查報(bào)告，以下列出了Java程序員在過(guò)去12個(gè)月內(nèi)一直使用的一些工具或框架，或許會(huì)對(duì)你有意義。

1、MongoDB--最受歡迎的，跨平臺(tái)的，面向文檔的數(shù)據(jù)庫(kù)。

MongoDB是一個(gè)基于分布式文件存儲(chǔ)的數(shù)據(jù)庫(kù)，使用C++語(yǔ)言編寫(xiě)。旨在為Web應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲(chǔ)解決方案。應(yīng)用性能高低依賴于數(shù)據(jù)庫(kù)性能，MongoDB則是非關(guān)系數(shù)據(jù)庫(kù)中功能最豐富，最像關(guān)系數(shù)據(jù)庫(kù)的，隨著MongDB 3.4版本發(fā)布，其應(yīng)用場(chǎng)景適用能力得到了進(jìn)一步拓展。

MongoDB的核心優(yōu)勢(shì)就是靈活的文檔模型、高可用復(fù)制集、可擴(kuò)展分片集群。

2、Elasticsearch --為云構(gòu)建的分布式RESTful搜索引擎。

ElasticSearch是基于Lucene的搜索服務(wù)器。它提供了分布式多用戶能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java開(kāi)發(fā)的，并作為Apache許可條款下的開(kāi)放源碼發(fā)布，是比較流行的企業(yè)級(jí)搜索引擎。

3、Cassandra--開(kāi)源分布式數(shù)據(jù)庫(kù)管理系統(tǒng)，最初是由Facebook開(kāi)發(fā)的，旨在處理許多商品服務(wù)器上的大量數(shù)據(jù)，提供高可用性，沒(méi)有單點(diǎn)故障。

Apache Cassandra是一套開(kāi)源分布式NoSQL數(shù)據(jù)庫(kù)系統(tǒng)。集Google BigTable的數(shù)據(jù)模型與Amazon Dynamo的完全分布式架構(gòu)于一身。于2008開(kāi)源，此后，由于Cassandra良好的可擴(kuò)展性，被Digg、Twitter等Web 2.0網(wǎng)站所采納，成為了一種流行的分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方案。

4、Redis --開(kāi)源(BSD許可)內(nèi)存數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)，用作數(shù)據(jù)庫(kù)，緩存和消息代理。

Redis是一個(gè)開(kāi)源的使用ANSI C語(yǔ)言編寫(xiě)的、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫(kù)，并提供多種語(yǔ)言的API。

5、Hazelcast --基于Java的開(kāi)源內(nèi)存數(shù)據(jù)網(wǎng)格。

Hazelcast 是一種內(nèi)存數(shù)據(jù)網(wǎng)格 in-memory data grid，提供Java程序員關(guān)鍵任務(wù)交易和萬(wàn)億級(jí)內(nèi)存應(yīng)用。雖然Hazelcast沒(méi)有所謂的‘Master’，但是仍然有一個(gè)Leader節(jié)點(diǎn)(the oldest member)，這個(gè)概念與ZooKeeper中的Leader類似，但是實(shí)現(xiàn)原理卻完全不同。同時(shí)，Hazelcast中的數(shù)據(jù)是分布式的，每一個(gè)member持有部分?jǐn)?shù)據(jù)和相應(yīng)的backup數(shù)據(jù)，這點(diǎn)也與ZooKeeper不同。

6、EHCache--廣泛使用的開(kāi)源Java分布式緩存。主要面向通用緩存、Java EE和輕量級(jí)容器。

EhCache 是一個(gè)純Java的進(jìn)程內(nèi)緩存框架，具有快速、精干等特點(diǎn)，是Hibernate中默認(rèn)的CacheProvider。主要特性有：快速簡(jiǎn)單，具有多種緩存策略;緩存數(shù)據(jù)有兩級(jí)，內(nèi)存和磁盤(pán)，因此無(wú)需擔(dān)心容量問(wèn)題;緩存數(shù)據(jù)會(huì)在虛擬機(jī)重啟的過(guò)程中寫(xiě)入磁盤(pán);可以通過(guò)RMI、可插入API等方式進(jìn)行分布式緩存;具有緩存和緩存管理器的偵聽(tīng)接口;支持多緩存管理器實(shí)例，以及一個(gè)實(shí)例的多個(gè)緩存區(qū)域;提供Hibernate的緩存實(shí)現(xiàn)。

7、Hadoop --用Java編寫(xiě)的開(kāi)源軟件框架，用于分布式存儲(chǔ)，并對(duì)非常大的數(shù)據(jù)集進(jìn)行分布式處理。

用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開(kāi)發(fā)分布式程序。充分利用集群進(jìn)行高速運(yùn)算和存儲(chǔ)。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System)，簡(jiǎn)稱HDFS。Hadoop的框架最核心的設(shè)計(jì)就是：HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ)，MapReduce則為海量的數(shù)據(jù)提供了計(jì)算。

8、Solr --開(kāi)源企業(yè)搜索平臺(tái)，用Java編寫(xiě)，來(lái)自Apache Lucene項(xiàng)目。

Solr是一個(gè)獨(dú)立的企業(yè)級(jí)搜索應(yīng)用服務(wù)器，它對(duì)外提供類似于Web-service的API接口。用戶可以通過(guò)http請(qǐng)求，向搜索引擎服務(wù)器提交一定格式的XML文件，生成索引;也可以通過(guò)Http Get操作提出查找請(qǐng)求，并得到XML格式的返回結(jié)果。

9、Spark --Apache Software Foundation中最活躍的項(xiàng)目，是一個(gè)開(kāi)源集群計(jì)算框架。

Spark 是一種與 Hadoop 相似的開(kāi)源集群計(jì)算環(huán)境，但是兩者之間還存在一些不同之處，這些不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越，換句話說(shuō)，Spark 啟用了內(nèi)存分布數(shù)據(jù)集，除了能夠提供交互式查詢外，它還可以優(yōu)化迭代工作負(fù)載。

Spark 是在 Scala 語(yǔ)言中實(shí)現(xiàn)的，它將 Scala 用作其應(yīng)用程序框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對(duì)象一樣輕松地操作分布式數(shù)據(jù)集。

10、Memcached --通用分布式內(nèi)存緩存系統(tǒng)。

Memcached是一套分布式快取系統(tǒng)，當(dāng)初是Danga Interactive為了LiveJournal所發(fā)展的，但被許多軟件(如MediaWiki)所使用。Memcached作為高速運(yùn)行的分布式緩存服務(wù)器，具有以下的特點(diǎn)：協(xié)議簡(jiǎn)單，基于libevent的事件處理，內(nèi)置內(nèi)存存儲(chǔ)方式。

11、Apache Hive --在Hadoop之上提供類似SQL的層。

Hive是一個(gè)基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)。通過(guò)hive，可以方便地進(jìn)行ETL工作。hive定義了一個(gè)類似于SQL的查詢語(yǔ)言，能夠?qū)⒂脩艟帉?xiě)的SQL轉(zhuǎn)化為相應(yīng)的Mapreduce程序基于Hadoop執(zhí)行。目前，已經(jīng)發(fā)布了Apache Hive 2.1.1 版本。

12、Apache Kafka --最初是由LinkedIn開(kāi)發(fā)的高吞吐量，分布式訂閱消息系統(tǒng)。

Apache Kafka是一個(gè)開(kāi)源消息系統(tǒng)項(xiàng)目，由Scala寫(xiě)成。該項(xiàng)目的目標(biāo)是為處理實(shí)時(shí)數(shù)據(jù)提供一個(gè)統(tǒng)一、高通量、低等待的平臺(tái)。Kafka維護(hù)按類區(qū)分的消息，稱為主題(topic)。生產(chǎn)者(producer)向kafka的主題發(fā)布消息，消費(fèi)者(consumer)向主題注冊(cè)，并且接收發(fā)布到這些主題的消息。

13、Akka --用于在JVM上構(gòu)建高并發(fā)，分布式和彈性消息驅(qū)動(dòng)應(yīng)用程序的工具包。

Akka 是一個(gè)用 Scala 編寫(xiě)的庫(kù)，用于簡(jiǎn)化編寫(xiě)容錯(cuò)的、高可伸縮性的 Java 和 Scala 的 Actor 模型應(yīng)用。它已經(jīng)成功運(yùn)用在電信行業(yè)，系統(tǒng)幾乎不會(huì)宕機(jī)。

14、HBase --開(kāi)放源代碼，非關(guān)系型，分布式數(shù)據(jù)庫(kù)，采用Google的BigTable建模，用Java編寫(xiě)，并在HDFS上運(yùn)行。

與FUJITSU Cliq等商用大數(shù)據(jù)產(chǎn)品不同，HBase是Google Bigtable的開(kāi)源實(shí)現(xiàn)，類似Google Bigtable利用GFS作為其文件存儲(chǔ)系統(tǒng)，HBase利用Hadoop HDFS作為其文件存儲(chǔ)系統(tǒng);Google運(yùn)行MapReduce來(lái)處理Bigtable中的海量數(shù)據(jù)，HBase同樣利用Hadoop MapReduce來(lái)處理HBase中的海量數(shù)據(jù);Google Bigtable利用 Chubby作為協(xié)同服務(wù)，HBase利用Zookeeper作為對(duì)應(yīng)。

15、Neo4j --在Java中實(shí)現(xiàn)的開(kāi)源圖形數(shù)據(jù)庫(kù)。

Neo4j是一個(gè)高性能的NOSQL圖形數(shù)據(jù)庫(kù)，它將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在網(wǎng)絡(luò)上而不是表中。它是一個(gè)嵌入式的、基于磁盤(pán)的、具備完全事務(wù)特性的Java持久化引擎。

16、CouchBase --開(kāi)源分布式的NoSQL面向文檔數(shù)據(jù)庫(kù)，針對(duì)交互式應(yīng)用程序進(jìn)行了優(yōu)化。

如果以前沒(méi)有NoSQL的使用經(jīng)驗(yàn)，那么理解couchbase的時(shí)候關(guān)鍵有兩點(diǎn)：延后寫(xiě)入和松散存儲(chǔ)。該產(chǎn)品基于Apache CouchDB，并整合了GeoCouch(一個(gè)基于Erlang、緊密集成的地理空間索引系統(tǒng)，可支持LBS應(yīng)用)。

17、Apache Storm--開(kāi)源分布式實(shí)時(shí)計(jì)算系統(tǒng)。

Apache Storm 是一個(gè)能近實(shí)時(shí)地在數(shù)據(jù)之上運(yùn)行用戶代碼片段的流式數(shù)據(jù)處理框架。它實(shí)際上是一系列連在一起的管道。通常用于簡(jiǎn)單的分析任務(wù) ，諸如計(jì)算，以及清洗，使其常規(guī)化，并且準(zhǔn)備攝入用于長(zhǎng)期存儲(chǔ)的數(shù)據(jù)。

18、CouchDB--開(kāi)源的面向文檔的NoSQL數(shù)據(jù)庫(kù)，使用JSON存儲(chǔ)數(shù)據(jù)。

CouchDB 是一個(gè)開(kāi)源的面向文檔的數(shù)據(jù)庫(kù)管理系統(tǒng)，可以通過(guò) RESTful JavaScript Object Notation (JSON) API 訪問(wèn)。CouchDB落實(shí)到最底層的數(shù)據(jù)結(jié)構(gòu)就是兩類B+Tree 。

19、Oracle Coherence--內(nèi)存數(shù)據(jù)網(wǎng)格解決方案，通過(guò)提供對(duì)常用數(shù)據(jù)的快速訪問(wèn)，使企業(yè)能夠可預(yù)測(cè)地?cái)U(kuò)展關(guān)鍵任務(wù)應(yīng)用程序。

簡(jiǎn)單來(lái)說(shuō)，Coherence僅支持Java，.NET和C++ API三個(gè)版本，這三個(gè)都是面向?qū)ο蟮恼Z(yǔ)言，這也說(shuō)明Coherence和應(yīng)用開(kāi)發(fā)的親和性。

20、Titan--可擴(kuò)展的圖形數(shù)據(jù)庫(kù)，優(yōu)化用于存儲(chǔ)和查詢包含分布在多機(jī)集群上的數(shù)百億個(gè)頂點(diǎn)和邊的圖形。

21、Amazon DynamoDB--快速，靈活的全面管理NoSQL的數(shù)據(jù)庫(kù)服務(wù)，適用于任何規(guī)模的要求一致性，單位毫秒延遲的應(yīng)用程序。

Amazon DynamoDB 是一種完全托管的 NoSQL 數(shù)據(jù)庫(kù)服務(wù)，提供快速而可預(yù)測(cè)的性能，能夠?qū)崿F(xiàn)無(wú)縫擴(kuò)展。

22、Amazon Kinesis--AWS上的實(shí)時(shí)流式傳輸數(shù)據(jù)平臺(tái)。

Web 應(yīng)用程序、移動(dòng)設(shè)備、可穿戴設(shè)備、行業(yè)傳感器和許多軟件應(yīng)用程序和服務(wù)都可能生成大量的流數(shù)據(jù)(有時(shí)達(dá)到每小時(shí)數(shù) TB)，需要對(duì)其進(jìn)行連續(xù)地收集、存儲(chǔ)和處理。Amazon Kinesis 就是針對(duì)這種需求產(chǎn)生的。

23、Datomic--完全事務(wù)，云就緒，分布式數(shù)據(jù)庫(kù)，用Clojure編寫(xiě)。

Datomic 是一個(gè)靈活的、基于時(shí)間因子的數(shù)據(jù)庫(kù)，支持聯(lián)合查詢，具有彈性的可擴(kuò)展性以及支持ACID事務(wù)性。Datomic 提供高可用的、分布式存儲(chǔ)服務(wù)。

編輯推薦：

誰(shuí)也別攔我！今天我要曝光JavaScript 資源大全中文版！
看了記得回來(lái)贊我——Java資源大全中文版
基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)Hive 基礎(chǔ)知識(shí)
Python 資源大全中文版
前端必備！十大熱門(mén)的 JavaScript 框架和庫(kù)

慧都科技版權(quán)所有 Copyright 2003-2024 渝ICP備12000582號(hào)-13 渝公網(wǎng)安備 50010702500608號(hào) 本站由提供CDN加速/云存儲(chǔ)服務(wù)

掃碼咨詢

添加微信立即咨詢

電話咨詢

客服熱線
023-68661681

TOP

三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();