Hadoop教程:SQL Server+Hadoop變身大數(shù)據(jù)解決方案
在數(shù)據(jù)庫市場中,微軟的SQL Server是最受關(guān)注的產(chǎn)品之一。在數(shù)據(jù)庫知識網(wǎng)站DB-Engines每月公布的數(shù)據(jù)庫流行度排行榜中,SQL Server幾乎穩(wěn)占第二名的位置。但從這個榜單每月的變化中也可以看出,大量NoSQL數(shù)據(jù)庫的排名不斷上升,已經(jīng)開始威脅到傳統(tǒng)數(shù)據(jù)庫的地位。
“以不變應(yīng)萬變”不再是大數(shù)據(jù)時代應(yīng)有的策略,老牌數(shù)據(jù)庫廠商在保持傳統(tǒng)市場領(lǐng)先的基礎(chǔ)上,不斷拓展新市場,微軟就是其中的一個代表。微軟的改變最早是為了向Bing提供高質(zhì)量的搜索結(jié)果,這與Google的情況類似,互聯(lián)網(wǎng)行業(yè)總是最早面臨大數(shù)據(jù)挑戰(zhàn)的。
微軟端到端的大數(shù)據(jù)解決方案可以總結(jié)為SQL Server、Windows Azure和Hadoop,用微軟自己的話說就是數(shù)據(jù)管理、數(shù)據(jù)擴充和洞察力。下面筆者將按照自下而上的順序盤點微軟大數(shù)據(jù)解決方案的具體內(nèi)容:
一、數(shù)據(jù)管理
在微軟的大數(shù)據(jù)解決方案中,數(shù)據(jù)管理是最底層和最基礎(chǔ)的一環(huán)。靈活的數(shù)據(jù)管理層,可以支持所有數(shù)據(jù)類型,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的靜態(tài)或動態(tài)數(shù)據(jù)。在數(shù)據(jù)管理層中主要包括三款產(chǎn)品:SQL Server、SQL Server并行數(shù)據(jù)倉庫和Hadoop on Windows。
針對不同的數(shù)據(jù)類型,微軟提供了不同的解決方案。具體來說,針對結(jié)構(gòu)化數(shù)據(jù)可以使用SQL Server和SQL Server并行數(shù)據(jù)倉庫處理;非結(jié)構(gòu)化數(shù)據(jù)可以使用Windows Azure和Windows Server上基于Hadoop的發(fā)行版本處理;而流數(shù)據(jù)可以使用SQL Server StreamInsight管理,并提供接近實時的分析。
1、SQL Server。去年發(fā)布的SQL Server 2012針對大數(shù)據(jù)做了很多改進,其中最重要的就是全面支持Hadoop,這也是SQL Server 2012與SQL Server 2008最重要的區(qū)別之一。今年年底即將正式發(fā)布的SQL Server 2014中,SQL Server進一步針對大數(shù)據(jù)加入內(nèi)存數(shù)據(jù)庫功能,從硬件角度加速數(shù)據(jù)的處理,也被看為是針對大數(shù)據(jù)的改進。
2、SQL Server并行數(shù)據(jù)倉庫。并行數(shù)據(jù)倉庫(Parallel Data Warehouse Appliance,簡稱PDW)是在SQL Server 2008 R2中推出的新產(chǎn)品,目前已經(jīng)成為微軟主要的數(shù)據(jù)倉庫產(chǎn)品,并將于今年發(fā)布基于SQL Server 2012的新款并行數(shù)據(jù)倉庫一體機。SQL Server并行數(shù)據(jù)倉庫采取的是大規(guī)模并行處理(MPP)架構(gòu),與傳統(tǒng)的單機版SQL Server存在著根本上的不同,它將多種先進的數(shù)據(jù)存儲與處理技術(shù)結(jié)合為一體,是微軟大數(shù)據(jù)戰(zhàn)略的重要組成部分。
3、Hadoop on Windows。微軟同時在Windows Azure平臺和Windows Server上提供Hadoop,把Hadoop的高性能、高可擴展與微軟產(chǎn)品易用、易部署的傳統(tǒng)優(yōu)勢融合到一起,形成完整的大數(shù)據(jù)解決方案。微軟大數(shù)據(jù)解決方案還通過簡單的部署以及與Active Directory和System Center等組件的集成,為Hadoop提供了Windows的易用性和可管理性。憑借Windows Azure上基于Hadoop的服務(wù),微軟為其大數(shù)據(jù)解決方案在云端提供了靈活性。
二、數(shù)據(jù)擴充
社交媒體的興起給企業(yè)帶來獨特的計劃,以獲取更多商業(yè)價值,最終實現(xiàn)競爭優(yōu)勢。微軟大數(shù)據(jù)解決方案將數(shù)據(jù)和模型與公用的數(shù)據(jù)和服務(wù)(包括Twitter、Facebook和LinkedIn等社交媒體網(wǎng)站)相結(jié)合,從而能夠?qū)崿F(xiàn)突破性的發(fā)現(xiàn)。在數(shù)據(jù)擴充層,微軟提供的最重要的平臺是Windows Azure Marketplace。
Windows Azure Marketplace是一個在線市場,用于購買和銷售完成的軟件即服務(wù)(SaaS)應(yīng)用程序和高級數(shù)據(jù)集。Windows Azure Marketplace可以幫助將尋求基于云的創(chuàng)新解決方案的公司與開發(fā)了準(zhǔn)備使用的解決方案的合作伙伴連接到一起,使客戶能夠使用Windows Azure Marketplace上的應(yīng)用程序和挖掘算法來發(fā)現(xiàn)隱藏的模式。
通過Windows Azure Marketplace進行共享和協(xié)作:微軟大數(shù)據(jù)解決方案可讓客戶通過Windows Azure Marketplace共享數(shù)據(jù)并發(fā)現(xiàn)新的洞察力,Windows Azure Marketplace可通過開放數(shù)據(jù)協(xié)議(OData)展露數(shù)百種來自微軟和第三方的應(yīng)用程序和數(shù)據(jù)挖掘算法。
與社交媒體集成:微軟大數(shù)據(jù)解決方案可讓客戶通過來自社交媒體網(wǎng)站(例如Twitter和Facebook)的公用數(shù)據(jù)來擴展他們的分析。微軟的一款代號為“Social Analytics”的基于云的項目允許企業(yè)將社交媒體信息與業(yè)務(wù)應(yīng)用程序相集成。
借助Hadoop執(zhí)行高級分析:微軟大數(shù)據(jù)解決方案支持傳統(tǒng)的BI以及高級分析(例如數(shù)據(jù)挖掘和圖形挖掘),從而可讓客戶從他們所有的數(shù)據(jù)中發(fā)現(xiàn)新價值。Hive ODBC Driver可讓客戶使用SQL Server數(shù)據(jù)挖掘工具執(zhí)行預(yù)測分析。微軟還將支持Mahout等其他高級分析工具,以及使用C++、C#、Python、Ruby和Pearl編寫的挖掘算法。
三、洞察力
企業(yè)收集、存儲和處理數(shù)據(jù),最終目的還是要獲得洞察力。企業(yè)需要能夠輕松處理和分析PB 級的新數(shù)據(jù),而不用擔(dān)心建立復(fù)雜的分布式存儲和計算集群,并且要能夠隨著需求的增加實現(xiàn)縮放。微軟大數(shù)據(jù)解決方案可讓客戶用熟悉的BI工具從他們的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中獲得可執(zhí)行的洞察力。
從洞察力的層面,微軟提供了兩款主要的產(chǎn)品,分別是Office Powerpivot和SharePoint Power View。PowerPivot和Power View工具,能夠幫助企業(yè)快速的從數(shù)據(jù)中發(fā)現(xiàn)信息,從而解決業(yè)務(wù)問題。其中,PowerPivot可以用來設(shè)計數(shù)據(jù)模型,Power View可以用來設(shè)計可視化報表,報表還可以發(fā)布到SharePoint平臺上。最終用戶能夠根據(jù)自己業(yè)務(wù)視角及要求設(shè)計數(shù)據(jù)模型并展示出來,充分利用數(shù)據(jù)和前臺界面的力量,滿足業(yè)務(wù)需求。
使用熟悉的工具分析Hadoop數(shù)據(jù):微軟可讓用戶利用Excel的Hive組件在熟悉的Excel環(huán)境中與Hadoop中的非結(jié)構(gòu)化數(shù)據(jù)進行交互并加以分析。
通過任何數(shù)據(jù)獲得深入的洞察力:企業(yè)可以用熟悉的BI工具(例如Microsoft SQL Server Analysis Services (SSAS)、PowerPivot和Power View)通過Hive Open Database Connectivity (ODBC) Driver來分析Hadoop中的非結(jié)構(gòu)化數(shù)據(jù)。企業(yè)還可以用SQL Server 2012上的PowerPivot和Power View對關(guān)系型數(shù)據(jù)采用自助服務(wù)的 BI 產(chǎn)品。
通過簡化的編程驅(qū)動洞察力:微軟通過與.NET和新的JavaScript庫集成簡化了Hadoop的編程。開發(fā)人員可以在JavaScript中使用新的JavaScript庫來輕松編寫MapReduce程序,然后通過簡單的瀏覽器來部署他們的JavaScript代碼。
小結(jié)
微軟的大數(shù)據(jù)解決方案從本質(zhì)上看還是原有SQL Server和Office產(chǎn)品的升級,最大的亮點是在SQL Server、Windows Server和Windows Azure中都集成了Hadoop功能,使Hadoop成為連接這三者之間的橋梁。微軟的大數(shù)據(jù)解決方案產(chǎn)品豐富、功能齊全,但相對缺乏創(chuàng)新。在用戶看來,微軟最大的特色就是產(chǎn)品的易用性和界面的友好性,這也是用戶選擇微軟的主要原因。
【IT168】