• <menu id="w2i4a"></menu>
  • logo Hadoop教程

    文檔首頁(yè)>>Hadoop教程>>Hadoop教程:Teradata Aster在Hadoop和R上的進(jìn)展

    Hadoop教程:Teradata Aster在Hadoop和R上的進(jìn)展


    剛剛宣布放寬計(jì)算及內(nèi)存限制,Aster提供R語(yǔ)言分析能力之后,Teradata迅速出手,宣布由Teradata實(shí)驗(yàn)室收購(gòu)了Revelytix和Hadapt。前者主要致力于Hadoop上的數(shù)據(jù)管理,而Hadapt則是一家專(zhuān)注SQL-on-Hadoop的公司。顯然,Teradata構(gòu)建統(tǒng)一數(shù)據(jù)架構(gòu)方面正在加速奔跑。

    構(gòu)建統(tǒng)一數(shù)據(jù)架構(gòu)

    事實(shí)上,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)通過(guò)傳統(tǒng)的SQL分析和新的分析算法(時(shí)間序列、路徑、圖和文字)正在產(chǎn)生新的價(jià)值。為了最高效率、最優(yōu)存儲(chǔ)、分析和 應(yīng)用的成本,大數(shù)據(jù)的技術(shù)鏈條正在分層。在Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān)孔宇華的分析中,統(tǒng)一數(shù)據(jù)架構(gòu)可以分為三層:Teradata整合數(shù)據(jù)倉(cāng)庫(kù)、以Aster為主的探索分析平臺(tái),以及以Hadoop為主的數(shù)據(jù)平臺(tái) 。

    Teradata Aster在Hadoop和R上的進(jìn)展

    Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān) 孔宇華

    Hadoop自然是為了實(shí)現(xiàn)快速數(shù)據(jù)加載和獲取,數(shù)據(jù)過(guò)濾和預(yù)處理以及在線(xiàn)歸檔;Aster則是數(shù)據(jù)發(fā)現(xiàn)、快速假設(shè)校驗(yàn)和試錯(cuò)、模式監(jiān)測(cè),實(shí)現(xiàn)路徑、圖、時(shí)間序列分析;Teradata數(shù)據(jù)倉(cāng)庫(kù)是實(shí)現(xiàn)戰(zhàn)略智能、預(yù)測(cè)分析和操作型智能。

    這也是業(yè)內(nèi)比較認(rèn)可的技術(shù)分層模式。通過(guò)三個(gè)平臺(tái)的整合,來(lái)滿(mǎn)足更多行業(yè)深入的數(shù)據(jù)分析需求。

    以醫(yī)療行業(yè)為例,要實(shí)現(xiàn)對(duì)病人住院情況進(jìn)行分析,需要在數(shù)據(jù)平臺(tái)上復(fù)查住院治療數(shù)據(jù),并通過(guò)運(yùn)用Aster中的時(shí)間序列路徑函數(shù),聚集函數(shù)以及 Sigma值函數(shù),識(shí)別一個(gè)病人從住院到出院的所有治療程序以及為其提供醫(yī)療服務(wù)的醫(yī)生,進(jìn)而在Teradata中生成時(shí)間、地域、交叉、醫(yī)療效果等可視 化分析圖譜。而通過(guò)對(duì)美國(guó)一家醫(yī)院肺炎患者的相關(guān)分析并指導(dǎo)業(yè)務(wù)改進(jìn),“降低了10%的住院時(shí)間,節(jié)省了5000萬(wàn)美元”。孔宇華表示。

    同樣可分享的案例還有運(yùn)營(yíng)商、銀行、零售、電商、高科技制造等。而回到技術(shù)上,整合數(shù)據(jù)倉(cāng)庫(kù),無(wú)論是在共享相關(guān)性、一致性和整合數(shù)據(jù),還是快速部署新應(yīng)用,形成業(yè)務(wù)視圖等方面都較為成熟。與之相對(duì)應(yīng)的是,最有技術(shù)挑戰(zhàn)的是數(shù)據(jù)平臺(tái)和探索平臺(tái)。

    Hadoop基礎(chǔ)上發(fā)揮Aster優(yōu)勢(shì)

    這兩者在技術(shù)發(fā)展上有重疊,也各有側(cè)重。對(duì)Teradata而言,就是如何有效利用Hadoop,并在其上通過(guò)Aster實(shí)現(xiàn)挖掘和分析。

    在孔宇華看來(lái),Aster和Hadoop同樣是MPP架構(gòu),但在存儲(chǔ),運(yùn)算引擎以及界面方面都有較多的差異,這決定兩者所擅長(zhǎng)任務(wù)的差別(如圖)。

    Teradata Aster在Hadoop和R上的進(jìn)展

    Aster和Hadoop的區(qū)別(點(diǎn)擊看大圖)

    在Hadoop基礎(chǔ)上進(jìn)行創(chuàng)新并不鮮見(jiàn)。但能夠在企業(yè)級(jí)市場(chǎng)擁有如此多引擎的并不多。Aster的優(yōu)勢(shì)就在于此。以Aster SQL-Graph引擎為例,相比Hadoop Giraph或者Google相關(guān)產(chǎn)品,Aster SQL-Graph的優(yōu)勢(shì)在于:

    圖并行架構(gòu)
    通用目標(biāo)的BSP 框架
    無(wú)內(nèi)存綁定,高可擴(kuò)展
    易于開(kāi)發(fā)使用的APIs
    面向頂點(diǎn)編程的API
    構(gòu)建用戶(hù)自定義圖函數(shù)的SDK 和 IDE
    預(yù)定義的圖函數(shù)
    開(kāi)箱即用的函數(shù),適合圖并行執(zhí)行
    和現(xiàn)有平臺(tái)集成能力
    和Aster關(guān)系存儲(chǔ)、文件存儲(chǔ)、外部數(shù)據(jù)源的
    數(shù)據(jù)一起工作
    和其它分析引擎集成 (SQL, SQL-MR)
    其它企業(yè)服務(wù)

    突破開(kāi)源R語(yǔ)言的限制

    不止如此,Aster對(duì)R的支持已經(jīng)進(jìn)入企業(yè)級(jí)標(biāo)準(zhǔn)。這與趨勢(shì)相符。Rexer Analytics咨詢(xún)公司調(diào)查顯示,70%的調(diào)查對(duì)象稱(chēng)他們正在使用R語(yǔ)言。數(shù)據(jù)顯示,從2010年開(kāi)始到2013年,使用R的人群是陡然劇增的。

    但R也有不得不面對(duì)的挑戰(zhàn)。如R分散于各節(jié)點(diǎn)或各服務(wù)器,各節(jié)點(diǎn)或各服務(wù)器單獨(dú)運(yùn)行,盡管有利于行的獨(dú)立分析處理,例如模型評(píng)分,但并不利于分析功能所需要的所有數(shù)據(jù),例如模型搭建等。要突破開(kāi)源R語(yǔ)言的限制,整合Aster和R,實(shí)現(xiàn)企業(yè)級(jí)分析需求,需要更多技術(shù)優(yōu)化:

    • 通過(guò)Aster MPP架構(gòu)運(yùn)行開(kāi)源R語(yǔ)言,實(shí)現(xiàn)高效并行分析
    • 放寬內(nèi)存及數(shù)據(jù)處理限制,保證大規(guī)模并發(fā)
    • 利用Aster Discovery Portfolio功能增強(qiáng)R語(yǔ)言分析能力
    • 通過(guò)整合超過(guò)100項(xiàng) Aster Discovery Portfolio分析功能和 5000多種R工具包

    孔宇華表示:“Teradata Aster R以軟件數(shù)據(jù)包形式,實(shí)現(xiàn)開(kāi)源R語(yǔ)言的大規(guī)模并發(fā),這對(duì)數(shù)據(jù)分析人員而言,更具優(yōu)勢(shì)。”

    從Hadoop中讀取數(shù)據(jù),在Teradata數(shù)據(jù)倉(cāng)庫(kù)或Teradata Aster數(shù)據(jù)庫(kù)中智能地運(yùn)用多種異構(gòu)處理引擎的功能進(jìn)行數(shù)據(jù)分析,形成可視化報(bào)告,進(jìn)而帶動(dòng)業(yè)務(wù)洞察和創(chuàng)新。這個(gè)技術(shù)架構(gòu)已經(jīng)極為流暢,對(duì) Teradata而言,更重要的挑戰(zhàn)是如何盡快在更多行業(yè)落地,驅(qū)動(dòng)數(shù)據(jù)分析變革。

    來(lái)源:CSDN

    掃碼咨詢(xún)


    添加微信 立即咨詢(xún)

    電話(huà)咨詢(xún)

    客服熱線(xiàn)
    023-68661681

    TOP
    三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();