• <menu id="w2i4a"></menu>
  • logo 慧都大數(shù)據(jù)(一)

    文檔首頁(yè)>>慧都大數(shù)據(jù)(一)>>GetInsight組件技術(shù)及功能(三):分布式NoSQL數(shù)據(jù)庫(kù)和文件管理系統(tǒng)

    GetInsight組件技術(shù)及功能(三):分布式NoSQL數(shù)據(jù)庫(kù)和文件管理系統(tǒng)


    GetInsight是慧都自主研發(fā)、應(yīng)用最靈活的大數(shù)據(jù)平臺(tái)。能夠幫助您隨時(shí)找到您想要的數(shù)據(jù),使數(shù)據(jù)得到安全、穩(wěn)定和高效的管理與應(yīng)用。GetInsight是企業(yè)大數(shù)據(jù)解決方案的重要組成部分,除了提供完整的大數(shù)據(jù)功能組件,我們還提供組件自定義搭配,為企業(yè)選擇滿足方案需要的大數(shù)據(jù)功能組件,使您的大數(shù)據(jù)解決方案成本降到最低,從而高品質(zhì)的解決您的大數(shù)據(jù)需求問(wèn)題。

    了解什么是GetInsight,請(qǐng)點(diǎn)擊這里查看GetInsight的基礎(chǔ)介紹>>

    本文主要跟大家介紹GetInsight的分布式NoSQL數(shù)據(jù)庫(kù)和分布式文件管理系統(tǒng)。


    分布式NoSQL數(shù)據(jù)庫(kù)

    分布式NoSQL數(shù)據(jù)庫(kù)是一個(gè)分布式的、面向列的非關(guān)系型數(shù)據(jù)庫(kù)。它彌補(bǔ)了數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的不足,提供近實(shí)時(shí)的響應(yīng)速度,支持實(shí)時(shí)查詢。它對(duì)表的管理是面向列的,支持列獨(dú)立檢索,適合海量數(shù)據(jù)的隨機(jī)訪問(wèn)。它的表每行都有一個(gè)可排序的主鍵和任意多的列,列可以根據(jù)需要?jiǎng)討B(tài)的增加,同一張表中不同的行可以有截然不同的列,并且其中空列(null)并不占用存儲(chǔ)空間。它自動(dòng)生成時(shí)間戳,每個(gè)單元中的數(shù)據(jù)可以有多個(gè)版本,默認(rèn)情況下版本號(hào)是單元格插入時(shí)的時(shí)間戳。最后,與其他非關(guān)系型數(shù)據(jù)庫(kù)不同的是,它提供一個(gè)中間件,幫助開發(fā)工程師能夠像使用JDBC訪問(wèn)關(guān)系型數(shù)據(jù)庫(kù)一樣訪問(wèn)它。


    GetInsight分布式NoSQL數(shù)據(jù)庫(kù)的特性

    分布式數(shù)據(jù)庫(kù)具有如下特性:


    • 每行都有一個(gè)可排序的主鍵和任意多的列,列可以根據(jù)需要?jiǎng)討B(tài)的增加,同一張表中不同的行可以有截然不同的列。
    • 空列(null)并不占用存儲(chǔ)空間,表可以設(shè)計(jì)的非常稀疏。
    • 面向列(族)的存儲(chǔ)和權(quán)限控制,列(族)獨(dú)立檢索,適合海量數(shù)據(jù)的隨機(jī)訪問(wèn)。
    • 每個(gè)單元中的數(shù)據(jù)可以有多個(gè)版本,默認(rèn)情況下版本號(hào)自動(dòng)分配,是單元格插入時(shí)的時(shí)間戳。
    • 數(shù)據(jù)類型只有字符串,沒(méi)有其他類型。
    • 支持Update以及Delete操作。
    • 近實(shí)時(shí)的響應(yīng)速度,支持實(shí)時(shí)查詢。
    • 自動(dòng)生成時(shí)間戳。


    GetInsight分布式NoSQL數(shù)據(jù)庫(kù)的應(yīng)用場(chǎng)景 - 爬蟲后端數(shù)據(jù)庫(kù)

    搜索是一個(gè)定位用戶所關(guān)心的信息的行為:例如,搜索一本書的頁(yè)碼,其中含有用戶想讀的主題;或者網(wǎng)頁(yè),其中含有用戶想找的信息。搜索含有特定詞語(yǔ)的文檔,需要查找索引,該索引提供了特定詞語(yǔ)和包含該詞語(yǔ)的所有文檔的映射。為了能夠搜索,首先必須建立索引。Google和其他搜索引擎正是這么做的。他們的文檔庫(kù)是整個(gè)互聯(lián)網(wǎng);搜索的特定詞語(yǔ)就是搜索框里敲入的任何東西。

    分布式數(shù)據(jù)庫(kù),為這種文檔庫(kù)提供存儲(chǔ),它提供行級(jí)訪問(wèn),所以爬蟲可以插入和更新單個(gè)文檔。搜索索引可以通過(guò)MapReduce計(jì)算高效生成。如果結(jié)果是單個(gè)文檔,可以直接從數(shù)據(jù)庫(kù)取出。

    總體來(lái)說(shuō),數(shù)據(jù)流程分為下面幾個(gè)步驟:


    1. 爬蟲持續(xù)不斷地抓取新頁(yè)面,這些頁(yè)面每頁(yè)一行地存儲(chǔ)到數(shù)據(jù)庫(kù)里。
    2. 數(shù)據(jù)庫(kù)根據(jù)主鍵自動(dòng)生成索引,為網(wǎng)絡(luò)搜索應(yīng)用做準(zhǔn)備。
    3. 用戶發(fā)起網(wǎng)絡(luò)搜索請(qǐng)求。
    4. 網(wǎng)絡(luò)搜索應(yīng)用查詢建立好的索引,或者直接從數(shù)據(jù)庫(kù)直接得到信息。
    5. 搜索結(jié)果提交給用戶。



    分布式文件管理系統(tǒng)

    分布式文件管理系統(tǒng),主要用于存儲(chǔ)和管理文件。它能存存儲(chǔ)大容量數(shù)據(jù)集,且集成硬盤能提供更快的硬盤讀取時(shí)間。它的構(gòu)建思路是:一次寫入,多次讀??;更多用于批量處理,重點(diǎn)是數(shù)據(jù)訪問(wèn)的高吞吐量,且不需要配置昂貴可靠的高端硬件產(chǎn)品。它提供了高可靠性的HA模式,在任意節(jié)點(diǎn)失效時(shí)提供完美的監(jiān)控機(jī)制以及完整的備份恢復(fù)機(jī)制,即當(dāng)部分節(jié)點(diǎn)故障時(shí),它能在不被用戶察覺(jué)的情況下正常運(yùn)行。



    慧都工業(yè)大數(shù)據(jù)分析方案即將精益生產(chǎn)理論體系進(jìn)行了完美的融合和應(yīng)用,并對(duì)大數(shù)據(jù)總體架構(gòu)進(jìn)行了更細(xì)致明確的解讀,提供自主研發(fā)的大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)ETL、數(shù)據(jù)管理及存儲(chǔ)、數(shù)據(jù)建模。如下圖所示:


    立即申請(qǐng)慧都大數(shù)據(jù)demo


    關(guān)于慧都大數(shù)據(jù)分析平臺(tái)

    慧都大數(shù)據(jù)分析平臺(tái)「GetInsight®」升級(jí)發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測(cè)設(shè)備分析及預(yù)測(cè)等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運(yùn)營(yíng)模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級(jí),抓住數(shù)據(jù)經(jīng)濟(jì)的發(fā)展勢(shì)頭,提供管理效能,精準(zhǔn)布局未來(lái)。了解更多,請(qǐng)聯(lián)系在線客服。


    慧都大數(shù)據(jù)專業(yè)團(tuán)隊(duì)為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺(tái)搭建,免費(fèi)業(yè)務(wù)咨詢,定制開發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。

    歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業(yè)的大數(shù)據(jù)團(tuán)隊(duì),為您提供免費(fèi)大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢!

    掃碼咨詢


    添加微信 立即咨詢

    電話咨詢

    客服熱線
    023-68661681

    TOP
    三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();