大數(shù)據(jù)時(shí)代的數(shù)據(jù)質(zhì)量
無(wú)論數(shù)據(jù)是大大小小,是舊數(shù)據(jù)還是新數(shù)據(jù),傳統(tǒng)數(shù)據(jù)還是現(xiàn)代數(shù)據(jù),無(wú)論是在內(nèi)部還是在云端,對(duì)數(shù)據(jù)質(zhì)量的需求都不會(huì)改變。處于從大數(shù)據(jù)和其他新數(shù)據(jù)資產(chǎn)中獲取業(yè)務(wù)價(jià)值的壓力下的數(shù)據(jù)專(zhuān)業(yè)人員可以利用現(xiàn)有技能,團(tuán)隊(duì)和工具來(lái)確保大數(shù)據(jù)的質(zhì)量。即便如此,僅僅因?yàn)槟梢岳矛F(xiàn)有技術(shù)也不意味著這就是您應(yīng)該做的。我們必須使現(xiàn)有技術(shù)適應(yīng)當(dāng)前時(shí)代的要求。
數(shù)據(jù)專(zhuān)業(yè)人員必須調(diào)整,優(yōu)化和擴(kuò)展數(shù)據(jù)質(zhì)量及相關(guān)數(shù)據(jù)管理最佳實(shí)踐,以適應(yīng)大數(shù)據(jù)和類(lèi)似現(xiàn)代數(shù)據(jù)集的業(yè)務(wù)和技術(shù)要求,才能保護(hù)傳統(tǒng)企業(yè)數(shù)據(jù)的質(zhì)量。 除非組織兩者都做,否則它可能無(wú)法提供所有數(shù)據(jù)資產(chǎn)所期望的那種可信分析,操作報(bào)告,自助服務(wù)功能,業(yè)務(wù)監(jiān)控和治理。
調(diào)整和優(yōu)化使數(shù)據(jù)質(zhì)量任務(wù)與大數(shù)據(jù)相關(guān)
好消息是,組織可以將當(dāng)前的數(shù)據(jù)質(zhì)量和其他數(shù)據(jù)管理能力應(yīng)用于大數(shù)據(jù)。但是組織仍然需要了解并進(jìn)行某些調(diào)整和優(yōu)化。熟悉的數(shù)據(jù)質(zhì)量任務(wù)和工具功能與大數(shù)據(jù)和其他有價(jià)值的新數(shù)據(jù)資產(chǎn)(從Web應(yīng)用程序,社交媒體,數(shù)字供應(yīng)鏈,SaaS應(yīng)用程序和物聯(lián)網(wǎng))高度相關(guān),如下所示。
-
標(biāo)準(zhǔn)化。廣泛的用戶(hù)期望以依賴(lài)基于SQL的工具的自助服務(wù)方式探索和使用大數(shù)據(jù)。數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)化使大數(shù)據(jù)更適合臨時(shí)瀏覽,可視化和查詢(xún)。
-
刪除重復(fù)數(shù)據(jù)。大數(shù)據(jù)平臺(tái)總是以相同的數(shù)據(jù)加載多次而告終。這會(huì)歪曲分析結(jié)果,使度量標(biāo)準(zhǔn)計(jì)算不準(zhǔn)確,并對(duì)運(yùn)營(yíng)流程造成嚴(yán)重破壞。數(shù)據(jù)質(zhì)量的多種匹配和重復(fù)數(shù)據(jù)刪除方法可以補(bǔ)救數(shù)據(jù)的冗余。
-
匹配。數(shù)據(jù)集之間的鏈接可能很難發(fā)現(xiàn),特別是當(dāng)數(shù)據(jù)來(lái)自傳統(tǒng)和現(xiàn)代的各種源系統(tǒng)時(shí)。數(shù)據(jù)質(zhì)量的數(shù)據(jù)匹配功能有助于驗(yàn)證各種數(shù)據(jù)并確定數(shù)據(jù)集之間的依存關(guān)系。
-
分析和監(jiān)視。許多大數(shù)據(jù)源-例如電子商務(wù),Web應(yīng)用程序和物聯(lián)網(wǎng)(IoT)-缺乏一致的標(biāo)準(zhǔn),并且無(wú)法預(yù)知地發(fā)展其架構(gòu)而無(wú)需通知。無(wú)論是在開(kāi)發(fā)中對(duì)大數(shù)據(jù)進(jìn)行概要分析還是在生產(chǎn)中對(duì)其進(jìn)行監(jiān)視,數(shù)據(jù)質(zhì)量解決方案都可以在出現(xiàn)新方案和異常時(shí)揭示它們。數(shù)據(jù)質(zhì)量的業(yè)務(wù)規(guī)則引擎和新的智能算法可以自動(dòng)進(jìn)行大規(guī)模補(bǔ)救。
-
客戶(hù)數(shù)據(jù)。似乎維持有關(guān)客戶(hù)的傳統(tǒng)企業(yè)數(shù)據(jù)的質(zhì)量挑戰(zhàn)還不夠,許多組織現(xiàn)在正在從智能手機(jī)應(yīng)用程序,網(wǎng)站訪(fǎng)問(wèn),第三方數(shù)據(jù)提供商,社交媒體以及不斷增長(zhǎng)的客戶(hù)渠道和接觸點(diǎn)列表中捕獲客戶(hù)數(shù)據(jù)。對(duì)于這些組織,客戶(hù)數(shù)據(jù)是新的大數(shù)據(jù),所有成熟的數(shù)據(jù)質(zhì)量工具均具有針對(duì)客戶(hù)領(lǐng)域設(shè)計(jì)的功能。這些工具中的大多數(shù)最近已更新,以支持大數(shù)據(jù)平臺(tái)和云,以利用它們的速度和規(guī)模。
-
工具自動(dòng)化。大數(shù)據(jù)是如此之大(大小,復(fù)雜性,來(lái)源和用途),以至于數(shù)據(jù)專(zhuān)業(yè)人士和分析人員難以準(zhǔn)確,高效地將工作擴(kuò)展到大數(shù)據(jù)。此外,一些業(yè)務(wù)用戶(hù)想要大規(guī)模地以自助方式探索和分析數(shù)據(jù),發(fā)現(xiàn)質(zhì)量問(wèn)題和機(jī)會(huì),甚至自行修復(fù)數(shù)據(jù)。兩種情況都需要工具自動(dòng)化。
數(shù)據(jù)質(zhì)量工具長(zhǎng)期以來(lái)一直支持業(yè)務(wù)規(guī)則,以自動(dòng)做出一些開(kāi)發(fā)和補(bǔ)救決策。業(yè)務(wù)規(guī)則并沒(méi)有消失-多種類(lèi)型的用戶(hù)仍然發(fā)現(xiàn)它們很有用,許多用戶(hù)擁有龐大的規(guī)則庫(kù),他們無(wú)法放棄。
業(yè)務(wù)規(guī)則與新的自動(dòng)化方法結(jié)合在一起,新的自動(dòng)化方法已經(jīng)出現(xiàn)在各種數(shù)據(jù)管理工具中,包括數(shù)據(jù)質(zhì)量工具。這些通常采用智能算法的形式,這些算法基于人工智能和機(jī)器學(xué)習(xí)來(lái)應(yīng)用預(yù)測(cè)功能,以自動(dòng)確定數(shù)據(jù)狀態(tài),要應(yīng)用的質(zhì)量功能以及如何與開(kāi)發(fā)人員和用戶(hù)協(xié)調(diào)這些動(dòng)作。
Minitab 是質(zhì)量改進(jìn)和統(tǒng)計(jì)學(xué)教育方面領(lǐng)先的軟件和服務(wù)提供商。Minitab 通過(guò)提供一套全面的一流統(tǒng)計(jì)分析和過(guò)程改進(jìn)工具,幫助公司和機(jī)構(gòu)找出趨勢(shì)、解決問(wèn)題和發(fā)掘?qū)氋F見(jiàn)解。
數(shù)據(jù)質(zhì)量必須采用現(xiàn)代數(shù)據(jù)管理的新范式
必須更改數(shù)據(jù)質(zhì)量的實(shí)踐(以及數(shù)據(jù)集成,元數(shù)據(jù)管理和客戶(hù)視圖的相關(guān)實(shí)踐)以遵循不同的范例。請(qǐng)注意,在以下示例中,大多數(shù)范式轉(zhuǎn)換對(duì)于滿(mǎn)足大數(shù)據(jù)分析中的新要求都是必需的。
-
盡早攝取大數(shù)據(jù)。數(shù)據(jù)管理中最強(qiáng)勁的趨勢(shì)之一是更快地存儲(chǔ)輸入數(shù)據(jù),以便對(duì)時(shí)間敏感的流程(如運(yùn)營(yíng)報(bào)告和實(shí)時(shí)分析)盡早訪(fǎng)問(wèn)大數(shù)據(jù)。在這些情況下,持久數(shù)據(jù)優(yōu)先于提高數(shù)據(jù)質(zhì)量。 為了加快數(shù)據(jù)到存儲(chǔ)的持久性,在用戶(hù)和進(jìn)程可以在以后訪(fǎng)問(wèn)或重新利用大數(shù)據(jù)時(shí)進(jìn)行這些改進(jìn)的假設(shè)下,最小化或省略了數(shù)據(jù)的前期轉(zhuǎn)換或聚合。
-
實(shí)時(shí)獲取大數(shù)據(jù)質(zhì)量。這些范式轉(zhuǎn)移的后果是,在讀取或分析時(shí),數(shù)據(jù)聚合和質(zhì)量改進(jìn)正在不斷地進(jìn)行中。這使數(shù)據(jù)質(zhì)量執(zhí)行更接近實(shí)時(shí)。此外,動(dòng)態(tài)大數(shù)據(jù)質(zhì)量功能有時(shí)會(huì)嵌入其他解決方案中,尤其是那些用于數(shù)據(jù)集成,報(bào)告和分析的解決方案。為了實(shí)現(xiàn)嵌入并實(shí)現(xiàn)實(shí)時(shí)性能,現(xiàn)代工具將大多數(shù)數(shù)據(jù)質(zhì)量功能作為服務(wù)提供。幸運(yùn)的是,當(dāng)今的快速CPU,內(nèi)存處理,數(shù)據(jù)流水線(xiàn)和MPP數(shù)據(jù)架構(gòu)提供了在大數(shù)據(jù)規(guī)模上即時(shí)執(zhí)行數(shù)據(jù)質(zhì)量所需的高性能。
-
保留大數(shù)據(jù)的到達(dá)(原始)狀態(tài),以備將來(lái)使用。新建立的具有大數(shù)據(jù)的最佳做法是保留從源頭到達(dá)時(shí)的所有詳細(xì)內(nèi)容,結(jié)構(gòu),條件,甚至異常情況。存儲(chǔ)和保護(hù)大數(shù)據(jù)的到達(dá)狀態(tài)為需要詳細(xì)源信息的用例提供了一個(gè)龐大的數(shù)據(jù)存儲(chǔ)區(qū)(通常是數(shù)據(jù)湖)。 用例包括數(shù)據(jù)探索,數(shù)據(jù)發(fā)現(xiàn)以及基于挖掘,集群,機(jī)器學(xué)習(xí),人工智能以及預(yù)測(cè)算法或模型的面向發(fā)現(xiàn)的分析。
-
并行數(shù)據(jù)質(zhì)量。如今,Hadoop,數(shù)據(jù)湖和其他大數(shù)據(jù)環(huán)境的最佳實(shí)踐是維護(hù)大量的詳細(xì)原始數(shù)據(jù)存儲(chǔ),作為一種源歸檔。用戶(hù)無(wú)需轉(zhuǎn)換源,而是制作需要質(zhì)量改進(jìn)的數(shù)據(jù)子集的副本,并將數(shù)據(jù)質(zhì)量功能應(yīng)用于子集。同樣,數(shù)據(jù)科學(xué)家和分析師創(chuàng)建了所謂的數(shù)據(jù)實(shí)驗(yàn)室和沙箱,以在其中改進(jìn)數(shù)據(jù)以進(jìn)行分析。這種“并行的數(shù)據(jù)質(zhì)量”對(duì)于保留大數(shù)據(jù)的原始價(jià)值,同時(shí)通過(guò)成熟的數(shù)據(jù)質(zhì)量功能創(chuàng)造另一種價(jià)值是必要的。
-
上下文相關(guān)的數(shù)據(jù)質(zhì)量。如今,分析用戶(hù)傾向于對(duì)大數(shù)據(jù)子集進(jìn)行盡可能少的修改,因?yàn)榇蠖鄶?shù)現(xiàn)代分析方法都傾向于與原始的詳細(xì)源數(shù)據(jù)配合使用,并且分析通常依賴(lài)于發(fā)現(xiàn)的異常情況。例如,非標(biāo)準(zhǔn)數(shù)據(jù)可能是欺詐的跡象,而異常值可能是新客戶(hù)群的預(yù)兆。作為另一個(gè)示例,可能需要詳細(xì)的源數(shù)據(jù)來(lái)準(zhǔn)確量化客戶(hù)資料,完整視圖和績(jī)效指標(biāo)。
此外,詳細(xì)的源數(shù)據(jù)存儲(chǔ)可以重復(fù)地用于未來(lái)的分析應(yīng)用程序,這些應(yīng)用程序的數(shù)據(jù)要求無(wú)法事先知道。聚合,標(biāo)準(zhǔn)化和完全清除的數(shù)據(jù)不能像到達(dá)狀態(tài)的數(shù)據(jù)那樣靈活或廣泛地重新利用。
關(guān)于慧都大數(shù)據(jù)分析平臺(tái)
慧都大數(shù)據(jù)分析平臺(tái)「GetInsight®」升級(jí)發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測(cè)、設(shè)備分析及預(yù)測(cè)等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運(yùn)營(yíng)模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級(jí),抓住數(shù)據(jù)經(jīng)濟(jì)的發(fā)展勢(shì)頭,提供管理效能,精準(zhǔn)布局未來(lái)。了解更多,請(qǐng)聯(lián)系在線(xiàn)客服。
慧都大數(shù)據(jù)專(zhuān)業(yè)團(tuán)隊(duì)為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺(tái)搭建,免費(fèi)業(yè)務(wù)咨詢(xún),定制開(kāi)發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。