• <menu id="w2i4a"></menu>
  • logo 慧都大數(shù)據(jù)(二)

    文檔首頁>>慧都大數(shù)據(jù)(二)>>IBM數(shù)據(jù)質(zhì)量分析方法和最佳實踐

    IBM數(shù)據(jù)質(zhì)量分析方法和最佳實踐


    1.信息質(zhì)量與你的業(yè)務(wù)息息相關(guān)

    隨著數(shù)據(jù)量日益劇增,企業(yè)決策比以往更需要具備強大的信息管理和掌控能力來協(xié)助解決關(guān)鍵問題。若要提升企業(yè)競爭優(yōu)勢,必須隨時掌握企業(yè)內(nèi)的信息,并透過這些“可信賴”信息獲得新的企業(yè)價值。在現(xiàn)實世界中,很多用戶使用數(shù)據(jù)時都難以取到可信賴信息,給業(yè)務(wù)運營和決策帶來高風(fēng)險。常常讓客戶頭痛的數(shù)據(jù)質(zhì)量的問題呈現(xiàn)多樣化、復(fù)雜化和時效化等多種因素交織、組合在一起,使得信息集成工作推進(jìn)和項目實施變得相當(dāng)艱難,數(shù)據(jù)質(zhì)量問題主要涉及到以下方面:

     

     

    根據(jù)業(yè)界權(quán)威機構(gòu)(TDWI,Gartner)的調(diào)查核實,用戶存在的數(shù)據(jù)質(zhì)量問題的狀況按種類分布如下:

     

    由于信息質(zhì)量問題而造成的損失,使用戶因此付出相當(dāng)之大的代價:

     

    怎樣才能解決信息質(zhì)量問題呢? IBM根據(jù)在全球各行各業(yè)客戶的相關(guān)項目實施經(jīng)驗,提出了要擺脫傳統(tǒng)的分析方法,主張組織或機構(gòu)必須停止僅通過IT手段來解決數(shù)據(jù)質(zhì)量問題。當(dāng)今,業(yè)界中很多富有經(jīng)驗的 CIO就如何有效地解決信息質(zhì)量問題,找到了高效的方法,其底線如下:

    • 業(yè)務(wù)部門也應(yīng)該為數(shù)據(jù)質(zhì)量負(fù)責(zé),不能由IT部門獨自承擔(dān)責(zé)任;
    • 數(shù)據(jù)質(zhì)量是個業(yè)務(wù)問題,業(yè)務(wù)領(lǐng)導(dǎo)層需要負(fù)上識別數(shù)據(jù)質(zhì)量問題的相關(guān)責(zé)任,建立數(shù)據(jù)質(zhì)量最低可接受的標(biāo)準(zhǔn)和啟動促進(jìn)改善數(shù)據(jù)質(zhì)量的舉措;
    • 提升數(shù)據(jù)質(zhì)量需與重大業(yè)務(wù)問題關(guān)聯(lián)一起,如法規(guī)遵循與安全投資,以及關(guān)注更多客戶數(shù)據(jù)外的要點以獲取改善。

     

    2.IBM解決方案

    評估信息資產(chǎn),首要任務(wù)是分析現(xiàn)有企業(yè)數(shù)據(jù)來源,以理解可用信息的結(jié)構(gòu)、內(nèi)容和質(zhì)量。用戶查看描述數(shù)據(jù)的現(xiàn)有文檔可能已經(jīng)過時,且需要驗證以確保數(shù)據(jù)的準(zhǔn)確性、一致性和完整性。為此,IBM提供基于 InfoSphere Information Analyzer(以下簡稱 IA)分析軟件工具的信息質(zhì)量解決方案,幫助用戶了解在給定時間點的數(shù)據(jù)內(nèi)容、結(jié)構(gòu)和總體質(zhì)量,該解決方案提供了用于分析數(shù)據(jù)源和規(guī)則的分析方法的深入見解。

    IA 對多個企業(yè)儲存庫中的源數(shù)據(jù)進(jìn)行概要和分析,它包括一個業(yè)務(wù)驅(qū)動數(shù)據(jù)規(guī)則定義方法,可以進(jìn)行集成數(shù)據(jù)規(guī)則分析,來評估和監(jiān)控信息資產(chǎn)。IA 可以在一個包含 IBM 和非 IBM 信息源的異構(gòu) IT 環(huán)境中工作。它還可以在異構(gòu)信息源中及跨異構(gòu)信息源創(chuàng)建珍貴元數(shù)據(jù),作為數(shù)據(jù)概要流程的一部分,識別新數(shù)據(jù)目標(biāo),以及支持深度分析。評估可以跨整個企業(yè)信息生態(tài)系統(tǒng):各種數(shù)據(jù)庫、文件和企業(yè)應(yīng)用。沒有 IA,這個流程將需要手動完成,耗時,且容易出錯。

    通過IBM解決方案,實現(xiàn)了信息按分析功能進(jìn)行組織,向您提供深入的知識和最佳實踐,用于:

    數(shù)據(jù)分析,包括

    • 應(yīng)用數(shù)據(jù)分析系統(tǒng)功能
    • 在功能內(nèi)應(yīng)用數(shù)據(jù)分析技術(shù)
    • 解釋數(shù)據(jù)分析結(jié)果
    • 基于分析結(jié)果作出決策或執(zhí)行操作

     

    數(shù)據(jù)質(zhì)量分析和監(jiān)視,包括

    • 支持業(yè)務(wù)驅(qū)動的規(guī)則定義和組織
    • 跨數(shù)據(jù)源應(yīng)用規(guī)則并以一致方式進(jìn)行復(fù)用
    • 利用多級別規(guī)則分析來了解更廣泛的數(shù)據(jù)質(zhì)量問題
    • 根據(jù)已定義的基準(zhǔn)/閥值來評估規(guī)則
    • 評估并注釋數(shù)據(jù)質(zhì)量結(jié)果
    • 監(jiān)視數(shù)據(jù)質(zhì)量隨時間變化的趨勢
    • 跨環(huán)境部署規(guī)則
    • 運行特定、預(yù)定或命令執(zhí)行選項

    IA數(shù)據(jù)發(fā)現(xiàn)和分析工具,是基于Web的架構(gòu)方式,對數(shù)據(jù)倉庫的源系統(tǒng)數(shù)據(jù)分析和數(shù)據(jù)倉庫的表屬性級分析,表級分析和關(guān)聯(lián)分析,并可使用規(guī)則來定義和分析數(shù)據(jù)的分布和相關(guān)性。IA工具的架構(gòu)如下:

     

    • IA通過ODBC連接源系統(tǒng),相關(guān)信息存在MDR信息庫中。
    • Information Server Engine按照預(yù)先設(shè)置的規(guī)則和邏輯,執(zhí)行數(shù)據(jù)分析,并產(chǎn)生處理結(jié)果。
    • IA分析的結(jié)果保存在IADB中,用戶需要設(shè)定好對IADB數(shù)據(jù)源的連接使用。
    • Information Server Clients 訪問和查看數(shù)據(jù)質(zhì)量分析結(jié)果,例如:聯(lián)機查詢、各類報告等等。

    IA 提供的主要功能說明如下

    • 列分析

    - 分析和記錄下列屬性;

    - 各個值或基數(shù)的數(shù)量;

    - 空值、“null”值、和非“null”或非空值的數(shù)量;

    - 最小、最大、和平均數(shù)值;

    - 基本數(shù)據(jù)類型,包括不同的日期—時間格式;

    - 最小、最大、和平均長度;

    - 數(shù)值的精度和范圍。

     

    • 主鍵分析與推薦

    主鍵分析針對一個或多個表識別所有候選鍵,幫助您測試一個列或 列組合,以確定是否存在成為主鍵的候選。

    • 外鍵分析

    外鍵分析檢查表之間的內(nèi)容和關(guān)系,有助于識別外鍵、檢查其完整 性、并檢查主鍵和外鍵之間的參照完整性。

    • 交叉值域分析

    交叉值域分析檢查表之間的內(nèi)容和關(guān)系,以確定列之間值的交疊,以及表內(nèi)或表間數(shù)據(jù)的任何冗余(參照上圖)

    • 數(shù)據(jù)監(jiān)控和趨勢分析

    通過基線分析,將來自先前列分析的數(shù)據(jù)(基線)和新的、當(dāng)前的列分析進(jìn)行比較,尋找變化。

    • 數(shù)據(jù)規(guī)則和指標(biāo)

    創(chuàng)建邏輯規(guī)則進(jìn)行數(shù)據(jù)驗證,驗證規(guī)則分析可以延伸數(shù)據(jù)源或跨數(shù)據(jù)源的評估,以定義數(shù)據(jù)之間的關(guān)系。允許以多種方式表達(dá)驗證規(guī)則。它還可以檢查了解數(shù)據(jù)是否符合某些限制:

    包含:一個字段是否包含一個字符串,或符合某個包含某些字符串的表達(dá)式。

    相等:一個字段是否與某些值相等。

    存在:一個源是否擁有任何數(shù)據(jù)。

    模式:源數(shù)據(jù)中的值是否與一個模式字符串匹配。

    出現(xiàn):一個源表中某些值出現(xiàn)的次數(shù)。

    范圍:源數(shù)據(jù)的范圍。范圍可以包含最小值、最大值,或二者皆有。

    參照列:源數(shù)據(jù)對參照列的參照完整性。

    參照清單:數(shù)據(jù)是否符合一個允許值的參照清單。

    類型:源數(shù)據(jù)是否能夠從字符轉(zhuǎn)換為數(shù)字或日期。

    唯一性:源數(shù)據(jù)是否含有重復(fù)值。某些字段(如賬號)必須為唯一。

    這些規(guī)則可以與邏輯操作符結(jié)合,從一個或多個表中(其中,多個列擁有多種特征)找到行。您還可以將這些規(guī)則與邏輯操作符結(jié)合,進(jìn)行復(fù)雜條件評估,并指出雖然自身并沒有出現(xiàn)問題,但是不符合更廣泛的限制或業(yè)務(wù)條件的數(shù)據(jù),隨時間發(fā)展以提供有關(guān)數(shù)據(jù)質(zhì)量趨勢的追蹤分析。

    • 報表

    提供全面分析報告,通過使用圖形顯示和打印報表理解源數(shù)據(jù)質(zhì)量狀況。

    3.業(yè)務(wù)用例

    • 組織需要詳細(xì)了解和理解其數(shù)據(jù)的優(yōu)缺點和內(nèi)在質(zhì)量。獲得這種了解并將其應(yīng)用于各種數(shù)據(jù)相關(guān)活動的能力可以直接影響那些活動的成本和效益。
    • 在很多眾所周知的用例中,戰(zhàn)略性數(shù)據(jù)相關(guān)項目在實現(xiàn)的回報低于預(yù)期的同時還超出計劃的成本和進(jìn)度安排,或由于數(shù)據(jù)質(zhì)量缺陷(低估此缺陷或直到項目的實施階段才知道)完全失敗。
    • 對于這些情況, IA可以用來在項目開始時進(jìn)行關(guān)鍵數(shù)據(jù)質(zhì)量評估以識別和測量現(xiàn)有數(shù)據(jù)缺陷。通過盡早執(zhí)行此評估,組織可以對數(shù)據(jù)執(zhí)行任何必要的更正操作,或防止可能需要避免的任何數(shù)據(jù)問題。
    • 此外, IA可以用來在整個項目生命周期內(nèi)評估并測量數(shù)據(jù)質(zhì)量,方法是允許開發(fā)者在交付正確且預(yù)期的結(jié)果測試其代碼或作業(yè)的準(zhǔn)確性,對關(guān)于功能準(zhǔn)確性和系統(tǒng)準(zhǔn)確性的質(zhì)量保證提供幫助,以及允許業(yè)務(wù)用戶以成功的系統(tǒng)裝入流程作為標(biāo)準(zhǔn)。

    4.給用戶帶來變化

    • 幫助機構(gòu)快速地完成提升數(shù)據(jù)質(zhì)量和數(shù)據(jù)移植的項目,減少由于數(shù)據(jù)質(zhì)量不好而帶來的業(yè)務(wù)風(fēng)險,提高數(shù)據(jù)質(zhì)量的規(guī)范化和數(shù)據(jù)管控水平,以實現(xiàn)幫助機構(gòu)在可信賴信息的基礎(chǔ)上,作出更佳的分析和決策;
    • 分析數(shù)據(jù)的自動化流程管理,無需要手工進(jìn)行處理。相對手工分析而言,減少 50+%分析數(shù)據(jù)的工作量,提高生產(chǎn)效率,加快數(shù)據(jù)整合速度;

    • 具有執(zhí)行大量數(shù)據(jù)分析的能力,解決海量數(shù)據(jù)分析帶來的挑戰(zhàn);
    • 執(zhí)行數(shù)據(jù)分析過程中而發(fā)現(xiàn)的元數(shù)據(jù),可傳遞給 Information Server的其他軟件模塊使用,包括 IBM InfoSphere QualityStage,DataStage and Business Glossary等,而無需從零開始;
    • 提供可獨立于系統(tǒng)界面的各類分析報告,更快地明白和分析數(shù)據(jù)處理結(jié)果,減低用戶開發(fā)工作量;
    • 提供不同安全級別來授權(quán)用戶是否可訪問敏感的數(shù)據(jù),完善的管理機制,有助于用戶提高分析數(shù)據(jù)的管理模式;
    • 不間斷的監(jiān)控數(shù)據(jù)源的變化,及早地發(fā)現(xiàn)問題和解決問題,避免影響不間斷運作的業(yè)務(wù)(如審計、法規(guī)與規(guī)范等),確保數(shù)據(jù)項目“總是”含有可信賴的數(shù)據(jù),由此給業(yè)務(wù)發(fā)展帶來較高的經(jīng)濟(jì)效益。
    • 獲得認(rèn)可和滿意的投資回報率(ROI)。


     

    5.成功實施參考案例

    項目背景

    20xx年,某零售巨頭多年來第一次發(fā)生虧損。該企業(yè)通過一系列的研究與自我反思,認(rèn)為其主要是由以下幾方面原因引起的。

    • 缺乏對庫存商品銷售數(shù)據(jù)的有效洞察和糟糕的商品推銷以及預(yù)測應(yīng)用系統(tǒng)問題,致使其無法及時地調(diào)整出貨品種及推銷策略來改善情況;
    • 過長的生產(chǎn)交易期以及已有的大量生產(chǎn)合同制約,公司歷史遺留的供應(yīng)鏈等問題,致使其便已經(jīng)深刻了解到這些問題,也不能迅速地改變他們的產(chǎn)品線結(jié)構(gòu);
    • 其他諸如PeopleSoft財務(wù)系統(tǒng)問題和當(dāng)前不合理的數(shù)據(jù)倉庫設(shè)計等問題,致使其無法快速高效地整合統(tǒng)一所有資源。

    項目挑戰(zhàn)

    • 信息太雜太亂,不知道哪些是重要的無法及時找到需求點來改善供應(yīng)鏈無法通過客戶行為分析來指導(dǎo)賣場活動無法分析有價值的非結(jié)構(gòu)化數(shù)據(jù);
    • 事實資料版本太多,真相難以提取難以理順客戶、產(chǎn)品以及合作伙伴的關(guān)系缺乏透明統(tǒng)一的數(shù)據(jù)記錄規(guī)則;
    • 缺乏可信任的信息不完備的,過時的,不正確的數(shù)據(jù)泛濫難以理解并管理信息的使用方式;
    • 缺乏數(shù)據(jù)敏捷性難以利用創(chuàng)新的機遇因死板的系統(tǒng)和變化的需求而導(dǎo)致的不斷增加的成本開銷。

    解決方案

    Information Analyzer是IBM推出的一款數(shù)據(jù)質(zhì)量分析工具。它能幫助客戶方便快捷地全面理解企業(yè)數(shù)據(jù)。它提供了數(shù)據(jù)質(zhì)量評估,數(shù)據(jù)質(zhì)量監(jiān)控以及可定制的數(shù)據(jù)規(guī)則設(shè)計和分析功能。這些強大的能力能讓客戶輕易的掌控整個企業(yè)的雜亂數(shù)據(jù),并極大地加速企業(yè)的信息整合工程。因此本產(chǎn)品可以很好地滿足該企業(yè)的需求并加速實現(xiàn)其轉(zhuǎn)型目標(biāo)。

    在IBM為該企業(yè)制定的全套解決方案中,Information Analyzer主要應(yīng)用于以下3個關(guān)鍵階段:

    • 源數(shù)據(jù)分析

    全面分析理解該企業(yè)各個數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)質(zhì)量,找出異常數(shù)據(jù),為隨后的數(shù)據(jù)清洗、轉(zhuǎn)換、整合提供有力的支持。

    • 業(yè)務(wù)洞察及趨勢預(yù)測

    通過對清洗過的歷史數(shù)據(jù)進(jìn)行高效的比對,找出數(shù)據(jù)變化趨勢,分析客戶行為,從而及時調(diào)整相應(yīng)的推銷策略。

    • 各個環(huán)節(jié)之間的數(shù)據(jù)質(zhì)量審計

    自動按需審計各個接口的數(shù)據(jù)質(zhì)量,從而保證最低的臟數(shù)據(jù)率和最高的數(shù)據(jù)兼容性。

    部署架構(gòu)

     

    方案收益

    通過列分析、主/外鍵分析、域交叉分析等手段自動分析您的數(shù)據(jù),快速完成整體分析并生成數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和質(zhì)量報告。

    • 通過基線分析便捷地找出數(shù)據(jù)的變化部分,以此來研究業(yè)務(wù)行為的變化趨勢;
    • 通過定制的數(shù)據(jù)規(guī)則分析,篩選或預(yù)測出有業(yè)務(wù)價值的數(shù)據(jù)形態(tài);
    • 降低數(shù)據(jù)分析校驗環(huán)節(jié)所需要的時間使業(yè)務(wù)決策更及時加速整個數(shù)據(jù)轉(zhuǎn)換,整合過程;
    • 與Information Server其他產(chǎn)品相互協(xié)作,保證數(shù)據(jù)的唯一性,準(zhǔn)確性和完備性。

    更多大數(shù)據(jù)與分析相關(guān)行業(yè)資訊、解決方案、案例、教程等請點擊查看>>>

    詳情請咨詢在線客服!

    客服熱線:023-66090381

    掃碼咨詢


    添加微信 立即咨詢

    電話咨詢

    客服熱線
    023-68661681

    TOP
    三级成人熟女影院,欧美午夜成人精品视频,亚洲国产成人乱色在线观看,色中色成人论坛 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();