人道是:“紙上得來終覺淺,絕知此事要躬行”,但對于已經有一定經驗的數據管理者來說,往往需要倒過來做,即“躬行得來終覺窄,絕知此事要系統”,數據質量是數據的生命線,因此數據質量管理對于企業而言是非常重要的。
什么是數據質量管理?
數據質量管理就是指對數據從計劃,獲取,存儲,共享,維護,應用到消亡,這整個生命周期的每一個階段可能引發的數據質量問題,進行識別,測量,監控,預警等一系列管理活動,并通過改善和提高組織的管理水平,使數據質量獲得進一步的提高。數據質量管理的終極目標:通過可靠的數據提升數據在使用中的價值,并最終為企業贏得經濟效益。
我們可以簡單地將數據質量管理理解為一種業務原則,需要將合適的人員、流程和技術進行有機整合,改進數據質量各維度的數據問題,提高數據質量。實際上,企業數據治理的各個關鍵領域和關鍵活動都是圍繞如何提升數據質量,以獲得更大的業務成果或經濟利益而展開的。
數據質量管理是數據治理的重要組成部分,通常用在數據模型設計、數據資產管理、主數據管理、數據倉庫等解決方案中。 數據質量管理可以是反應性的被動管理,也可以是預防性的主動管理。很多公司將數據質量管理的技術與企業管理的流程相結合,用來提升主動管理數據質量的能力,這是一個很好的實踐。
如何做好數據質量管理?
1、對其業務目標
企業的數據治理不是為治理數據而治理數據,背后都是為了支持業務和管理目標的實現。提升數據質量的主要目的是推動業務發展:
(1)將企業的業務目標映射到數據質量管理計劃中來。
(2)讓業務人員深度參與甚至主導數據質量管理,作為該數據主要用戶的業務部門可以更好地定義數據質量參數。
(3)將業務問題定義清楚,只有在業務問題定義清楚之后,才能分析出數據質量問題的根本原因,以及制定出更合理的解決方案。
2、評估數據質量
(1)數據質量評估以數據質量問題對業務的影響分析為指導,清楚的定義出待評估數據的范圍和優先級等重要參數。
(2)采用自上而下和自下而上相結合的策略識別數據中的異常問題。自上而下是以業務目標為出發點,對待評估的數據集進行評估和衡量。自下而上的方法是基于數據概要分析,識別數據問題并將其映射到對業務目標的潛在影響。
(3)形成數據治理評估報告,通過該報告清楚列出數據質量的評估結果,該報告可以在利益相關者,決策者之間分發,從而推動數據質量改進行動。
3、分析根本原因
要做好數據質量管理,應抓住影響數據質量的關鍵因素,設置質量管理點或質量控制點,從數據的源頭抓起,從根本上解決數據質量問題。
對于數據質量問題采用量化管理機制,分等級和優先級進行管理,嚴重的數據質量問題或數據質量事件可以升級為故障,并對故障進行定義、等級劃分、預置處理方案和Review。
4、制定解決方案
企業數據質量的治理需要結合數據問題對業務的影響程度以及數據問題發生的根本原因制定數據質量管理的解決方案。明確數據質量的改進目標,制定數據質量問題處理策略,并立即付諸行動。
5、控制數據質量
數據質量控制是在企業的數據環境中設置一道數據質量的“防火墻”,以預防不良數據的發生。
數據質量“防火墻”就是根據數據問題的根因分析和問題處理策略,在發生數據問題的入口點設置的數據問題測量和監控程序,在數據環境的源頭或者上游進行數據問題的防治,從而避免不良數據向下游傳播并污染后續的存儲,進而影響業務。
6、糾正數據問題
盡管有效數據質量控制可以在很大程度上起到控制和預防不良數據發生的作用,但事實上,再嚴格的質量控制也無法做到100%數據問題防治,甚至有時候嚴格的數據質量控制還會引出其他更多的數據問題。
因此,企業還需要不時進行主動的數據清理和處理補救,以糾正現有的數據問題。