事前預防即防患于未然,是數據質量管理的上上之策。數據質量管理的事前預防可以從組織人員、標準規范、制度流程三個方面入手。
一、加強組織建設
企業需要建立一種文化,以讓更多的人認識到數據質量的重要性,這離不開組織機制的保障。建立數據質量管理的組織體系,明確角色職責并為每個角色配置適當技能的人員,以及加強對相關人員的培訓和培養,這是保證數據質量的有效方式。
1、組織角色設置
企業在實施數據質量管理時,應考慮在
數據治理整體的組織框架下設置相關的數據質量管理角色,并確定他們在數據質量管理中的職責分工。常見的組織角色及其職責如下。
●數據治理委員會:為數據質量定下基調,制定有關數據基礎架構和流程的決策。數據治理委員會定期開會以新的數據質量目標,推動測量并分析各個業務部門內數據質量的狀態。
●
數據分析師:負責數據問題的根因分析,以便為
數據質量解決方案的制定提供決策依據。
● 數據管理員:負責將數據作為公司資產進行管理,保障數據質量,例如定期數據清理、刪除重復數據或解決其他數據問題。
2、加強人員培訓
數據不準確的主要原因是人為因素,加強對相關人員的培訓,提升人員的數據質量意識,能夠有效減少數據質量問題的發生。
數據質量管理培訓是一個雙贏的過程。
對于員工來說,通過培訓,自己不僅能夠認識到數據質量對業務和管理的重要性,還能學習到數據管理理論、技術、工具等知識和技能,確保上游業務人員知道他們的數據對下游業務和應用程序的影響,讓自己在工作中盡可能不犯錯、少犯錯,提高自己的業務處理效率和質量。
對于企業來說,通過培訓,可以使
數據標準得到宣貫,提升員工的數據思維和對數據的認識水平,建立起企業的數據文化,以支撐企業數據治理的長治久安。
此外,企業應鼓勵員工參加專業資格認證的培訓,這樣能夠讓相關人員更加系統性地學習數據治理知識體系,提升數據管理的專業能力。
二、落實數據標準
數據標準的有效執行和落地是數據質量管理的必要條件。數據標準包括數據模型標準、
主數據和參考數據標準、指標數據標準等。
1、數據模型標準
數據模型標準數對數據模型中的業務定義、業務規則、數據關系、數據質量規則等進行統一定義,以及通過
元數據管理工具對這些標準和規則進行統一管理。在數據質量管理過程中,可以將這些標準映射到業務流程中,并將數據標準作為數據質量評估的依據,實現數據質量的稽查核驗,使得數據的質量校驗有據可依,有法可循。
2、主數據和參考數據標準
主數據和參考數據標準包含主數據和參考數據的分類標準、編碼標準、模型標準,它們是主數據和參考數據在各部門、各業務系統之間進行共享的保障。如果主數據和參考數據標準無法有效執行,就會嚴重影響主數據的質量,帶來主數據的不一致、不完整、不唯一等問題,進而影響業務協同和決策支持。
3、指標數據標準
指標數據是在業務數據基礎上按照一定業務規則加工匯總的數據,指標數據標準主要涵蓋業務屬性、技術屬性、管理屬性三個方面。指標數據標準統一了分析指標的統計口徑、統計維度、計算方法的基礎,不僅是各業務部門共識的基礎,也是
數據倉庫、
BI 項目的主要建設內容,為數據倉庫的數據質量稽查提供依據。
三、制度流程保障
1、數據質量管理流程
數據質量管理是一個閉環管理流程,包括業務需求定義、數據質量測量、根本原因分析、實施改進方案、控制數據質量,如下圖所示。

1、業務需求定義
筆者的一貫主張是:企業不會為了治理數據而治理數據,背后都是為了實現業務和管理的目標,而數據質量管理的目的就是更好地實現業務的期望。
第一將企業的業務目標對應到數據質量管理策略和計劃中。
第二讓業務人員深度參與甚至主導數據質量管理,作為數據主要用戶的業務部門可以更好地定義數據質量參數。
第三將業務問題定義清楚,這樣才能分析出數據數量問題的根本原因,進而制定出更合理的解決方案。
2、數據質量測量
數據質量測量是圍繞業務需求設計數據評估維度和指標,利用數據質量管理工具完成對相關數據源的數據質量情況的評估,并根據測量結果歸類數據問題、分析引起數據問題的原因。
第一數據質量測量以數據質量問題對業務的影響分析為指導,清晰定義出待測量數據的范圍和優先級等重要參數。
第二采用自上而下和自下而上相結合的策略識別數據中的異常問題。自上而下的方法是以業務目標為出發點,對待測量的數據源進行評估和衡量;自下而上的方法是基于數據概要分析,識別數據源問題并將其映射到對業務目標的潛在影響上。
第三形成數據治理評估報告,通過該報告清楚列出數據質量的測量結果。
3、根本原因分析
產生數據質量問題的原因有很多,但是有些原因僅是表象,并不是根本原因。要做好數據質量管理,應抓住影響數據質量的關鍵因素,設置質量管理點或質量控制點,從數據的源頭抓起,從根本上解決數據質量問題。
4、實施改進方案
沒有一種通用的方案來保證企業每個業務每類數據的準確性和完整性。企業需要結合產生數據問題的根本原因以及數據對業務的影響程度,來定義數據質量規則和數據質量指標,形成一個符合企業業務需求的、獨一無二的數據質量改進方案,并立即付諸行動。
5、控制數據質量
數據質量控制是在企業的數據環境中設置一道數據質量“防火墻”,以預防不良數據的產生。數據質量“防火墻”就是根據數據問題的根因分析和問題處理策略,在發生數據問題的入口設置的數據問題測量和監控程序,在數據環境的源頭或者上游進行的數據問題防治,從而避免不良數據向下游傳播并污染后續的存儲,進而影響業務。
(部分內容來源網絡,如有侵權請聯系刪除)