一、什么是數據質量與數據質量管理
首先來了解什么是數據質量,數據質量其實是一個評估規則維度,提供了一種測量與管理信息和數據的方式。包含以下評估維度:
1、一致性
數據實體不一致,例如:命名及含義不一致、數據編碼不一致、生命周期不一致、分類層次不一致。多源數據的數據模型不一致,例如:數據結構不一致、命名不一致、約束規則不一致。相同的數據有多個副本的情況下的數據不一致、數據內容沖突的問題。
2、完整性
不完整的數據所能借鑒的價值就會大大降低,也是數據質量問題最為基礎和常見的一類問題。數據條目不完整,例如:數據記錄丟失或不可用;數據屬性不完整,例如:數據屬性空值;數據完整性問題包括:模型設計不完整,例如:參照不完整、唯一性約束不完整。
3、唯一性
重復數據是數據治理需要解決的最基本的數據問題,它是導致業務無法協同、流程無法追溯的重要因素。唯一性用于識別和度量重復數據、冗余數據。
4、準確性
不準確的數據會造成有缺陷的方法和糟糕的決策,導致嚴重的問題。準確性是用于分析和識別哪些是不準確的或無效的數據。
5、真實性
真實可靠的原始統計數據是企業統計工作的靈魂,是一切管理工作的基礎,是經營者進行正確經營決策必不可少的第一手資料,數據必須真實準確的反映客觀的實體存在或真實的業務。
6、及時性
及時性是指能否在需要的時候獲到數據,數據的及時性是影響業務處理和管理效率的關鍵指標,與企業的數據處理速度及效率有直接的關系。
7、關聯性
數據關聯性問題是指存在數據關聯的數據關系缺失或錯誤,存在數據關聯性問題,會直接影響數據分析的結果,進而影響管理決策。例如:相關系數、函數關系、索引關系、主外鍵關系等。
數據質量管理,是指對數據整個生命周期(計劃、采集、存儲、共享、維護、應用、銷毀)的每個階段里可能引發的各類數據質量問題,進行監控、度量、識別、預警等一系列管理活動。數據質量管理是循環管理過程,通過改善和提高組織的管理水平使得數據質量獲得進一步提高。數據質量管理的最終目標是通過可靠的數據提升數據在使用中的價值,為企業贏得經濟效益。
二、如何提升數據質量
1、事前定義數據的監控規則
梳理對應指標、確定對象(字段、單表、多表)、通過影響程度確定資產等級、質量規則制定。
2、事中監控和控制數據生產過程
1)支持定時調度;
2)強弱規則控制ETL流程;
3)對臟數據進行清洗;
4)質量監控和工作流無縫對接。
3、事后分析和問題跟蹤
1)郵件短信報警并及時跟蹤處理;
2)稽核報告查詢;
3)異常評估、嚴重程度、影響范圍、問題分類;
4)數據質量報告的概覽、歷史趨勢、異常查詢、數據質量表覆蓋率。