世界正處于數據時代。這意味著今天產生的數據比人類歷史上過去 5000 年的數據還要多——每天大約產生2.5 萬億字節的數據。每次有人發送電子郵件或文本、下載應用程序、發送任何數量看似微不足道的事情時,都會創建數據,而數百萬人的這些交互的復合數量造成了數據的爆炸式增長。企業可以需要數據驅動,而不是被數據淹沒。數據驅動型企業的一個共同特征是,他們都制定了數據質量管理計劃,以確保使用最優質的數據源。
一、什么是數據質量管理?
數據質量管理(Data Quality Management),是指對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。
二、數據質量的重要性
數據信息是企業重要的戰略資源,合理有效的使用正確的數據能指導企業領導作出正確的決策,提高企業的競爭力。不合理的使用不正確的數據(即差的數據質量)可導致決策的失敗,正可謂差之毫厘、謬以千里。
現在很多大型企業已意識到數據信息和數據質量的重要性,專門成立了數據中心來管理數據方面的工作。
三、數據質量評估模型
1、基礎模型。
其他模型必須以基礎模型中的計劃和標準為依據?;A模型主要是映射、定義數據采集標準,上載分單位的采集計劃,同時納入了約束規則定義規范、控制規則定義規范、模板定義規范。
2、數據質量定義模型。
以基礎模型為前提對數據質量的統一規范的定義,是數據質量分析評價的依據和基礎。數據質量定義模型可以使用質量特性描述。數據質量特性歸納為數據的一致性、數據的準確性、數據的完整性、數據的及時性4個關鍵特性。
3、數據質量控制模型。
數據質量控制模型以數據質量定義模型為基礎,按照定義的檢查范圍和時間以自動或手工方式完成對數據質量的檢查工作。在質量控制過程中違反了數據質量定義的,視為數據質量問題,數據質量問題直接通過數據質量的關鍵特性和指標反映出來。數據質量控制模型的控制內容表現在:對數據檢查對象、數據檢查頻度、數據檢查時間、數據檢查方式等方面進行控制。
4、數據質量評價模型。
數據質量評價模型,是以數據質量定義模型為依據,由數據質量控制模型操控執行,根據反饋的質量檢查結果表,評議出數據質量的關鍵指標,實現對數據質量的量化診斷和評價。
數據質量分析評價模型功能核心是,通過對基礎模型中的采集計劃和質量定義模型中的約束規則的處理,由控制模型調用可以實現檢查分析的后臺存儲過程在實體庫中執行檢查,形成查詢結果,再由分析程序進行分析、計算、分類、匯總,生成反映采集計劃完成情況和數據質量量化指標的結果,存儲到分析結果表中,從前臺調用這個分析結果表,就可以生成一份詳盡的反映數據質量問題各類量化指標的數據質量分析評估報告,展現所評估實體庫的數據入庫的及時率、數據上報的完整性、數據采集的一致性、數據入庫的準確率。
5、數據質量輔助管理模型
數據質量輔助管理包括報告模版管理、權限管理、數據庫資源占用情況等等。
四、數據質量管理方案
1、定義業務需求和方法
明確數據質量管理的重點、時機和目標,來指導整個項目期間的所有工作。
2、分析信息環境
收集、整理并分析與數據質量相關的信息環境。明確信息生命周期,確保相關數據得以評估。設計數據獲取與評估方案。
3、評估數據質量
針對適用于這一問題的數據質量維度,評估數據質量。評估結果用來確定數據質量問題的根本原因、需要改進的地方。
4、評估業務影響
使用各種技術來評估劣質數據對業務的影響。該步驟為業務改進、確定適當的資源投資提供依據。
5、確定數據質量問題原因
確定引起數據質量問題的根本原因,并區分優先次序,以及為解決這些問題的具體建議。
6、制定提高方案
確定最終具體解決方案。
7、預防未來數據錯誤
實施解決引起數據質量問題的根本原因的解決方案。
8、糾正當前數據錯誤
實施數據糾正步驟。
9、實施控制
監控和核實所進行的改進。通過標準化、歸檔和對改進進行持續監測,維護結果。
10、溝通行動和結果
歸檔和溝通質量管理效果、所做的改進和改進的結果。其中溝通非常重要。