常見的數據質量問題包括
1、數據無法匹配
2、數據不可識別
3、數據不一致
4、數據沉余重復
5、實效性不強
6、精度不夠
數據質量管理的目標
通過
數據分析、數據評估、
數據清洗、數據監控、錯誤預警等內容,解決數據質量問題,使數據的質量得以改善,使其滿足數據需求方對數據質量的規則要求。
數據質量評估包括但不止以下6個方面
完整性 Completeness:度量哪些數據丟失了或者哪些數據不可用。
規范性 Conformity:度量哪些數據未按統一格式存儲。
一致性 Consistency:度量哪些數據的值在信息含義上是沖突的。
準確性 Accuracy:度量哪些數據和信息是不正確的,或者數據是超期的。
唯一性 Uniqueness:度量哪些數據是重復數據或者數據的哪些屬性是重復的。
關聯性 Integration:度量哪些關聯的數據缺失或者未建立索引。
數據質量評估模型
要素分別為:基礎模型、數據質量定義模型、
數據質量控制模型、數據質量評價模型、數據質量輔助模型。
1.基礎模型。
其他模型必須以基礎模型中的計劃和標準為依據。基礎模型主要是映射、定義
數據采集標準,上載分單位的采集計劃,同時納入了約束規則定義規范、控制規則定義規范、模板定義規范。
數據標準:分兩部分,一部分是直接映射應用中的標準,例如源數據庫標準;另一部分是針對新增應用庫和項目庫標準的定義規范,包括代碼定義標準、數據項定義標準(例如是取英文還是漢語拼音,取幾個字符)、值域定義標準等等新增表準的建立規范;
采集計劃:采集單位的每月上載的日度、月度、年度的采集計劃;
約束規則定義規范:主要描述質量定義模型中的語法構成;
控制規則定義規范:針對服務器負載和采集表的及時性,要求建立的后臺執行過程的控制方式的使用說明;
2.數據質量定義模型。
以基礎模型為前提對數據質量的統一規范的定義,是
數據質量分析評價的依據和基礎。數據質量定義模型可以使用質量特性描述。數據質量特性歸納為數據的一致性、數據的準確性、數據的完整性、數據的及時性4個關鍵特性。
(1)一致性的量化評價指標:字段一致率、表間字段一致率、表間記錄一致率。
(2)準確性的量化評價指標:準確率、差錯率、問題字段個數、問題記錄覆蓋率
(3)及時性的量化評價指標:采集項目及時率;單位入庫及時率
(4)完整性的量化評價指標:字段缺失數、缺失記錄覆蓋率、計劃完成率。
3.數據質量控制模型。
數據質量控制模型以數據質量定義模型為基礎,按照定義的檢查范圍和時間以自動或手工方式完成對數據質量的檢查工作。在質量控制過程中違反了數據質量定義的,視為數據質量問題,數據質量問題直接通過數據質量的關鍵特性和指標反映出來。數據質量控制模型的控制內容表現在:對數據檢查對象、數據檢查頻度、數據檢查時間、數據檢查方式等方面進行控制。
(1)數據檢查對象:是指根據采集計劃設定需要檢查的用戶、專業數據表、數據庫實體。
(2)數據檢查頻度;是指根據數據表的采集計劃和實際發生的頻度,設定存儲過程的檢查執行頻率。
(3)數據檢查時間:是指根據每日生產應用的密集時間以及數據發生到采集入庫的密集時間,綜合設定一個檢查開始執行的時刻。
(4)數據檢查方式:是指執行檢查過程的方式可以由后臺過程自動控制,每間隔2小時自動檢查一次;也可以由人工干預手動檢查,任意時刻都可以執行檢查(當然盡量選擇數據庫流量比較低的時候)。
4.數據質量評價模型。
數據質量評價模型,是以數據質量定義模型為依據,由數據質量控制模型操控執行,根據反饋的質量檢查結果表,評議出數據質量的關鍵指標,實現對數據質量的量化診斷和評價。
數據質量分析評價模型功能核心是,通過對基礎模型中的采集計劃和質量定義模型中的約束規則的處理,由控制模型調用可以實現檢查分析的后臺存儲過程在實體庫中執行檢查,形成查詢結果,再由分析程序進行分析、計算、分類、匯總,生成反映采集計劃完成情況和數據質量量化指標的結果,存儲到分析結果表中,從前臺調用這個分析結果表,就可以生成一份詳盡的反映數據質量問題各類量化指標的數據質量分析評估報告,展現所評估實體庫的數據入庫的及時率、數據上報的完整性、數據采集的一致性、數據入庫的準確率。
5.數據質量輔助管理模型
數據質量輔助管理包括報告模版管理、權限管理、數據庫資源占用情況等等。
下面介紹一款
數據質量管理平臺來解決數據質量問題
EsDataClean數據質量管理平臺是億信華辰自主研發的數據質量管理平臺,提供了業界領先的質量規則管理方法、質量評估方法、零編碼質檢規則、跨數據源比對、質量分析報告、數據質量整改、質量績效評估等主要功能,以數據標準為數據檢核依據,以元數據為數據檢核對象,通過向導化、可視化等簡易操作手段,將質量評估、質量檢核、質量整改與質量報告等工作環節進行流程整合,形成完整的數據質量管理閉環。

億信數據質量管理平臺從找到問題數據開始,控制數據質量,貫徹始終,全面提升數據的完整性、規范性、及時性、一致性,減少因數據不可靠導致的決策偏差和損失。
(部分內容來源網絡,如有侵權請聯系刪除)