在執行了一系列的舉措來提高數據質量后,如何來驗證數據質量的治理效果呢?
根據企業本身的數據特點,設計并構建了一個數據質量七維評價模型:

數據質量評價模型,分別從數據完整性、監控覆蓋率、告警響應度、作業準確性、作業穩定性、作業時效性、作業性能分等七個維度來考量平臺的數據質量,基于該模型,還設計了“數據質量分”這個指標,來直觀地反映平臺數據質量的建設水平及健康狀況。
數據質量七維模型的評價視角及其計算口徑:
1數據完整性
?☆? 考量數據項信息是否全面、完整、無缺失
?★? 指標公式:表完整性和字段完整性的平均值
?
2監控覆蓋率
?☆? 確保數據遵循統一的
數據標準或規范要求
?★? 指標公式:監控的高價值作業個數/高價值作業總個數
? 其中,高價值作業是指作業價值分在80分以上的作業
3告警響應度
?☆? 通過日常管理、應急響應,降低或消除問題影響,避免數據損毀、丟失
?★? 指標公式:已處理告警個數(本周)/告警總個數(本周)
4作業準確性
?☆? 考量數據是否符合預設的質量要求,如唯一性約束、記錄量校驗等
?★? 指標公式:1 - 告警作業個數(本周)/監控作業總個數
5作業穩定性
?☆? 考量作業的運行穩定性,是否經常報錯,導致數據事故
?★? 指標公式:1 - 錯誤作業個數(本周)/作業總個數
?
6作業時效性
?☆? 考量數據項信息可被獲取和使用的時間是否滿足預期要求
?★? 指標公式:1 - 延遲的高價值作業個數(本周)/高價值作業總個數
? ? ?其中,基準時間為作業近30天平均完成時間加30分鐘,作業晚于基準即延遲
7作業性能分
?☆? 考量作業的執行效率和健康度,診斷作業是否傾斜等性能問題
?★? 指標公式:1 -? 危急作業個數(本周)/作業總個數
從各質量維度的評價視角和指標公式可以發現,雖然
數據質量監控的是表及字段的質量情況,但我們的質量分是設定在庫這個層級。這么設計主要是為了更好地責任劃分、統籌治理。
比如在銀行業,每個庫都有其對應的所屬分層(如明細層、匯總層、應用層等),且每個庫都有對應的庫負責人,所以到庫這個層級,我們能更好的分而治之,由庫負責人對庫的質量水平負責。
基于數據質量模型,我們還配套對應的數據質量監控報告。在報告中我們不僅能看到數據平臺的整體質量評分,了解質量發展趨勢,更能通過多維分析、單維深鉆來了解平臺的質量問題根源。
多維分析:詳細展示七個質量維度的評分及趨勢變化,每個維度下還配有TOP榜,用來展示低質量的庫排名,督促庫負責人進行優化、治理;
單維深鉆:每一個質量維度都能從整體下鉆到具體庫及表,深入了解該維度質量評分低的具體原因,以便針對性地解決問題、提高質量;
綜上,就是在數據質量治理方面的一些具體實踐。數據質量治理是一個長期的、持續性的工作,不可能期望一蹴而就。
在治理過程中,需要不斷優化質量短板,夯實質量基石。設目標、定責任,積極配合與行動,充分利用平臺工具,共同建設一個數據烏托邦,讓
數據價值發揮耀眼光芒。
數據質量治理僅僅是
數據治理的一個小環,而企業內部的數據質量問題并非不治之癥,根據行業最佳實踐開展管理體系提升,配備必要的軟件,總能把這個問題解決掉,所謂企業內部的數據質量問題最終會消弭于無形。
(部分內容來源網絡,如有侵權請聯系刪除)