- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2024-06-15來源:藐視天下瀏覽數:182次
一、數據質量問題產生的原因

二、如何提高數據質量?
數據質量問題無法完全根治或杜絕,所以要想提升數據質量,最重要的就是“早發現,早恢復”。要做到這一點就需要依賴完善的數據質量監控能力,在數據生產加工的全鏈路過程中,添加質量稽核規則。例如對產出表按照業務規則,設計一些校驗邏輯,確保數據的完整性、一致性和準確性。
在數據產出任務運行結束后,啟動稽核校驗任務對數據結果進行掃描計算,判斷數據結果是否符合規則預期。如果不符合,就根據提前設定的強弱規則,觸發不同的處理流程。如果是強規則,就立即終止任務加工鏈路,后續的任務不會執行,并且立即發出電話報警, 甚至關鍵任務還要開啟循環電話報警,直到故障被認領;如果是弱規則,任務會繼續執行。但是存在風險,這些風險會通過郵件或者短信的方式,通知到數據開發,由人來進一步判斷風險嚴重程度。

早發現,是要能夠先于數據使用方發現數據的問題,盡可能在出現問題的源頭發現問題,這樣就為“早恢復”爭取到了大量的時間。早恢復,就是要縮短故障恢復的時間,降低故障對數據產出的影響。圖5 稽核校驗執行流程圖 那具體要加哪些稽核規則呢?
三、數據治理監控的常用規則
完整性規則。主要目的是確保數據記錄是完整的,不丟失。常見的稽核規則有表數據量的絕對值監控和波動率的監控(比如表波動超20%,就認為是異常)。還有主鍵唯一性的監控,它是判斷數據是否有重復記錄的監控規則,比較基礎。除了表級別的監控, 還有字段級別的監控(比如字段為 0、為 NULL 的記錄)。
一致性規則。主要解決相關數據在不同模型中一致性的問題。商品購買率是通過商品購 買用戶數除以商品訪問 uv 計算而來的,如果在不同的模型中,商品購買用戶數是 1W、 商品訪問 uv10W,商品購買率 20%,那這三個指標就存在不一致。
準確性規則。主要解決數據記錄正確性的問題。常見的稽核規則有,一個商品只能歸屬在一個類目,數據格式是不是正確的 IP 格式,訂單的下單日期是還沒有發生的日期等等。
四、數據治理的衡量指標
管理學大師彼得德魯克說過如果你無法衡量,你就無法提升。做數據治理,也需要有衡量標準,促進不斷改善。那么如何評價數據質量是否有改進呢?除了故障次數,你還可以有這樣幾個指標。
4 點半前數據中臺核心任務產出完成率。這個指標是一個綜合性指標,如果任務異常, 任務延遲,強稽核規則失敗,都會導致任務無法在規定時間前產出。
基于稽核規則,計算表級別的質量分數。根據表上稽核規則的通過情況,為每個表建立質量分數,對于分數低的表,表負責人要承擔改進責任。
需要立即介入的報警次數,通常以開啟循環報警的電話報警次數為準。對于核心任務, 任務異常會觸發循環電話報警,接到報警的數據開發需要立即介入。
數據產品 SLA。每個數據產品上所有指標有沒有在 9 點產出,如果沒有,開始計算不可 用時間,整體可以按照不同數據產品的重要性進行折算,99.8% 是數據產品一個相對比 較好的 SLA。
上一篇:為什么數據治理項目會失敗?...