日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據治理:如何提高數據質量?

時間:2024-06-15來源:藐視天下瀏覽數:182

數據治理可以說是數據產品的生命線,如果數據不準給業務帶來錯誤的決策引導,可能會帶來難以預計的業務損失。

一、數據質量問題產生的原因


二、如何提高數據質量?

數據質量問題無法完全根治或杜絕,所以要想提升數據質量,最重要的就是“早發現,早恢復”。要做到這一點就需要依賴完善的數據質量監控能力,在數據生產加工的全鏈路過程中,添加質量稽核規則。例如對產出表按照業務規則,設計一些校驗邏輯,確保數據的完整性、一致性和準確性。


在數據產出任務運行結束后,啟動稽核校驗任務對數據結果進行掃描計算,判斷數據結果是否符合規則預期。如果不符合,就根據提前設定的強弱規則,觸發不同的處理流程。如果是強規則,就立即終止任務加工鏈路,后續的任務不會執行,并且立即發出電話報警, 甚至關鍵任務還要開啟循環電話報警,直到故障被認領;如果是弱規則,任務會繼續執行。但是存在風險,這些風險會通過郵件或者短信的方式,通知到數據開發,由人來進一步判斷風險嚴重程度。

早發現,是要能夠先于數據使用方發現數據的問題,盡可能在出現問題的源頭發現問題,這樣就為“早恢復”爭取到了大量的時間。早恢復,就是要縮短故障恢復的時間,降低故障對數據產出的影響。圖5 稽核校驗執行流程圖 那具體要加哪些稽核規則呢?


三、數據治理監控的常用規則

完整性規則。主要目的是確保數據記錄是完整的,不丟失。常見的稽核規則有表數據量的絕對值監控和波動率的監控(比如表波動超20%,就認為是異常)。還有主鍵唯一性的監控,它是判斷數據是否有重復記錄的監控規則,比較基礎。除了表級別的監控, 還有字段級別的監控(比如字段為 0、為 NULL 的記錄)。

一致性規則。主要解決相關數據在不同模型中一致性的問題。商品購買率是通過商品購 買用戶數除以商品訪問 uv 計算而來的,如果在不同的模型中,商品購買用戶數是 1W、 商品訪問 uv10W,商品購買率 20%,那這三個指標就存在不一致。

準確性規則。主要解決數據記錄正確性的問題。常見的稽核規則有,一個商品只能歸屬在一個類目,數據格式是不是正確的 IP 格式,訂單的下單日期是還沒有發生的日期等等。


四、數據治理的衡量指標

管理學大師彼得德魯克說過如果你無法衡量,你就無法提升。做數據治理,也需要有衡量標準,促進不斷改善。那么如何評價數據質量是否有改進呢?除了故障次數,你還可以有這樣幾個指標。

4 點半前數據中臺核心任務產出完成率。這個指標是一個綜合性指標,如果任務異常, 任務延遲,強稽核規則失敗,都會導致任務無法在規定時間前產出。

基于稽核規則,計算表級別的質量分數。根據表上稽核規則的通過情況,為每個表建立質量分數,對于分數低的表,表負責人要承擔改進責任。

需要立即介入的報警次數,通常以開啟循環報警的電話報警次數為準。對于核心任務, 任務異常會觸發循環電話報警,接到報警的數據開發需要立即介入。

數據產品 SLA。每個數據產品上所有指標有沒有在 9 點產出,如果沒有,開始計算不可 用時間,整體可以按照不同數據產品的重要性進行折算,99.8% 是數據產品一個相對比 較好的 SLA。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢