日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據質量產生的根本原因

時間:2022-01-14來源:互聯網瀏覽數:640


概述

數據質量的高低代表了該數據滿足數據消費者期望的程度,這種程度基于他們對數據的使用預期。數據質量必須是可測量的,把測量的結果轉化為可以理解的和可重復的數字,使我們能夠在不同對象之間和跨越不同時間進行比較。

數據質量管理 是通過計劃、實施和控制活動,運用質量管理技術度量、評估、改進和保證數據的恰當使用。

數據質量產生的根本原因
源系統: 源系統的數據結構發生變化,這是常有的事,數據倉庫只是數據存儲中心,而源系統的改變會造成數據倉庫中數據質量發生變化
ETL: 源系統業務流程發生了變更

業務需求:
源系統數據錄入錯誤或者延遲
源系統隨著時間的推移,數據發生了演變
需求不明確或者滿足不了客戶需求
ETL映射規則錯誤
ETL程序錯誤
數據沒有及時到達或者依賴關系錯誤
源系統的業務數據與業務需求發生沖突
數據質量面臨的挑戰
數據的污染是在數據倉庫中處理的,延伸出去就形成了專業的數據治理,但是數據的污染卻在數據倉庫之外發生的,所有必須要清楚數據的污染源有哪些:

系統轉換: 源系統的系統升級、轉換、遷移是數據污染的重要原因
數據老化: 在經歷一代又一代的系統升級、轉換、遷移,歷史數據往往無法滿足當時時間的業務需求
復雜的系統集成: 源系統種類繁多,關系日漸復雜,出現污染數據的可能性越來越大
拙劣的數據庫設計: 堅持實體完整性和參考完整性規則可以防止一些數據污染,但是目前數據倉庫存在兩種觀點:注重模型、注重集市,圍繞業務進行數據庫設計,這兩種觀點與傳統的十大主題設計存在矛盾點。
數據輸入的不完整性: 源系統的數據輸入是數據污染的主要來源,信息輸入錯誤會給數據倉庫模型建立造成很大的壓力
缺乏數據治理相關的政策: 如果一個公司對數據質量沒有明確的相關政策,那么他的數據質量不可能得到保證

數據質量的指標
準確性
準確性要求數據能夠正確描述客觀世界。比如某用戶姓名拼音mu chen錯誤的錄入成了muc hen,就應該彈出警告語;

唯一性(視情況而定)
唯一性要求數據不能被重復錄入,或者不能有兩個幾乎相同的關系。比如張三李四在不同業務環境下分別建立了近乎相同的關系,這時應將這兩個關系合并;

完整性
完整性要求進行數據搜集時,需求數據的被描述程度要高。比如一個用戶的購買記錄中,必然要有支付金額這個屬性;規則驗證。

一致性
一致性要求不同關系、或者同一關系不同字段的數據意義不發生沖突。

比如某關系中昨天存貨量字段+當天進貨量字段-當天銷售量字段等于當天存貨量就可能是數據質量有問題;

及時性
及時性要求數據庫系統中的數據"保鮮"。比如當天的購買記錄當天就要入庫;

統一性
統一性要求數據格式統一。比如nike這個品牌,不能有的字段描述為"耐克",而有的字段又是"奈克";

數據質量管理的方法論
在數據治理方面,不論是國際的還是國內的,我們能找到很多數據治理成熟度評估模型這樣的理論框架,作為企業實施的指引。而說到數據質量管理的方法論,其實業內還沒有一套科學、完整的數據質量管理的體系。很多企業對數據質量的重視程度還不夠,即使部分企業在朝著這個方向努力,也是摸著石頭過河。

下圖是ISO9001基于PDCA的質量管理核心思想,其重點強調以客戶為關注焦點、領導作用、全員參與、過程方法、持續改進、循證決策和關系管理。

數據質量監控
數據質量監控可以分為數據質量的事前預防控制、事中過程控制和事后監督控制:

數據質量問題的預防控制最有效的方法就是找出發生數據質量問題的根本原因并采取相關的策略進行解決。

1)確定根本原因:確定引起數據質量問題的相關因素,并區分它們的優先次序,以及為解決這些問題形成具體的建議。

2)制定和實施改進方案:最終確定關于行動的具體建議和措施,基于這些建議制定并且執行提高方案,預防未來數據質量問題的發生。
(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢