質量問題的歸納與分析
基于實踐中遇到的大量而廣泛的
數據質量問題,我們從人員、流程、技術和信息等多個方面總結了引起數據質量問題的十個常見原因。
1、數據的多源性:當同一個數據有多個數據來源時,很可能會導致不同的值,這在系統設計和業務流程設計時都可能會引起這一問題。但是,很多企業往往會忽視數據多源性這個根源,因為企業內部的多個數據生產流程絕大部分時間依舊是獨立運作,持續地產生著不同的數據值,導致這個根源很難被直接察覺。
2、數據生成過程中的主觀判斷:如果在數據的生成過程中包含主觀判斷結果,那么會導致數據中含有主觀偏見因素。通常認為存儲在數據庫中的數據都是客觀事實,卻忽略了采集這些“事實”的過程可能存在主觀的判斷。
3、計算資源有限:缺乏足夠的計算資源會限制相關數據的可訪問性。
4、安全性和可訪問性之間的權衡:數據的可訪問性與數據的安全性、隱私和保密性本質上是矛盾的。對數據消費者而言,必須能夠訪問高質量的數據;同時,出于保護隱私、保密和安全性的考量,必須對訪問設置權限。因此,高質量的數據可訪問性與數據的安全性之間就產生了沖突。
5、跨學科的數據編碼:由于缺乏不同專業領域的數據編碼互相映射或缺乏可解釋性,因此對于不同專業領域的編碼總是難以辨識和理解,這也導致了
數據采集的不全面和檢索不到相應的信息。
6、復雜數據的表示方法:對于文本和圖像數據等數據,其可分析性很差且沒有定義屬性,不能進行匯總、處理數據以及判斷變化的趨勢,為數據的處理帶來不便。
7、數據量過大:過大數據量會使數據消費者難以在合理的時間內獲得所需的數據。
8、輸入規則過于嚴苛或被忽視:過于嚴苛的數據庫編寫規則或不必要的數據輸入規則引入,都可能會導致某些重要數據的丟失,或者產生錯誤的數據。這是因為數據采集者可能為了遵守這些規則,隨意改變某個或某些字段的值,或者由于某些值無法輸入對應的字段而丟棄整條記錄。
9、數據需求的改變:當數據消費者的任務和組織環境發生變化時,所謂“有用的”數據也隨之改變,只有滿足數據消費者需求的數據才是高質量的數據。
10、分布式異構系統:對于分布式、異構的數據系統,缺乏適當的整合機制會導致其內部出現數據定義、格式、規則和值的不一致性??缦到y的查詢和匯總數據往往需要太多的時間,降低了數據的可訪問性。
(部分內容來源網絡,如有侵權請聯系刪除)