數據質量評估體系主要參考以下指標:
數據完整性
數據準確性
數據有效性
數據時效性
數據一致性
依據以上指標,針對不同的信息系統做出定量的數據質量評估,也可根據實際情況,在評估執行中進行取舍。
數據質量評估具體檢測的內容數據完整性檢測
完整性,描述數據信息缺失的程度,是數據質量中最基礎的一項評估標準。數據缺失的情況可以分為數據信息記錄缺失和字段信息記錄缺失。數據完整性檢測的步驟是
1、對于數據信息記錄缺失的檢測,可以通過對比源庫上的表數據量和目的庫上對應表的數據量來判斷數據是否存在缺失。
2、對于字段信息記錄缺失的檢測,選擇需要進行完整性檢查的字段,計算該字段中空值數據的占比,通常來說表的主鍵及非空字段空值率為0%。空值率越小說明字段信息越完善,空值率越大說明字段信息缺失的越多。
數據準確性檢測
準確性,用于描述一個值與它所描述的客觀事物的真實值之間的接近程度,通俗來說就是指數據記錄的信息是否存在異常或錯誤。例如業務員在上報系統上填寫客戶信息時,手誤輸錯了某一信息,造成了數據庫里存在的信息與客觀事實不一樣。數據準確性的檢測較為困難,一般情況下很難解決。在某些特定的情況下,例如性別,年齡,出生日期,籍貫等信息可以通過校驗身份證號來檢測,前提是確保身份證號碼是正確的。
數據有效性檢測
有效性,描述數據遵循預定的語法規則的程度,是否符合其定義,比如數據的類型、格式、取值范圍等。數據有效性檢測的步驟是用戶選擇需要進行有效性檢測的字段,針對每個字段設定有效性規則。有效性規則包括類型有效、格式有效和取值有效等。類型有效檢測字段數據的類型是否符合其定義,例如可以通過求和來判斷是否是數值型,通過時間操作來判斷是否是時間類型。格式有效性檢測可以通過正則表達式來判斷數據是否與其定義相符。取值有效檢測則通過計算最大最小值來判斷數據是否在有效的取值范圍之內。
數據時效性檢測
時效性,是指信息僅在一定時間段內對決策具有價值的屬性。數據從生成到錄入數據庫存在一定的時間間隔,若該間隔較久,就可能導致分析得出的結論失去了借鑒意義。例如當天的交易數據生成后沒有及時的錄入數據庫或者源庫與目的庫之間的同步延遲,則會導致統計結果和真實結果存在一定誤差。
數據一致性檢測
把待檢測的表作為主表,首先用戶確定一致性檢測的主表字段,然后選擇需要給定檢測的從表和從表字段,設置好主表和從表之間的關聯項,關聯項可以是多個字段,但是關聯項必須是擁有匹配值的相似字段。匹配關聯之后檢查主表和從表相同或者類似字段字段值是否一致。
數據質量評估流程
數據質量的評估流程首先確定要檢測的數據質量指標和評估規則,然后編寫相應的 SQL 腳本來檢測分析數據,最后計算滿足各個規則的數據的百分比得分。系統的綜合得分的計算可以通過把每條規則的得分計算出來,然后綜合后取平均值,但更為合理的方法就是可以把每條規則的得分按照給定的權重進行評價,做出一個合理的數據質量評價等級。由用戶規定每個檢測規則的權重,做出一個權重方案,然后按照各個檢測規則的權重進行整體的計算統計,得到一個合理的數據質量評估得分。
下面介紹一款
數據質量管理平臺來解決數據質量問題
EsDataClean數據質量管理平臺是億信華辰自主研發的數據質量管理平臺,提供了業界領先的質量規則管理方法、質量評估方法、零編碼質檢規則、跨數據源比對、質量分析報告、數據質量整改、質量績效評估等主要功能,以
數據標準為數據檢核依據,以元數據為數據檢核對象,通過向導化、可視化等簡易操作手段,將質量評估、質量檢核、質量整改與質量報告等工作環節進行流程整合,形成完整的數據質量管理閉環。

億信數據質量管理平臺從找到問題數據開始,控制數據質量,貫徹始終,全面提升數據的完整性、規范性、及時性、一致性,減少因數據不可靠導致的決策偏差和損失。
(部分內容來源網絡,如有侵權請聯系刪除)