- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2023-08-14來源:普通不代表懦弱瀏覽數:224次
多維度評估數據質量,確保數據完整、唯一、有效、一致、準確、及時和可信。規則維度劃分使企業能匹配業務需求,優化項目計劃,實現全面數據管理。他們強調數據取值不僅需滿足有效性,還應準確、與實體一致。通過手工核查解決數據同步的及時性和可信性問題。綜上,億信華辰關注多方面數據質量,通過規則維度評估推動提升。
數據質量:一個評估規則維度提供一種測量與管理信息和數據的方式。
區分規則維度有助于:
將維度與業務需求相匹配,并且劃分評估的先后順序;
了解從每一維度的評估中能夠/不能夠得到什么;
在時間和資源有限的情況下,更好地定義和管理項目計劃中的行動順序。
數據質量檢核主要分為以下規則維度:
完整性(Completeness):用來描述信息的完整程度。
唯一性(Uniqueness):用來描述數據是否存在重復記錄,沒有實體多余出現一次。
有效性(Validity):用來描述模型或數據是否滿足用戶定義的條件。通常從命名、數據類型、長度、值域、取值范圍、內容規范等方面進行約束。
一致性(Consistency):用來描述同一信息主體在不同的數據集中信息屬性是否相同,各實體、屬性是否符合一致性約束關系。
準確性(Accuracy):用來描述數據是否與其對應的客觀實體的特征相一致(需要一個確定的和可訪問的權威參考源)。
及時性(Timeless):用來描述從業務發生到對應數據正確存儲并可正常查看的時間間隔程度,也叫數據的延時時長,數據在及時性上應能盡可能貼合業務實際發生時點。
可信性(credibility):用來描述數據發生是否符合客觀規律。
每一規則維度可能需要不同的度量方法、時機和流程。這就導致了完成檢核評估所需要的時間、金錢和人力資源會呈現出差異。數據數據質量的提升不是一蹴而就的,在清楚了解評估每一維度所需工作的情況下,選擇那些當前較為迫切的檢核維度和規則,從易到難、由淺入深的逐步推動數據質量的全面管理與提升。規則維度的初步評估結果是確定基線,其余評估則作為繼續檢測和信息改進的一部分,作為業務操作流程的一部分。
數據完整性維度大類下可細分為以下維度小類:
非空約束:描述檢核對象是否存在數據值為空的情況。如客戶開戶時,客戶名稱是必填項,不能出現為空的情況。
非空約束
非空約束比較容易理解,簡單的講就是字段不能為空,檢查方式也比較容易,只需要設定需要檢查的字段,通過 sql 查詢列值不能為空即可。將為空的數據查詢出來進行整改。當然非空約束可以通過設置非空約束的方式限制數據無法寫入數據庫,如果支持這種方式可以避免事后的數據非空檢查。
數據唯一性維度大類下可細分為以下維度小類:
唯一性約束:描述同一客觀實體在不同業務數據集中的信息,經整合后是唯一的,針對目標通常是單一主鍵或聯合主鍵,如證件類型+證件號碼+姓名相同,則其客戶編號應唯一。
唯一性約束
舉個簡單的例子,唯一性約束在技術上一般具備唯一的標識字段可以判斷其唯一性,在業務上可以通過幾個關聯的業務屬性對確定唯一業務實體。若在這種情況出現數據重復的問題,即違反了唯一性約束。這種情況的如果是單一的業務主鍵,可以通過對主鍵分組去重的方式檢查,如果是業務聯合屬性判斷唯一實體的情況只能業務人員進行手動檢查。
數據有效性維度大類下可細分為以下維度小類:
代碼值域約束:描述檢核對象的代碼值是否在對應的代碼表內。如業務規則定義“性別”的取值應該是“1-未知的性別”、“2-男性”、“3-女性”、“4-未說明的性別”,如果出現“A”、“B”這樣的取值,則認為“性別”的代碼值域存在問題;
長度約束:描述檢核對象的長度是否滿足長度約束。如“金融機構編碼”在《人民銀行金融機構編碼規范》中規定長度為14位,如果出現非14位的值,則判定為不滿足長度約束,不是一個有效的“金融機構編碼”;
內容規范約束:描述檢核對象的值是否按照一定的要求和規范進行數據的錄入與存儲。如“存款賬號”應僅含數字,如果出現字母或其他非法字符,則不是一個有效的“存款賬號”,不滿足內容規范約束;
取值范圍約束:描述檢核對象的取值是否在預定義的范圍內。如“授信額度”取值范圍應大于等于 0,如果出現小于 0 的情況,則超出了取值范圍的約束,不是一個有效的“授信額度”;
代碼值域約束
描述檢核對象的值是否按照一定的要求和規范進行數據的錄入與存儲。
例 1 : 依業務規則性別只有 “0:男” ,”1:女”,則性別字段只應出現0或1。
例 2 : 貨幣代碼 (CURCODE) 只應有RMB或是USD值。
數據質量中代碼值域首先要指定企業級的統一編碼表,然后按照對照關系進行 etl 轉換,至于出報告只需要通過 sql 查詢不再范圍內的數值就可以了。
長度約束
描述檢核對象的長度是否滿足長度約束。例如身份證號是 18 位。長度約束可以通過建表時指定字符長度去限制,如果業務系統最初沒有做限制,只能通過 sql 判斷長度的方式獲取異常值再進行處理。
內容規范約束
描述檢核對象的值是否按照一定的要求和規范進行數據的錄入與存儲。例如:余額或者日期等一般都會按照固定類型存儲,如果最初設計為字符型后續應按照對應類型調整。首先這種情況最好一開始就建立好統一規范,按照業務含義去指定技術類型。如果最初做的不好,可以通過類型進行數據探查,對數據統一格式化。
取值范圍約束
描述檢核對象的取值是否在預定義的范圍內。例如:余額不能為負數,日期不能為負數等等。如果業務初始沒有做限制,只能通過 sql 去對數據過濾查詢,對有問題數據集中 etl 處理。
數據一致性維度大類下可細分為以下維度小類:
等值一致性依賴約束:描述檢核對象之間數據取值的約束規則。一個檢核對象數據取值必須與另一個或多個檢核對象在一定規則下相等。
存在一致性依賴約束:描述檢核對象之間數據值存在關系的約束規則。一個檢核對象的數據值必須在另一個檢核對象滿足某一條件時存在。
邏輯一致性依賴約束:描述檢核對象之間數據值邏輯關系的約束規則。一個檢核對象上的數據值必須與另一個檢核對象的數據值滿足某種邏輯關系(如大于、小于等)。
等值一致性依賴約束&
一般指外鍵關聯的場景。例如:保單表,理賠表的保單號存在保單主表,同一張表,兩個字段之間的關聯關系。
存在一致性依賴約束
主要是強調業務的關聯性,一個狀態發生了則某個值一定會如何。例如:投保狀態為已投保,則投保日期不應為空;
邏輯一致性依賴約束
主要強調的是字段間的互相約束關系。例如:投保開始時間小于等于投保結束時間。
數據準確性主要是指取值的準確性,描述該檢核對象是否與其對應的客觀實體的特征相一致。
例如:投保人的性別代碼為 0-女性,雖然滿足代碼值域約束,但卻不滿足取值準確性約束,因為該人為男性,其性別代碼應為 1-男性;再如:國際保函業務的手續費應錄入為國際擔保手續費收入,卻錄入成國內擔保手續費收入。準確性要求不僅數據的取值范圍和內容規范滿足有效性的要求,其值也是客觀真實世界的數據。由此可見,有效的數據未必是準確的,反之成立。準確性通常需要業務人員或其他當事人手工核查。
對待這種情況,數據質量規則沒辦法直接統一處理,只能通過即使查詢的方式對數據結果進行詳細核查。
及時性約束:描述檢核數據能否及時反映其對應的實際業務的時點狀態。
例如:系統中貸款五級分類的分類比實際中的延遲幾天變化;再如理財業務在理財系統中是成功狀態,但在核心系統中卻因通信的原因而沒有入賬。及時性由于多個系統、通信等原因而造成,通常需要業務人員或系統人員手工核查。一般來說數據同步都是基于業務系統的落表技術字段(比如:CREATE_DT),而真是業務發生的時間可能與該字段存在時間間隔。可以通過簡單的sql對兩個時間比較,判斷數據的及時性是否符合需求。
數據可信性約束:描述再數據同步中每日/月增量數據是否符合理論的經驗值。
例如:保單數據的每日分區數據較前日一般有 10% 增長,突然數據增長變為200%,這種情況有可能時數據同步出現問題。再如:每月的營收總額一般都按一定規律上漲,突然數據波動較大則一般都可能出現問題。可信性要求數據的總量波動符合基本客觀規律,一般通過對 7,15,30 日數據進行比較,如果出現差距較大則進行詳細的問題探查。