- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-08-03來源:天際晚霞瀏覽數:505次
同一記錄中相關字段的合理性測試。引用完整性。評判記錄中數據的一致性;評判記錄之間數據的一致性;評判高層業務規則以了解其關聯關系,并尋找符合性;尋找其他依賴關系。一個字段中具有正確格式的值與另一個字段中的值相關聯;尋找計算:作為每一個源元素的存儲計算值是正確的。

關于數據質量的度量維度,業內還沒有一個統一的標準,以下分享幾個常見的數據質量度量維度。?
1、記錄數完整
記錄數:正在評估數據集的記錄數值。檢查記錄數量是否與預期數量相負。如果不符,調查卻是記錄的根本原因并再次剖析數據集。
2、完整性&填充率
完整性或填充率:包含值的字段的數量和百分比的測量標準。完整性或填充率只基于數值的存在性。需要另外的分析以確定這些值是否有效。要詮釋結果,需要知道那些字段是必須的(強制性的)、可選擇的或有條件的。如果字段是必填的(應用必填、業務必填或者該字段是主鍵),其填充率應是100%。如果必填字段的填充率小于100%,請調查以下原因:如果是業務必填字段,查看應用軟件是否需要登錄;如果應用軟件不需登錄,查看其是否可針對需要的數據進行修改;如果應用軟件不能修改,對那些錄入數據的人的資料進行歸檔,并對他們進行培訓。這種情況下,應密切監視數據;檢查在數據庫中實施“非空”的可行性;在兩個不同層面上檢查完整性/填充率:單個列或字段:確定字段中是否存在數據;一組數據:確定完成特定基本流程所需一系列字段的填充率。
3、空值/空字段
空:空字段(空是因為字段中什么也沒有)的數量和百分比的測量標準。空是與完整性和填充率相反的。完整性或填充率的分析同樣適用于此,只需用相反的觀點來進行評判。
4、唯一值列表
唯一值列表:字段中不同或唯一值的列表。確定數值是允許的或有效的。不同的字段的有效值集也不同。有效值集也被看成數據域或值域集。檢查該字段中不同值的數目與有效值的數目。可能的話,比較實際的不同值列表與預期有效值列表。預期有效值可來自諸如參考表格或編碼列表的數值列表,也可來自主題專家,或來自公司遵循的外部標準。如果業務沒有有效值列表,請使用來自剖析的列表作為起點來開發一個有效值列表。尋找默認值,將默認值歸檔;尋找有重復含義的值;如果對數值列表進行變更,將所有數值映射歸檔,并用需要變更的值更新記錄。
5、數據有效性
有效性:對字段中的值是否在允許的或有效的數值集中的測試。對每個字段的“有效的”含義進行定義和歸檔;不同字段的有效性構成不同。合法性測試可包括格式或樣式、域、有效編碼、類型(字母的/數字的)、依賴關系、業務規則、數據錄入標準、最大和最小范圍,等等。例如,記錄中的所有編碼是否被系統編碼表中的業務定義為有效編碼;如果是數字字段,字段中是否有字幕;日期字段中的日期是否在必需的范圍內。有效性測試結果可以完整性/填充率的百分比來報告。
6、頻率分布
頻率分布:字段中唯一值的分布,通過數量和百分比來度量。頻率分布給出了一個使用思路,評判最高和最低數量值。可考慮放棄那些使用頻率低的數值,并改用一個常用的可比價的數值。研究所發現的常量。常量是指每個記錄有相同數值的任一列,這可以是從未使用或不再使用的數據元素的標志。確定數值分布是否是所期望的分布。如果對數值列表已做變更,請將數值映射歸檔,并用需要變更的數值更新記錄。尋找在分析信息環境時可能已發現的且正被業務廣泛使用的那些異常數值的發生頻率。觀察默認值或假值的頻率分布,使用頻率分布來確定待選主鍵。如果不同值的比重較低,等值字段可能是相關的,許多空值或零值可能就有問題了。通常50%的不同值將由其他列確定是否為純業務數據。有特定值的字段(例如,所有記錄在該字段的值均相等)是潛在無用的或具有常數屬性,確定是否應為此在數據庫中占用一定空間。考慮輸入到一個常數表中。
7、最大數值和最小數值范圍
最大數值和最小數值范圍:由最大數值和最小數值表示的數值范圍。數值范圍上界和下界的任何數值可快速顯示數據質量問題;觀察重要日期字段的最大值和最小值;尋找期望之外的或歸檔范圍以外的數值。
8、數據新鮮度
新鮮度:關鍵日期字段或日期范圍的頻率分布。與日期字段或數據范圍相關的一類頻率分布;還被用于向兩個其他數據質量維度模擬或提供輸入數據:及時性(數據的及時程度)和數據衰變(數據的負面變化率)。
9、內容
內容:數據內容與列或字段名稱的匹配。比較列或字段名與數據內容;字段包含的是否是預期數據。
10、重復
重復:確定是否存在意外重復。通過評判重復含義數值列表來獲取重復數據的高層視圖;有些工具提供不同列間的數據值比較,以及通常基于不同數值精確字符串匹配的重疊百分比;有些數據剖析工具強調僅基于精確字符串匹配的重復數據,但其他工具使用經常被稱為“模糊匹配”的工具。
11、數據類型
尋找通過剖析工具推斷的、預期數據類型和實際數據類型之間的差異。工具可顯示歸檔的數據類型(或每個元數據的預期數據類型),并與從實際數據內容中推斷出的數據類型進行比較;該工具也標記源數據類型和目標數據類型之間的不相容性,該問題需在遷移數據時予以解決。對數據模型而言,該工具也呈現數據類型以及可用于該模型中的替代數據類型實例。
12、大小或長度
大小或長度:字段中數據的長度。尋找實際數據大小與預期數據大小之間的差異;尋找大量具有完全相同大小的記錄,這可顯示出在該字段中已被縮減了的數據;如果源和目標系統之間的大小存在差異,確定超出目標大小的源記錄的數目和百分比:如果數目小,需人工更新記錄;如果數目大,需了解如果數據在遷移時被刪減將會對業務產生什么影響。
13、樣式
樣式:數據中發現的唯一式樣的數量和百分比。尋找意外的樣式;預期的或有效的樣式將根據字段的不同而不同;尋找ID字段的同一樣式。
14、精度
對數字數據,要確定小數點的位置是否在所需精度的位置。
15、一致性
一致性:同一記錄中相關字段的合理性測試。引用完整性。評判記錄中數據的一致性;評判記錄之間數據的一致性;評判高層業務規則以了解其關聯關系,并尋找符合性;尋找其他依賴關系。一個字段中具有正確格式的值與另一個字段中的值相關聯;尋找計算:作為每一個源元素的存儲計算值是正確的。
16、并發性和及時性
并發性和及時性:各種數據庫、應用軟件和流程之間的數據同步和數據時延,剖析多個數據庫,并比較其結果的差異。
17、業務規則
確定是否沒被植入進數據結構中的業務/數據規則正在由應用程序邏輯實施。這通常都是針對有自身規則的數據子集。例如,可能有具有特定規則的不同當事者類型(組織、合同等),這些規則需要某些列為空,而其他列要輸入。
上一篇:中國科學院:游戲技術—數實融合進程中的技術新集群...
下一篇:數據治理實踐...