日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據質量維度終極指南

時間:2023-02-14來源:渲染、你的美瀏覽數:689

針對每個數據質量維度都進行評估代價很大,每個企業都應根據自己的業務需求、優先級、可行性來選擇最有意義的維度組合來進行測量,數據質量維度的評估結果用于確定數據質量的基線、監測和改進。

數據質量是數據的生命線,在麥吉利夫雷的《數據質量工程實踐》一書中提出了改進數據質量的十步法,如下所示:

在10個步驟中,第3步的評估數據質量主要依賴數據質量維度進行測量。數據質量維度是數據的某個可觀測的特性,術語”維度“可以類比于測量物理對象的維度(如長度、寬度、高度等)。數據質量維度提供了定義數據質量要求的一組詞匯,通過這些維度定義可以評估初始數據質量和持續改進的成效。

比如數據質量有個維度叫準確性,指數據要準確反映其所建模的“真實世界”實體,例如員工的身份數據必須與身份證件上的信息保持一致。

英國著名數學家、物理學家Load kelvin說:”無法度量則無法改進“ ,可以這么說,數據質量維度提供了一種測量數據質量的方式,數據質量維度評價最具價值的收益是作為數據質量問題的具體證據,為后續的根本原因分析數據的糾正預防未來錯誤的合適改進提供基礎。

我們平時工作中接觸到的數據質量維度很多,包括一致性,準確性,有效性,完整性,完備性、及時性等等,但如果要你列出所有的數據質量維度,并且”完全窮盡、相互獨立“,估計很少人能回答出來,一方面可能沒系統化思考過,另一方面估計也區分不清楚完整性、一致性、合理性等維度概念的差別。

我查閱了相關資料(見文末參考文獻),發現有人對數據質量維度已經進行了系統研究,綜合了相關研究成果后,這里以洛申的《數據質量改進實踐指南》為基準,給出理想中的數據質量維度框架,大家通過這個框架,可以更加清晰、全面的理解數據質量維度定義和度量方法,從而奠定數據質量管理工作的基礎。

為了輔助理解,文末也附上了華為等其它相關數據質量維度框架的簡要說明,大家可以據此進行拓展閱讀。

一、數據質量維度框架

該框架以”完全窮盡、相互獨立“為原則,對數據質量維度進行層次結構的邏輯分類,一級分類為內在維度上下文維度定性維度

內在維度:將那些僅與數值本身有關而與數據元或記錄無關的測量方法稱為內在維度,內在維度與數據值本身有關,而與具體的上下文無關。

例如,指定溫度的有效范圍(如-50-110度)對數值來說是內在的,無論應用在哪些場景。

內在維度包括二級分類,即準確性可溯性結構一致性語義一致性

上下文維度:如果測量評判的是一個數據元與其他數據元或從一條記錄到其它記錄的一致性或有效性,則可以將其稱為上下文維度,因為這些測量依賴于上下文。上下文維度依賴于系統和流程中作為業務規則執行的各類業務方針。

例如“指定唯一關聯單個實體的標識符”的要求是一項信息方針,該方針轉換成數據質量規則就涉及唯一識別、標識符匿名、不可識別性等。

上下文維度括二級分類,即完整性一致性及時性可訪性合理性唯一性

定性維度:在獲取定量測量結果能力不足的情況下,需要引入另外一些維度,定性維度可以評價更高階的監督,審查信息滿足定義的期望指數和需求的程度。

二、數據質量維度規則

在十大數據質量維度分類下,我總結出了具體的29個規則類型,每種規則類型可以根據規則的適用范圍區分為單屬性跨屬性跨記錄跨實體四種,如下圖所示:

規則類型一般包括類型名稱類型描述度量指標符合性閾值等屬性來形成具體的稽核規則,下面舉個例子說明:

準確性維度分類中存在一個規則類型,名稱叫“值域約束類”,描述是“屬性值必須滿足已定義的枚舉值的約束”,度量指標是“符合約束的記錄/總記錄”,符合性閾值可以定義為一個固定比例值,比如針對“性別”字段,枚舉約束是“男,女”,度量指標是“字段的值屬于“男”或“女”的記錄/總記錄數”,符合性閾值是“90%”。

三、數據質量維度詳述

1、準確性

維度定義:

準確性是較難評價的維度之一,因為它指的是數據值與確定的正確信息源的一致程度,可能存在許多潛在的正確信息源,例如一個數據庫,一個數據集或者某個人工錄入的結果,很多情況下,沒有正確信息的權威來源。

規則類型:

(1)值域約束類:屬性值必須滿足已定義的枚舉值的約束,比如合同的合同主類型及子類型必須是合同類型基礎數據中定義的枚舉值。

(2)精度約束類:屬性值的精度符合定義的精確度或細節說明。

(3)值的約束類:屬性值必須支持為該屬性值定義的可接受值,比如限定年齡必須在0-200歲之間,日期必須符合yyyymmdd格式要求。

(4)事實參照標準類:存在事實數據或者事實參考標準數據,與該事實或事實參考標準對比一直的約束。比如中國電信公司的信息必須與國家法人數據庫中的信息保持一致。

2、可溯性

維度定義:

數據的可信性對于企業的所有參與者都是至關重要的,可塑性測量的一個特征是擁有識別任何新增或更新的數據來源的能力。

規則類型:

(5)可溯源類:所有屬性都應包括可識別的最初來源和日期。

3、結構一致性

維度定義:

在同一數據集或者在與相關聯的數據模型中,相似的屬性值的表示具有一致性。

規則類型:

(6)格式規范類:屬性必須符合企業規定的長度和類型標準。

(7)格式一致性類:相同的屬性必須具有相同的數據類型、長度以及樣式。

(8)屬性文檔化類:在元數據庫中定義和描述的數據屬性。

4、語義一致性

維度定義:

指的是一個數據模型中不同屬性間定義,以及不同的企業數據集中命名相似的屬性定義的一致性,它描述了相似數據對象共享一致名稱與含義的程度。

規則類型:

(9)屬性定義類:所有的屬性命名和定義已經文檔標準化。

(10)屬性名稱符合類:屬性名稱符合標準程度。

(11)屬性名稱歧義類:不存在兩個屬性共用一個名稱。

(12)語義一致性:命名相似的屬性指的是同一個業務概念。

5、完整性

維度定義:

指的是某些屬性必須賦予某數據集中的數據值,完整性可以定義為單個屬性的要求,也可以依賴于一條記錄或一個數據集中跨多條記錄的其他屬性的值。

規則類型:

(13)屬性不可為空類:屬性值不允許出現空值,比如員工工號不可為空。

(14)單表不可為空類:在本實體的一個或多個屬性值滿足某個條件時,屬性值不允許出現空值。

(15)跨表不可為空類:在其它實體的一個或多個屬性值滿足某個條件時,屬性值不允許出現空值。

6、一致性

維度定義:

在當前數據背景下,或在某個時間序列上,與數值一致性的期望指數相關的約束。在任何企業環境中,一致性與數據層次結構的不同層次有關,表范圍內、數據庫范圍內、不同應用間,以及外部提供的數據范圍內,由于跨業務范圍數據整合呈現日漸增長趨勢,必須制定相關的規則來確保一致性。

規則類型:

(16)單表等值一致性類:某一屬性與本實體其它屬性計算值相等的約束,比如合同的RMB簽約金額必須等于USD簽約金額與匯率的乘積。

(17)單表邏輯一致性類:某一屬性值與本實體其他屬性滿足邏輯關系約束(大于或小于),比如合同關閉日期不能早于注冊日期。

(18)外關聯約束類:引用其他業務對象屬性時,所維護的屬性值必須在其他業務對象中存在的約束,比如合同的簽約客戶必須為客戶主數據中定義的法人客戶。

(19)跨表等值一致約束類:某一屬性值與其他實體的一個或多個屬性值的函數計算結果相等的約束,比如賬單表的總金額與賬單明細表的科目金額之和一致。

(20)跨表邏輯一致約束類:某一屬性值滿足其他實體的一個或多個屬性值的函數關系的約束(大于或小于),比如客戶表中客戶的入網日期早于客戶訂購產品表中的產品訂購日期。

7、及時性

維度定義:

指信息相對于真實實體而言的最新程度,流通性可以度量信息的“新鮮程度”。

規則類型:

(21)屬性及時性約束類:屬性必須在規定的時間周期內刷新,比如產品價格必須每24小時刷新一次。

(22)單表及時性約束類:在本實體的一個或多個屬性值的滿足某個條件時,屬性值要在一個指定時間周期內刷新。

(23)跨表及時性約束類:在其它實體的一個或多個屬性值的滿足某個條件時,本實體的屬性值要在一個指定時間周期內刷新。

8、可訪性

維度定義:

指信息可訪問性的時間期望指數,可訪性可以用期望使用信息的時間與信息準備就緒的時間之間的差進行測量。

規則類型:

(24)可訪問性類:可訪問信息的時間與信息準備就緒的時間之差。

(25)響應時間類:請求者從發出請求到接收到信息的時間之差。

9、合理性

維度定義:

指對數據值一致性或合理性期望指數相關的綜合評述。

規則類型:

(26)通用合理性類:數據滿足合理的期望指數,比如司機的年齡不小于18歲。

(27)時態合理性類:新值需與基于先前值的期望指數一致,即數據集的某個統計(合計、總計、平均等)的值應該與歷史數據集的統計值的差異在合理范圍,比如當日新增用戶數不應高于過去30天平均值的20%。

(28)協議合理性類:定義服務水平協議、安全協議及績效相關的文檔,應評測與協議的符合性。

10、唯一性

維度定義:

指對核心概念對象的唯一命名和表示,以及通過識別屬性值將含有實體數據的數據實例鏈接在一起的能力。

規則類型:

(29)記錄唯一類:記錄不重復,存在可識別的業務主鍵進行唯一性判斷,是對數據集內部是否存在相似或重復記錄的約束規則,比如法人客戶中國移動通信股份有限公司只能存在唯一一筆。

定性維度的規則類型包括權威源符合度、服務水平協議符合度、與數據標準的符合度、可理解性等等。

針對每個數據質量維度都進行評估代價很大,每個企業都應根據自己的業務需求、優先級、可行性來選擇最有意義的維度組合來進行測量,數據質量維度的評估結果用于確定數據質量的基線、監測和改進。

四、其它數據質量維度框架

1、麥吉利夫雷的《數據質量工程實踐》

2、洛申的《數據質量改進實踐指南》

3、DAMA2

4、華為數據之道

5、數據治理:工業企業數字化轉型之道


(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢