數據質量是指數據對其期望目的的切合度,即從使用者的角度出發,數據滿足用戶使用要求的程度。 數據質量重點關注數據質量需求、數據質量檢查、
數據質量分析和數據質量提升的實現能力,對數據從 計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題進行 識別、度量、監控、預警等一系列活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提 高。
1 數據質量需求
1.1 概述
數據質量需求是指明確數據質量目標,根據業務需求及數據要求制定用來衡量數據質量的規則,包 括衡量數據質量的技術指標和衡量數據質量的業務指標以及相應指標的校驗規則與方法。數據質量需求為度量和管理數據質量提供了一種途徑,需要依據組織的數據管理目標,行業的監管需求以及參考相關 標準來統一制定、管理。
1.2 過程描述
數據質量需求是組織進行數據質量管理的基礎活動,形成的數據質量規則應合理地反映數據質量元 素所要求的數據質量特性,從而對組織的數據進行統一的規范和管理。 數據質量需求過程域主要包含以下活動:
a) 識別數據質量業務需求并明確目標
基于組織所管理的數據資產內容明確數據質量管理的目 標,確定數據質量管理范圍,包括業務方面、技術方面等,明確數據質量管理需求,從而明確 數據質量管理活動涉及的范圍。
b) 設計并實施數據質量規則
依據組織的數據質量管理目標及數據質量管理需求,識別組織的數 據質量特性,確定被識別的數據質量特性對業務的影響,從而設計描述數據質量的關鍵維度, 定義數據質量指標、校驗規則及方法,并根據業務發展需求及數據質量檢查分析結果對數據質 量規則進行持續維護與更新。
1.3 建設目標
建設目標應包括以下內容:
a) 形成明確的數據質量管理目標
b) 建立持續更新的數據質量規則庫
1.4 度量標準
度量標準應包含以下內容:
a) 級別 1:初始級
1) 在個別項目中存在偶然的數據質量需求行為;
b) 級別 2:受管理級
1) 在某些業務領域明確數據質量需求;
2) 設計滿足本領域業務需求的數據質量規則。
3) 建立本領域的數據質量規則庫
c) 級別 3:已定義級
1) 制定全組織數據質量目標,具有明確的數據質量需求;
2) 設計全組織統一的數據質量規則;
3) 建立全組織統一的數據質量規則庫。
d) 級別 4:量化管理級
1) 定義并應用量化指標,衡量數據質量規則庫運行有效性;
2) 持續改善優化數據質量規則庫。
e) 級別 5:優化級
1) 成為行業最佳實踐,參與相關標準規范的制定。
2 數據質量檢查
2.1 概述
數據質量檢查指結合數據質量規則中的有關技術指標和業務指標、校驗規則及方法對組織的數據質 量情況進行動態、實時監控,從而獲取數據質量問題,并向
數據質量監控人員進行告警、及時掌控數據 風險。
2.2 過程描述
數據質量檢查是對源系統中數據進行檢查,包括特定的批量檢查和定期的持續檢查,通過系統自動 或手動方式發現存在的數據質量問題的過程。 數據質量檢查過程域主要包括以下活動:
a) 數據質量情況采集
根據組織數據質量管理需求,結合定義的數據質量指標,在數據源系統數 據處理的相關環節配置采集點,采集數據質量信息。數據質量情況采集到的信息作為后續數據 質量檢查環節的輸入,是數據質量檢查的基礎。
b) 數據質量規則校驗
依據預先配置的規則、算法,對采集的數據進行規則校驗,包括對源系統 關鍵表關鍵字段進行數據稽核,對關鍵指標進行對比,對數據實體、數據處理過程進行檢查, 需要驗證數據的差異性和波動性。數據質量規則驗證可以采用一些簡單的或復雜的統計與計算 方法進行。
c) 數據質量問題管理
對發現的數據質量問題進行管理,包括問題記錄、問題查詢、問題分發和 問題跟蹤。在進行數據規則校驗過程中發現數據質量問題可以產生告警即時推送給數據質量管 理人員轉入問題管理,在進行數據質量評估或日常工作中發現數據質量問題也可以通過問題管 理進行記錄。
2.3 建設目標
數據質量檢查的建設目標如下:
a) 全面監控組織數據質量情況;
b) 建立數據質量檢查持續改善措施。
2.4 度量標準
度量標準應包含以下內容:
a) 級別 1:初始級
1) 開展偶然的數據質量檢查活動,基于出現的數據問題進行問題查找;
b) 級別 2:已定義級
1) 在某些業務領域按計劃進行數據質量采集和校驗;
2) 在某些業務領域按計劃進行數據質量問題管理。
c) 級別 3:已定義級
1) 在全組織統一制定數據質量檢查計劃;
2) 在全組織統一執行數據質量的采集和校驗;
3) 在全組織建立數據質量問題發現、告警機制和流程。
d) 級別 4:量化管理級
1) 定義并應用量化指標,衡量數據質量檢查進行有效性;
2) 建立數據質量檢查持續改善措施。
e) 級別 5:優化級
1) 成為行業最佳實踐。
3 數據質量分析
3.1 概述
數據質量分析指根據數據質量需求對數據質量檢查過程形成的數據質量問題及累積的各種信息進 行匯總,依據數據質量規則進行數據質量評估,確定影響數據質量的原因、并區分影響數據質量的級別, 以作為數據質量提升的參考和依據
3.2 過程描述
數據質量分析對數據質量問題進行原因分析、評估影響,并形成數據質量報告,主要包括如下內容:
a) 數據質量評估
針對數據質量異常進行審核,分析問題原因,評估數據質量異常對業務的影響, 以作為數據質量提升的參考和依據。
b) 數據質量報告
數據質量報告是對數據質量檢查、分析等過程累積的各種信息進行匯總、梳理、 統計和分析,形成統計報告的過程。數據質量報告提供了一個集中數據質量的窗口,通過總結 經驗、沉淀知識和改進方法以提高數據質量提升能力。
3.3 建設目標
數據質量分析的建設目標如下:
a) 全面分析組織數據質量情況;
b) 建立數據質量問題評估分析方法;
c) 建立持續更新的數據質量知識庫。
3.4 度量標準
度量標準應包含以下內容:
a) 級別 1:初始級
1) 開展偶然的數據質量分析,基于出現的數據問題進行評估。
b) 級別 2:受管理級
1) 在某些業務領域建立數據質量問題評估分析方法,進行數據質量問題評估;
2) 在某些業務領域建立數據質量報告。
c) 基級別 3:已定義級
1) 在全組織建立數據質量問題評估分析方法,進行數據質量評估;
2) 在全組織定期發布數據質量報告;
3) 對產生的信息進行知識總結,建立數據質量知識庫。
d) 級別 4:量化管理級
1) 定義并應用量化指標,衡量數據質量分析進行有效性;
2) 持續改善優化數據質量知識庫。
e) 級別 5:優化級
1) 成為行業最佳實踐。
4 數據質量提升
4.1 概述
數據質量提升是指結合數據質量管理目標確立數據質量改進目標,根據數據質量分析的結果制定、 實施數據質量改進方案,包括數據級和組織級的;并制定數據質量問題預防方案,以維護已改進的效果、 確保數據質量改進的成果得到有效保持。
4.2 過程描述
數據質量提升是改進數據質量問題、提升數據質量水平的過程,主要包括如下內容:
a) 數據質量校正
采用
數據標準化、
數據清洗、數據轉換和數據整合等手段和技術,從數據中探 測并對不符合質量要求的臟數據進行處理,糾正數據質量問題的過程。具體包括參照數據質量 要求運用基于規則的標準化、范式化綜合措施進行自動校正,使用自動化工具清洗校正、人工 審核,以及數據管理人員確定正確取值、人工校正三種方式。
b) 數據質量跟蹤
數據質量跟蹤記錄數據質量事件的評估、初步診斷和后續行動等信息,可以幫 助數據管理人員監控在數據質量服務水平協議(SLA)范圍內的相關活動,并證明數據質量提 升活動的有效性,以確保對數據質量持續可預測。
c) 改進策略
數據質量管理是一個持續的過程,應根據數據質量定義、數據質量檢查、數據質量分析、數據質量提升的要求在數據需求、設計開發、數據運營和數據退役全生命周期過程中建立良好的數據質量持續提升策略,以確保數據滿足組織中全部數據消費者的需求。
4.3 建設目標
數據質量提升的建設目標如下:
a) 達到組織數據質量要求;
b) 建立數據質量跟蹤機制和流程;
c) 建立數據質量持續改進策略。
4.4 度量標準
度量標準應包含以下內容:
a) 級別 1:初始級
1) 開展偶然的數據質量提升,基于出現的數據問題進行數據質量校正。
b) 級別 2:受管理級
1) 在某些業務領域進行數據質量校正;
2) 建立數據質量跟蹤記錄;
3) 建立數據質量問題預防方案。
c) 級別 3:已定義級
1) 在全組織進行數據質量校正和跟蹤;
2) 建立數據質量改進策略。
d) 級別 4:量化管理級
1) 定義并應用量化指標,衡量數據質量提升進行有效性;
2) 持續改善優化數據質量改進策略。
e) 級別 5:優化級
1) 成為行業最佳實踐。
本文系由人工智能(AI)工具通過關鍵字匹配與信息整合技術生成之內容,其性質僅為初步參考與信息摘要,并不代表億信華辰的官方立場或承諾。
億信華辰明確??不對該等內容的真實性、準確性和完整性提供任何明示或默示的保證或承諾??。
涉及所有產品與服務的具體功能、配置及商業條款,均須以億信華辰發布的官方文檔及合同約定為準。
請您知悉,如需確認任何信息,最可靠的途徑是直接咨詢您的銷售對接人或通過官方在線客服渠道核實。
如有任何疑問或反饋,您可通過郵箱
yixin@esensoft.com或
4000011866聯系我們。
我們承諾在收到郵件后盡快為您答復與處理。