大數據時代數據的核心在于數據價值,而數據有價值的關鍵在于
數據質量。Collibra 一項調查發現,45% 的數據使用者稱其報告基于的數據半數以上質量不夠理想;Gartner 2016 年的一項研究發現,由于數據質量差,受訪組織平均每年將損失960 萬美元。本文從什么是數據質量管理,影響數據質量的因素等幾個點詳細講解數據質量管理措施。
數據質量管理的定義
數據質量管理(Data Quality Management),是指對數據生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列循環管理活動,數據生命周期包括數據獲取、存儲、處理、傳輸、交換、銷毀。數據質量管理通過改善和提高組織的管理水平使得數據質量獲得進一步提高。最終目標是通過可靠的數據提升數據在使用中的價值,并最終為企業贏得經濟效益。
影響數據質量的因素
信息因素
信息因素是由于對數據度量標準以及數據本身的描述理解的偏差而造成的數據質量問題。產生這部分數據質量問題的原因主要有:數據度量的各種性質得不到保證和變化頻度不恰當、元數據描述及理解錯誤等。
流程因素
流程因素是指由于人工操作流程和系統作業流程設置不當造成的數據質量問題,主要來源于主題分析數據的創建流程、裝載流程、傳遞流程、使用流程、維護流程和稽核流程等各環節。
管理因素
管理因素是指由于管理機制方面及人員素質的原因造成的數據質量問題,如培訓和獎勵、人員管理等方面的措施不當導致的管理缺失。
技術因素
技術類因素產生的直接原因是技術實現上的某種缺陷,由于具體數據處理的各技術環節的異常造成的數據質量問題。數據質量問題的產生環節主要包括數據獲取、數據創建、數據裝載、數據傳遞、數據使用、數據維護等方面的內容。
數據質量管理措施
1、成立數據治理組織
數據治理組織應包括技術人員、管理人員和業務人員。數據治理組織可以設置三種角色,數據治理技術組、數據治理業務組、數據治理委員會。分別負責:1)系統數據錄入功能符合數據校驗標準和數據治理標準,開發數據質量檢測規則,監控數據質量,批量修改數據等工作,系統數據的備份、恢復、安全、審計等工作;2)業務系統參數、基礎數據維護,保證系統正常使用,審核、檢查、整改業務數據,在數據產生源頭提高數據質量;3)制定數據治理的目標、制度、規范、流程、標準等,溝通協調,解決相關人員責、權、利問題,推行數據治理文化。
2、提高全面思想認識
數據是企業的寶貴資產,各企業已經意識到數據質量的重要性。但各方人員沒有意識到數據治理的重要性,對數據治理的認識還處于盲區。數據治理是一個系統工程,需要管理層、系統開發人員、系統使用人員、系統維護人員多方協作,從上到下全面提高思想認識,保證在系統建設、系統運行、系統維護各個環節都能重視數據治理。
3.、制定數據安全管理制度
安全管理制度主要用來規范員工在日常工作中安全地使用數據,并且指導技術人員如何實施數據安全工作。保障數據安全是企業信息化的首要工作,企業應該制定貫穿于數據生命周期的數據安全管理制度,包括數據生成及傳輸、數據存儲、數據處理及應用、數據銷毀四個方面。
4、制定數據質量管控規范
為了提高數據治理執行效率,有必要建立數據治理績效考核,檢驗數據治理各個環節的效果。通過制定數據質量管控規范,使相關人員明確在數據產生、存儲、應用整個生命周期中數據治理包含的工作內容和工作流程,形成校內統一管理體系。
5、建立數據標準體系
數據標準體系包括技術標準、數據標準、數據質量標準、管理標準等內容。信息化建設應遵循標準先行的原則,制定企業內部數據標準體系,保證各業務部門、各業務系統使用相同的數據標準,提高部門間、系統間數據共享能力,避免形成信息孤島。企業可以成立由業務人員和技術人員組成的數據標準制定小組,負責數據標準體系的制定、維護、宣傳、解釋等工作。