世界正處于大數據時代。每次有人下載應用程序、發送電子郵件或文本、發送任何數量看似微不足道的事情時,都會創建數據,而數百萬人的這些交互的復合數量造成了數據的爆炸式增長。每天大約產生2.5 萬億字節的數據。企業開始意識到數據質量管理的重要性。數據驅動型企業的一個共同特征是,他們都制定了數據質量管理計劃,以確保使用最優質的數據源。麻省理工學院斯隆進行的一項驚人研究指出,不良數據的處理成本可能高達總收入的 15-25%,且是長期的無用成本損耗。哈佛商學院發布一項研究顯示,47% 的新創建數據記錄至少包含一個嚴重錯誤。推動數據質量需求的共同點有:將新數據源,尤其是非結構化數據與現有系統集成;利用所有可用的企業數據所需的財務投資和競爭壓力以及從數據所在的孤島中提取數據的難度等。一個可靠的數據質量管理計劃將確保數據的高度完整性,并且任何需要它的人都可以以安全和受監管的方式隨時獲得數據。數據質量管理就是找到正確的組合,讓合適的人員按照正確的方法配備正確的工具。本文將介紹到底什么是數據質量管理。
數據質量管理的定義
數據質量管理是指為了滿足信息利用的需要,對信息系統的各個信息采集點進行規范,包括建立模式化的原始信息的校驗、操作規程、錯誤信息的矯正、反饋等一系列過程。也可以說是對數據從采集、存儲、處理、傳輸、交互、銷毀生命周期的每個階段里可能引發的各類數據質量問題,進行監控、度量、識別、預警等一系列管理活動。通過改善和提高組織的管理水平使得數據質量獲得進一步提高。數據質量管理是循環管理過程,其終極目標是通過可靠的數據提升數據在使用中的價值,并最終為企業贏得經濟效益。
數據質量評估
唯一性:用于度量哪些數據是重復數據或者數據的哪些屬性是重復的。
規范性:用于度量哪些數據未按統一格式存儲。
完整性:用于度量哪些數據丟失了或者哪些數據不可用。
準確性:用于度量哪些數據和信息是不正確的,或者數據是超期的。
一致性:用于度量哪些數據的值在信息含義上是沖突的。
關聯性:用于度量哪些關聯的數據缺失或者未建立索引。
影響數據質量因素

技術因素:由于具體數據處理的各技術環節的異常造成的數據質量問題。數據質量問題的產生環節主要包括數據獲取、數據創建、數據裝載、數據傳遞、數據使用、數據維護等方面的內容。
管理因素:由于人員素質及管理機制方面的原因造成的數據質量問題。如人員培訓、人員管理、培訓或者獎懲措施不當導致的管理缺失或者管理缺陷。
信息因素:產生這部分數據質量問題的原因主要有:元數據描述及理解錯誤、數據度量的各種性質得不到保證和變化頻度不恰當等。
流程因素:由于系統作業流程和人工操作流程設置不當造成的數據質量問題,主要來源于系統數據的創建流程、傳遞流程、裝載流程、使用流程、維護流程和稽核流程等各環節。
數據質量管理方法
企業組織應該如何解決數據質量問題? 可以映射到六西格瑪管理方法,如下圖
億信華辰深耕大數據領域15年,憑借深厚的技術底蘊與開發經驗,研發出了睿治智能數據治理平臺。以下是該平臺可以支持數據驅動型企業的方式:
管理數據生命周期: 數據管理是定義和維護數據模型、記錄數據、清理數據以及定義其規則和策略的過程。它支持實施定義明確的數據治理流程,涵蓋多項活動,包括監控、協調、優化、重復數據刪除、清理和聚合,以幫助向應用程序和最終用戶提供高質量的數據。
分析數據環境: 通過數據剖析,衡量整個企業中以各種形式存儲的數據的特征和狀況的,獲得對企業數據的重要控制權。
快速準備和共享數據:睿治智能數據治理平臺支持多種異構數據源接入,獲得大量數據集,然后清理、標準化、轉換或豐富數據。
安全共享質量數據:在不將機密信息暴露給未經授權的人員的前提下,支持使用本地或基于云的應用程序有選擇地共享生產質量數據。
