數據質量管理是所有數據類項目重點關注的領域,從20多年前的
數據倉庫到如今的
數據治理、數據中臺,企業都試圖通過對改善數據質量來提升數據的價值。在企業的實際經營中,引發數據質量問題的因素廣泛、復雜,涉及企業的信息系統、組織架構、人員、制度流程、企業文化等。今天我們就來聊一聊企業如何評估和提升數據質量。

為什么要進行數據質量評估
很多剛入門的
數據分析師,拿到數據后會立刻開始對數據進行各種探查、統計分析等,企圖能立即發現數據背后隱藏的信息和知識。然而忙活了一陣才頹然發現,并不能提煉出太多有價值的信息,白白浪費了大量的時間和精力。比如和數據打交道的過程中,可能會出現以下的場景:
場景一:作為分析師,要統計一下近7天用戶的購買情況,結果從數倉中統計完發現,很多數據發生了重復記錄,甚至有些數據統計單位不統一。
場景二:業務看報表,發現某一天的成交gmv暴跌,經過排查發現,是當天的數據缺失。
造成這一情況的一個重要因素就是忽視了對數據質量的客觀評估。在進行數據分析前需要注意以下兩點:
1、在實際工作中數據分析一定都是為具體業務服務的,只有緊密圍繞業務需求的分析才是有意義的有價值的。
2、通常我們進行數據分析、挖掘的目的是企圖發現數據中隱藏的知識和信息,從而對實際業務或產品進行優化。如果數據集本身質量不佳,自然很難得出有用的結論,甚至可能得到錯誤的結果延伸到導致決策失誤。
所以,進行科學、客觀的數據質量評估是非常必要且十分重要的。首先可以節約大量試錯的時間;其次可以降低得出錯誤結論的概率;還可以縮短數據反饋流程,更加及時的將數據收集過程存在的問題反饋給數據生產部門,提高協作效率。
數據質量六大評價標準
數據質量是保證數據分析應用的基礎,是獲取
數據價值的重要保障。根據目前業界對于數據質量的衡量標準,并結合多年項目經驗總結,可基于數據完整性、唯一性、有效性、一致性、準確性和及時性6個維度來評估數據質量。依據以上指標,針對不同的信息系統做出定量的數據質量評估,也可根據實際情況,在評估執行中進行取舍。

(1)數據完整性
完整性指的是數據信息是否存在缺失的狀況,數據缺失的情況可能是整個數據記錄缺失,也可能是數據中某個字段信息的記錄缺失。
(2)數據唯一性
唯一性指的是數據庫的數據不存在重復的情形。比如真實成交1萬條,但數據表有3000重復了,成了1.3萬條成交記錄,這種數據不符合數據唯一性。
(3)數據有效性
有效性指的是描述數據遵循預定的語法規則的程度,是否符合其定義,比如數據的類型、格式、取值范圍等。
(4)數據一致性
一致性是指數據是否遵循了統一的規范,數據集合是否保持了統一的格式。數據質量的一致性主要體現在數據記錄的規范和數據是否符合邏輯,一致性并不意味著數值上的絕對相同,而是數據收集、處理的方法和標準的一致。常見的一致性指標有:ID重合度、屬性一致、取值一致、采集方法一致、轉化步驟一致。
(5)數據準確性
準確性是指數據記錄的信息是否存在異常或錯誤。和一致性不一樣,存在準確性問題的數據不僅僅只是規則上的不一致,更為常見的數據準確性錯誤就如亂碼,其次異常的大或者小的數據也是不符合條件的數據。常見的準確性指標有:缺失值占比、錯誤值占比、異常值占比、抽樣偏差、數據噪聲。
(6)數據及時性
及時性是指數據從產生到可以查看的時間間隔,也叫數據的延時時長。比如一份數據是統計離線今日的,結果都是第二天甚至第三天才能統計完,這種數據不符合數據及時性。
企業如何進行數據質量評估
一般來說,當企業有了全新的業務需求、重大的技術變更,又或者從一個新的數據來源獲取了全新的數據,并期望將它應用在一個具體的業務中的時候,我們都需要進行比較完整的
數據質量分析。數據質量評估步驟如下:
1、需求分析,明確目標
對具體業務數據的數據質量評價是以業務需求為中心進行的,必須首先了解具體業務針對特定數據資源的需求特征才能建立針對性的評價指標體系。同時,同一份數據在不同的生命周期中,其質量的關注點是存在差異的,因此很重要的一點就是明確當前階段數據質量管理的目標是什么。有了明確的目標,才能開始對數據進行合理的評估。
2、確定評價對象及范圍
確定當前評估工作應用的數據集的范圍和邊界,明確數據集在屬性、數量、時間等維度的具體界限。需要說明的是,評價對象既可以是數據項也可以是數據集,但一定是一個確定的靜態的集合。
3、選取質量維度及評價指標
數據質量維度是進行質量評價的具體質量反映,如正確性、準確性等,它是控制和評價數據質量的主要內容。因此,首先要依據具體業務需求選擇適當的數據質量維度和評價指標。另外,要選取可測、可用的質量維度作為評價指標準則項,在不同的數據類型和不同的數據生產階段,同一質量維度有不同的具體含義和內容,應該根據實際需要和生命階段確定質量維度。
4、確定質量測度及其評價方法
數據質量評價在確定其具體維度和指標對象后,應該根據每個評價對象的特點,確定其測度及實現方法。對于不同的評價對象一般是存在不同的測度的,以及需要不同的實現方法支持,所以應該根據質量對象的特點確定其測度和實現方法。
5、實施質量評估
根據前面四步確定的質量對象、質量范圍、測量及其實現方法實現質量評測的活動過程。評價對象的質量應當由多個質量維度的評測來反映,單個數據質量測量是不能充分、客觀評價由某一數據質量范圍所限定的信息的質量狀況,也不能為數據集的所有可能的應用提供全面的參考,多個質量維度的組合能提供更加豐富的信息。
6、撰寫結果分析并報告
經過抽樣、度量、評估之后,就可以得到評估結論了。最后我們需要的就是撰寫一份評估的報告,在這份報告當中,除了最后的結論,應當還包括對這個結論的分析和解讀,并通過一些可視化的方式展現在報告當中。數據質量評估報告不是最終的目的,這份報告對后續數據質量的管理,數據治理等都具有非常重要的參考意義。因此,在這份報告中應當包含結論、分析以及質量改善建議這幾個方面。
提高數據質量的方法
要想真正解決數據質量問題,明確業務需求并從需求開始控制數據質量,并建立數據質量管理機制。從業務出發做問題定義,由工具自動、及時發現問題,明確問題責任人,通過郵件、短信等方式進行通知,保證問題及時通知到責任人。跟蹤問題整改進度,保證數據質量問題全過程的管理。
正所謂,工欲善其事,必先利其器。億信華辰睿治
數據治理平臺的數據質量管理模塊以全面質量管理PDCA循環管理方法為指導,充分結合國內數據質量管理工作的特點,運用
元數據管理、數據挖掘、數據分析、工作流、評分卡、可視化等技術最終幫助企業和政府建立數據質量管理體系,全面提升數據的完整性、規范性、及時性、一致性、邏輯性等,降低數據管理成本,減少因數據不可靠導致的決策偏差和損失。

1、構建數據質量規則庫
定義數據驗證方法,內嵌空值檢查、值域檢查等13種檢查規則,基本覆蓋目前數據質量相關問題。
2、發現數據質量問題
靈活定義多模型質檢方案,多點監測、多模型質檢方案,高效調度,并發和串行處理相結合,性能高效,只需2分30秒,便可完成20條規則百萬級數據的質量檢查。
3、出具全面的“體檢報告”
內置常規質檢分析報告,實時可視化呈現質檢結果,質檢結果模型靈活擴展,充分利用了
BI工具的分析展現能力,提供圖文并茂的質量檢查結果報告。
4、數據質量全流程管理
提供從標準定義、質量監控、績效評估、質量分析、質量報告、重大問題及時告警、流程整改發起、系統管理等數據質量管理全過程的功能,不僅能發現問題、還能將問題分發給數據負責人、管理者,在線跟蹤問題處理進展。
結語:數據質量的治理,是數據治理的主要內容之一。數據質量的全面評價,是數據質量治理的準繩。在整個數據治理環節,億信華辰睿治數據治理平臺從數據源頭控制數據質量,貫徹始終,全面提升數據的完整性、規范性、及時性、一致性,減少因數據不可靠導致的決策偏差和損失。
(部分內容來源網絡,如有侵權請聯系刪除)