一、數據質量定義
數據質量的高低代表了該數據滿足數據消費者期望的程度,這種程度基于他們對數據的使用預期。數據質量必須是可測量的,把測量的結果轉化為可以理解的和可重復的數字,使我們能夠在不同對象之間和跨越不同時間進行比較。
數據質量管理是通過計劃、實施和控制活動,運用質量管理技術度量、評估、改進和保證數據的恰當使用。
二、數據質量保障原則
1、準確性
準確性是指數據記錄中信息和數據是否準確、不存在明顯的錯誤或異常。例如,在用戶行為
數據分析場景中,UV、PV這類指標數值小于0,則明顯是錯誤數據。
2、完整性
完整性是指數據的記錄和信息是否完整、不缺失。數據的缺失包括數據記錄的缺失和記錄中某字段信息的缺失。需要重點關注數據的生產環節和加工環節中表行數是否大于0、表行數波動是否正常以及字段是否出現空值或重復的情況。
3、及時性
及時性主要體現在數據應用層的指標數據可以及時產出。在保證了上面的完整性、準確性、一致性的基礎上,保障數據及時產出,才更能發揮數據的價值。保證及時性,需要確保整個數據加工鏈路上的每個環節都可以準時成功產出。
4、一致性
對于不同的業務流程和節點,來源相同的數據必須保持一致性。
三、數據質量管理的方法論
1、組織環境
一個強有力的數據管理組織的建設是數據治理項目成功的最根本的保證。其作業是兩個層面:一是在制度層面,制定企業數據治理的相關制度和流程,并在企業內推廣,融入企業文化。二是在執行層面,為各項業務應用提供高可靠的數據。
2、數據質量管理方針
為了改進和提高數據質量,必須從產生數據的源頭開始抓起,從管理入手,對數據運行的全過程進行監控,強化全面數據質量管理的思想觀念,把這一觀念滲透到數據生命周期的全過程。
3、數據質量問題分析
關于質量問題的分析,推薦采用經典的六西格瑪,六西格瑪是一種改善企業質量流程管理的技術,以“零缺陷”的完美商業追求,以客戶為導向,以業界最佳為目標,以數據為基礎,以事實為依據,以流程績效和財務評價為結果,持續改進企業經營管理的思想方法、實踐活動和文化理念。六西格瑪重點強調質量的持續改進,對于數據質量問題的分析和管理,該方法依然適用。
4、數據質量監控
數據質量監控可以分為數據質量的事前預防控制、事中過程控制和事后監督控制:
1)事前預防控制
建立數據標準化模型,對每個數據元素的業務描述、數據結構、業務規則、質量規則、管理規則、采集規則進行清晰的定義,以上的數據質量的校驗規則、采集規則本身也是一種數據,在元數據中定義。實踐告訴我們做好元數據管理,是預防數據質量問題的基礎。
2)事中過程控制
事中數據質量的控制,即在數據的維護和使用過程中去監控和處理數據質量。通過建立數據質量的流程化控制體系,對數據的新建、變更、采集、加工、裝載、應用等各個環節進行流程化控制。
3)事后監督控制
不論我們做了多少預防措施、多嚴格的過程控制,總是還有數據質量問題的“漏網之魚”,你會發現只要是人為干預的過程,總會存在數據質量的問題。數據質量問題一旦產生就已經是“木已成舟”,為了避免或減低其對業務的影響,我們需要及時的發現它。這里,數據質量的事后監督控制就尤為重要了。
5、數據全周期管理
數據的生命周期從數據規劃開始,中間是一個包括設計、創建、處理、部署、應用、監控、存檔、銷毀這幾個階段并不斷循環的過程。企業的數據質量管理應貫穿數據生命周期的全過程,覆蓋數據標準的規劃設計、數據的建模、數據質量的監控、數據問題診斷、數據清洗、優化完善等方面。