- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2023-02-27來源:雪茶瀏覽數:672次
人道是:“紙上得來終覺淺,絕知此事要躬行”,但對于已經有一定經驗的數據管理者來說,往往需要倒過來做,即“躬行得來終覺窄,絕知此事要系統”,數據質量是數據的生命線,那么,數據質量應該如何體系化提升呢?
本文提出了一個“5-8-2”的數據質量管理框架,圍繞這個框架,首先介紹了包含5個階段的六西格瑪質量管理方法,其次詳細介紹了數據質量管理的8個步驟,并輔以案例說明,最后給出了數據質量管理的2大保障體系。
一、“5-8-2”的數據質量管理框架
在六西格瑪質量管理理論和麥吉利夫雷的數據質量十大步驟【1】基礎上,本文給出一個“5-8-2”的數據質量管理提升框架,框架分為5個階段,8個步驟及2大保障,如下圖所示:
5個階段:數據質量管理為定義、檢查、分析、提升及控制5個階段,這個與經典的六西格瑪(縮寫:6σ 或 6Sigma)方法是一脈相承的,六西格瑪管理(Six Sigma)是一種以數據分析和統計學為基礎的管理方法,旨在通過識別和消除導致業務流程變異的根本原因來實現業務流程的改進和質量的提高,六西格瑪重點強調質量的持續改進,對于數據質量問題的分析和管理,該方法依然適用。
8大步驟:六西格瑪映射到數據質量管理領域,共覆蓋明確數據質量需求、進行數據質量檢查、評估業務問題影響、確定問題根本原因、制定質量提升方案、修復當前數據錯誤、預防未來數據錯誤、實施數據質量運維8個步驟。
2個保障:數據治理體系保障及數據環境分析保障2個模塊為數據質量提升提供保障能力,貫穿了所有8個步驟。
二、數據質量管理八大步驟
1、明確數據質量需求
(1)明確業務問題和優先級應該關注那些由于數據質量問題導致的收入損失、風險增加、流程卡頓等業務問題,并按照對業務的影響程度(比如費效矩陣)進行排序,要確保利益相關者充分發表他們的關注點和意見。以下是一個示例:“XX公司市場部希望對XX個小區的用戶進行寬帶營銷,需要后端網絡部門核實XX個小區的寬帶資源覆蓋情況,但后端寬帶網絡資管系統維護的小區覆蓋地址信息無論是格式和內容都跟市場XX小區不一致,因此,后端網絡部門只能通過人工排摸的方式去確認實際覆蓋情況,這極大影響了前端市場寬帶用戶的發展。公司相關部門認為解決地址數據的前后端一致問題能為業務帶來更多收益,同時降低管理成本,該項工作被納入公司改革項目。”
(2)制定數據質量項目方案根據對業務需求涉及的數據問題分析,明確數據質量管理范圍和需求,制定具體的數據質量管理目標;明確項目的時間計劃并通過數據治理委員會(或相關數據治理組織)決策通過。以下是一個目標示例:“XX公司本次數據質量提升的目標是建立地址數據的標準,實現前端市場小區的地址信息和后端網絡的覆蓋地址信息保持一致,考慮到地址數據涉及的系統和流程較多,本次改造僅針對YY個流程的ZZ各系統進行變更。”
2、進行數據質量檢查
(1)選擇合適的數據質量維度依據數據質量管理需求及業務目標,對數據的內容、質量和結構進行剖析,發現數據不規范問題和使數據項目處于危險中的隱藏數據問題,據此選擇合適的的數據質量維度組合,定義具體的校驗規則與方法,提供數據質量水平基線,這是判斷數據是否符合數據質量要求的邏輯約束。以下分別是一個數據剖析框架和一個數據質量維度與規則框架示例:

準確性維度分類中存在一個規則類型,名稱叫“值的約束類”,描述是“屬性值必須支持為該屬性值定義的可接受值”,度量指標是“符合約束的記錄/總記錄”,符合性閾值可以根據數據剖析的結果定義為一個固定比例值,比如針對下圖數據剖析的“Product_key”字段,約束是“非空”,度量指標是“字段的值屬于“非空”的記錄/總記錄數”,符合性閾值是“80%”,現在發現非空比例是61512/61512=100%,這代表該屬性符合數據質量規則,達到了數據質量基線水平:
(2)用所選擇的維度評估質量基于數據質量環境分析(包括組織、角色、流程、系統和數據模型等),明確數據質量維度評估的方案和計劃,依據預先配置的規則和算法,對系統中的數據進行監測和校驗,給出數據質量評估結果。下圖示例了一個數據質量監控引擎的執行流程:
3、評估業務問題影響:
針對數據質量檢查結果對業務影響進行評估,評估的方法包括業務影響的5個“為什么”,應用使用、流程影響、成本和收益的影響、費效矩陣等等,評估完成后還需進行要解決的業務問題的優先級排序,最終形成數據質量業務影響報告。下面示例了2個評估方法,分別是業務影響的5個“為什么”及流程影響【1】:
(1)基于5個“為什么”的評估假如存貨清單數據不正確,問5次“為什么”,直接獲得業務影響。
提問:為什么存貨清單數據很重要?
回答:存貨報表要用到存貨清單數據。
提問:為什么存貨報表很重要?
回答:采購過程要用到存貨報表。
提問:為什么采購過程要使用存量報表?
回答:采購過程根據存貨報表決定購買細節,采購過程決定訂購或不訂購零部件和制造產品所需的原材料。
提問:為什么采購過程的決策很重要?
回答:如果存貨數據存在錯誤,采購過程將不能在正確的時間購買,缺少零部件和制造產品所需的原材料將影響產品制造時間表,進而推遲產品發往客戶的時間,這將影響公司的收益和資金流動。
(2)流程影響的評估在這個實例中,ERP中需要提供供貨商主記錄,以便放置供貨商訂單、發票和雇員開支報表等信息,下圖顯示了供貨商主記錄請求正確的流程:
如果供貨商主記錄請求不完整或有錯誤,將導致供貨商主記錄請求被拒絕,產生的影響包括:
(1)向供貨商下訂單、向供應商付款、報銷雇員費用的時間延遲
(2)數據管理團隊的重復工作(拒絕請求、確認和調查解決方案、對新請求重新審查)
(3)提交初始請求的采購人員或雇員的重復工作(審查并重新提交)
(4)沮喪的雇員和供應商(5)因為沒有付款而導致的公司服務損失
4、確定問題根本原因
基于業務影響評估和優先級排序,對重點關注的數據質量問題進行深入分析,通過追問“為什么”、數據溯源、魚骨圖等方式來找到根本原因,然后給出針對性的提升建議。根因分析是預防問題再次發生的前提,但日常工作中為了應對緊急情況,往往采取臨時性的解決方案,導致治標不治本,比如數據倉庫基于算法來進行地址數據的稽核和修正,但實際是由于多源錄入或源端錄入的不規范造成的。
(1)追問“為什么”假如發現存在客戶主記錄重復的問題。
提問:為什么存在重復記錄?
回答:因為客服服務代表經常創建新的主記錄而不是說使用現有的記錄。
提問:為什么他們創建新的記錄而不使用現有記錄?
回答:因為客戶服務代表不想對現有記錄進行搜索。
提問:為什么客戶代表不想對現有記錄進行搜索?
回答:因為從輸入搜索請求到獲取搜索結果花費的時間太長。
提問:為什么搜索時間太長?
回答:因為客戶服務代表在搜索技術方面未受到適當培訓,加之系統性能差。
提問:為什么搜索時間太長是一個問題?
回答:因為客戶服務代表是通過創建和完成記錄來進行評價的,重視數據質量沒有任何回報,并且沒有意識到重復記錄會給其它業務帶來問題。
可能發現不止一個根本原因,并且需要沿著每個分支繼續詢問下去,通過考慮為什么的結果,確定哪些根本原因能得到解決。
(2)數據溯源血緣分析可以實現對數據生命周期的追蹤,通過每個追蹤節點輸入和輸出的數據異動可以定位問題。以下是一個示例:
(3)魚骨圖魚骨圖是一種發現問題“根本原因”的方法,它也可以稱之為“Ishikawa”或者“因果圖”。其特點是簡潔實用,深入直觀。它看上去有些像魚骨,問題或缺陷(即后果)標在“魚頭”處。在魚骨上長出魚刺,上面按出現機會多寡列出產生問題的可能原因,有助于說明各個原因是如何影響后果的。以下是一個示例:
實踐中我們會發現,數據質量問題的產生主要在于數據產生環節,其次在于數據集成環節的數據加工過程,而在數據使用環節,基本上不產生數據質量問題,如下圖所示。
究其原因,可能跟數據的不同使用目導致不同的數據質量要求有關,業務系統對數據的使用目的主要是為了保證業務流程的正常運轉和滿足一些簡單的統計功能,因此只要業務流程和統計正常,就可以認為數據質量滿足要求;而分析型系統對數據的使用目的則多種多樣,而且涵蓋企業運營的方方面面,那么滿足業務流程正常運轉的需要并不一定就能保證滿足分析的需求,因此,根因分析對徹底解決數據質量問題是非常關鍵的。
5、制定質量提升方案
基于數據質量或業務影響評估結果,以及根本原因分析中獲得的建議,制定一個行動方案(糾正數據錯誤或預防數據質量問題),明確實施方案的組織、人員和計劃。以下示例了地址主數據一致性提升的舉措、目標、系統改造全景視圖及組織保障:


6、預防未來數據錯誤
數據質量往往遵循“垃圾進,垃圾出”的規律,通過根因分析會發現,通過對人員進行管理和培訓,對業務流程進行優化,對系統問題進行修正,對制度和標準進行完善等手段,往往能實現對數據質量的事前和事中控制,從而防止將來同類問題的發生。這里以前文所述的客服服務代表的數據重復錄入為例說明:
(1)制定客服服務代表數據錄入規范標準并宣貫
(2)優化數據錄入業務流程,明確數據錄入操作步驟并進行培訓
(3)對錄入系統進行優化,標準化錄入格式,對錄入數據進行在線的稽核和控制
(4)優化系統性能,確保查詢和錄入速度
(5)優化客服服務代表的績效考核體系,增加數據錄入質量的要求
7、修復當前數據錯誤
通常數據質量問題需要修復的數據量有大致規律,如人員、流程、前端應用產生的質量問題需要修復的數據量往往不大,而數據庫處理、數據抽取和加載等后臺環節導致的數據質量問題通常涉及的數據量較大,盡管數據錯誤預防可以在很大程度上起到控制不良數據發生的作用,但事實上,再嚴格的預防也無法做到100%,甚至過于嚴格的預防措施還會引起其他數據問題。因此,企業需要不時進行主動的數據清理和補救措施,以糾正現有的數據問題。一般有人工和自動兩種手段,修復的類型包括源端數據批量糾正、數據記錄異常處理、重復數據的合并、缺失值的插補、異常值的處理等等,很多業務反饋的準確性問題由于缺乏參照,往往很難修復。下圖示例了一個重復數據合并案例,使用distinct 或group by ?保留一條記錄,使用開窗函數,保留制定的記錄。

8、實施數據質量運維
在實施了數據質量方案改進后,需要對這個過程進行監控和控制,以確保數據質量總是保持在穩定的狀態,防止偏離目標,具體工作包括:
(1)將數據質量提升的產出(包括各種平臺、程序、資源、規章制度、操作手冊、質量手冊和培訓材料)交付給現有運維職能部門并培訓
(2)運維職能部門將監控和控制納入日常工作,基于步驟2的數據質量檢查方法進行監控,如出現異常或偏差等情況,重復步驟3、4、5、6、7來進行數據質量問題的改進
(3)運維職能部門繼續監控數據質量,確認改進措施是否得到驗證,如果數據質量符合預期,則標準化改進舉措,如果不符合預期,重復(2)三、數據質量管理兩大保障1、數據治理體系保障由前面可知,數據質量管理要高效推進,不僅僅是個技術問題,更是管理問題,依賴于公司的組織、制度、流程的配合,有賴于公司數據治理保障體系的建立,我曾經在《怎樣畫一張人見人愛的數據治理框架圖?by 傅一平》提出過“一體兩翼“數據治理體系框架,見下圖:
可以看到,數據質量管理作為數據管理活動的一種,需要數據治理體系的保障,包括戰略管理、政策原則、組織文化、制度規范、監督控制、變革管理、項目推動、問題管理及法規遵從。下面舉例說明:針對數據質量管理本身,要加強頂層設計,明確數據質量管理的原則,建立數據質量管理制度,明確數據質量管理流程,約束各方加強數據質量意識,督促各方在日常工作中重視數據質量,在發現問題時能夠追根溯源、主動解決。在數據質量需求階段,只有業務部門的充分參與,才能明確業務問題和優先級,確保數據質量改進具有較大的價值,而要做到這點,離不開企業數據戰略的指導,離不開企業級數據治理組織的保障(比如企業級數據治理委員會和辦公室的設置),確保拉通業務和技術,確保足夠的資源投入(比如各部門數據質量管理專員的設置)。在數據質量檢查階段,規范標準的有效執行和落地是數據質量管理的必要條件,包括數據模型標準、主數據和參考數據標準、指標數據標準等,有了規范標準,數據質量規則的制定才有據可依。在預防未來數據錯誤階段,往往需要通過對人員進行管理和培訓,對業務流程進行優化,對系統問題進行修正,對制度和標準進行完善才能徹底解決問題,這些都離不開數據治理的組織文化、制度規范,監督控制等的支持。2、數據環境分析保障數據是一種質量管理的對象,數據本身也是一項業務,對數據這項業務的的理解越透徹,我們前面采取的那些數據質量提升方法和步驟就越有針對性,也會越有效,而所謂數據的業務就是數據從規劃(Plan)、獲取(Obtain)、存儲和共享(Store and Share)、維護(Maintain)、應用(Apply)再到報廢(Dispose)的全數據生命周期(簡稱POSMAD)這個流程。比如理解了數據的應用場景,就可以有效判斷業務問題的價值,從而更好的明確數據質量需求和評估業務影響程度;理解了數據模型和業務場景,就可以制定更合理的數據質量規則,更高效的進行數據質量檢查;理解了數據的全流程,就可以實現數據的血緣分析,這是確定數據問題根本原因的一種有效方法,而通過流程優化往往又能預防數據質量問題的再次發生,諸如此類。下圖的麥吉利夫雷的信息質量框架【1】為理解數據業務流(簡稱POSMAD)提供了一個邏輯框架,可以幫助理解造成數據質量問題的復雜環境,一旦理解了這個框架,可將其用于理解下列事項:
(1)診斷:評估實踐和流程,了解哪里出了故障,并確定是否提供了數據質量需要的所有要素,識別遺漏的要素,將其作為項目優先級和初始根本原因分析的依據。
(2)規劃:設計新的流程,確保影響數據質量的所有要素已經解決,確定時間、金錢和資源的投資方向。
(3)溝通:解釋數據質量所需的和影響數據質量的要素。
這里以地址主數據為例,說明地址相關流程(應用階段)的理解對地址主數據建設的重要性,下面第一張圖展示了所有涉及地址數據使用的流程全景,這是實現地址主數據統一管理的前提,第二張圖針對其中的駐地網資源入網流程進行了詳細的說明:

下面以供應鏈數據為例,從技術角度說明供應鏈系統各個模塊是如何獲取、存儲和共享及維護相關實體的,這對于評估供應鏈數據的使用和變更情況至關重要,如下圖所示:
應該來講,雖然數據質量管理涉及的功能模塊和步驟很多,但在實踐中,只要按需挑選必需的模塊和步驟即可,同時各個步驟間也不是嚴格的前后關系,會有反復,比如在推進到預防未來數據錯誤這個步驟時,往往要回到根因分析這一步驟去進一步核實。最后推薦2本老外數據質量的書籍,細品起來很有料,本文引用了其中不少的的觀點和案例,可惜翻譯的不夠地道,如果有英文原版就更好了。