數據是企業的重要資產已成為共識,但這份資產能發揮多大的價值,就得乘以
數據質量這個重要的系數來看。低質量的數據將直接導致數據統計分析不準確、業務應用難、決策不準確等問題,
數據資產價值難以保障。
但數據質量的提升是一項復雜的工程。從數據的整個生命周期來看,任何一個環節都可能會產生數據質量問題,每個環節的數據質量都牽一發而動全身。所以,針對數據質量的管理通常難度較大。它不是單純業務、技術或管理某單一維度的問題,它涉及到企業標準的制定、規范的落地、以及數據生命周期的管理等多個環節,應該是全組織必須協同遵守的基本規范。
基于此,我們可以應用PDCA循環模型,來對數據質量來進行一個全面、長期的提升與管理。PDCA是一個萬能的質量工具,是指按照Plan(規劃設計)、Do(改進執行)、Check(監測評估)和Act(長效提升)的順序進行質量管理,并且循環不止地進行下去的科學程序。

— 01 —
規劃設計(Plan)
數據如此龐雜,針對數據質量的提升,理清頭緒、確定方向是第一步。
比如:我們需要提升的是哪些數據的質量?怎樣去評估這些數據的質量?應該從哪些方面來著手提升這些數據的質量?搞清楚這3個問題,我們針對數據質量的提升路徑,就能逐漸清晰。
1.確定范圍:我們需要提升的是哪些數據的質量?
并不是企業內所有的數據都需要進行數據質量管控。為了提高效率、精簡成本,我們在進行數據質量的提升前,需要首先確定數據質量提升的目標與范圍。確定范圍時一般遵循重要性和成本效益兩大原則:
(1)重要性原則
數據質量管理工作首先應該關注企業最重要的數據。數據的重要性如何劃分?我們可以分內外兩方面來考量。
對于企業內部,各類
主數據,如組織主數據、客商主數據、產品主數據、物料主數據、項目主數據等,它們能支持企業部門間的業務協作、具有較高財務價值,有著較大的客戶影響面,往往是關鍵數據;此外一些痛點問題、關鍵業務、公司變革、核心KPI所涉及的數據也符合重要性原則。
對于企業外部,關鍵數據則需要重點關注監管數據。
(2)成本效益原則
任何企業活動的開展均需要進行成本效益的判斷,通常,運作成熟且質量較高數據,或者度量成本很高但預期改進很少的數據,可不優先考慮。當然也應注意到,效益分析時也應兼顧社會效益,例如保持高質量的客戶數據對于銀行來說是一種重要的企業社會責任。
2.搭建體系:怎樣評估數據的質量?
數據質量的提高是建立在數據質量的評估的基礎上的,一個科學有效的評估體系在數據質量的提高過程中發揮著非常重要的作用。
數據質量評估體系構建時,應該先從通用體系入手,結合業務規則,最后制定具體實施方法。
(1)通用體系
DAMA國際數據管理協會定義了數據質量維度,包括準確性、完整性、一致性、合理性、參照完整性、及時性、唯一性、有效性、精確度、隱私、時效性。對于不同的業務和行業,對于質量的需求有所不同,企業可以根據自己實際情況,來進行一個取舍與平衡。
需要注意的是,指標的量化分析是非常重要的。在這些通用維度中,有些維度是很容易進行度量的,例如完整性。完整性的計算只要統計出缺失的數據量在整個數據集中的占比就可以得出一個具體的值。然而有些維度,例如時效性、一致性等如果要進行度量的話,就不是那么容易了。
我們需要把一些描述性的度量全部轉化成為可以量化的數值或者比率,才能夠將這些度量結果通過模型計算,最終得出一個質量的評估結果。度量的方法也會分為多種,可以是人工去對比,也可以用程序化的方式進行對比,或者采用統計學的方式來進行度量。
(2)業務規則
數據體系是對業務規則的承載。確定了評估維度后,需結合具體業務情況,來對數據質量的評估體系進行更進一步的完善。數據模型設計應充分考慮業務場景中的關鍵業務規則,這些業務規則在后續的系統設計、實現中才能承接下來,否則就可能會導致遺漏關鍵業務信息,而與業務場景不符。
3.對癥下藥:應該從哪些方面著手提升?
得到了評估結果后,我們還需要找出影響數據質量的關鍵因素,對癥下藥。

通常來說,影響數據質量因素主要集中在以下4個方面:
①業務因素:業務源系統變更、業務端數據輸入不規范等;
②技術因素:數據開發任務中各種任務的流程、參數、配置等出錯;
③管理因素 :認知層面缺乏質量意識、缺乏有效的數據質量問題處理機制等;
④基礎設施:物理資源不足、基礎設施不穩定等。
在合理的評估體系與歸因分析基礎上,我們的提升計劃就可以有的放矢,并落實到相應執行。
— 02 —
改進執行(Do)
方向明確,進一步落實到改進執行環節,則又是一個小的PDCA循環。它需要從管理的頂層設計出發,再到業務部門和技術部門實現落地,并在落地的過程中持續優化。
但在這個小PDCA循環中,一開始的P環節可能就格外讓人頭疼。相信很多企業都出現過這樣的狀況,一旦出現數據質量的問題,這個問題的溯源就顯得尤為困難,業務方指出技術錯誤,技術定位問題來源卻是業務方,多方推諉,找不到癥,就下不了對應的藥。
我們需要在企業內部達成共識的是,數據質量工作并不是某一個單一團隊的工作,而是公司內部所有數據提供者、數據處理者、數據使用者等數據相關人員的共同參與的工作。
在這個過程中,僅針對質量問題出現的環節來點對點地解決,可能改變不了對于數據質量管控“被動滅火”局面,我們還需要針對全企業全組織來進行統一的指導與規范。所以,我們可以把針對數據質量問題的改進執行措施,大致分為兩個維度,一個是企業跨組織的變革性改進,另一個則是企業各部門內部人員對現有過程的漸進的持續改進。

1.跨組織變革性改進——頂層設計
跨組織的變革性改進通常在頂層設計層面,需要在企業內部建立關于數據質量統一的標準和完善的制度規范,引導正確的業務行為,提高企業成員的數據意識。
(1)制定標準
數據標準是在全企業范圍內確保數據一致的關鍵,是公司層面需共同遵守的規范。不同部門,不同場景下,大家可能會有不同的數據需求和數據敏感度,這個時候一個統一的數據標準尤為關鍵,它有助于在全企業范圍內確保數據一致,有助于各方在提升數據質量各環節的協作,也有助于推動數據質量管理政策的落實。
企業的數據標準,可以在融合國家標準、行業標準和地方標準的基礎上,融合組織自身的業務特色需求來制定。
需要注意的是,標準并不是一成不變的,現今行業變化迅速,標準的制定者也需要緊跟變化與需求,不斷完善企業數據標準。
(2)制度完善
a) 閉環管理
明確數據質量問題在各個階段的歸口管理部門,從問題定義、問題發現、問題整改、問題跟蹤、效果評估5個方面建立相應的管理及認責機制,從流程實現數據質量的痕跡化管理,避免質量問題發生時的推諉情況,在制度層面落實數據確權,保證數據質量問題全過程的閉環管理。
b) 考核制度
將數據質量專項考核結果納入對于人員、部門的整體績效考核體系中。通過評價相關數據質量KPI水平,督促各方在日常工作中重視數據質量,在發現問題時能夠追根溯源地主動解決,對于高水平的數據質量工作成果進行激勵、表彰,提升企業的數據質量管理意識。
2.漸進性持續改進——數據認責
制度規則層面有了保障之后,如何將規則落實到企業相關人員,并推進各部門內部人員針對現有過程的持續改進則顯得尤為重要。我們可以從數據相關方的權責劃分的角度進行數據認責,來對提升數據質量措施的落地執行來進行一個明確。
(1)數據提供方
a) 嚴格執行數據標準
必要時應用自動系統,保證數據的規范化、標準化錄入,關鍵數據需進行復核或者審批。
b) 嚴禁數據造假行為
有些人員可能會為了業務指標而提交造假的數據,使得數據的準確性無法保證。對于影響關鍵指標的數據造假行為,應采取零容忍態度。
(2)數據消費者
a) 明確需求
數據質量即滿足數據消費者需求的程度,數據消費者從使用視角提出數據質量要求,對于更好的數據質量參數的定義非常重要。
企業內的數據消費者通常為業務部門,業務部門應分析業務領域相關數據質量問題,從業務層面制定數據質量問題的解決方案,提出所負責業務系統數據質量整改需求,提出本業務領域重點監控的數據質量的規則需求。
b) 及時反饋
數據質量提升是一個動態的過程,數據消費者針對數據在應用過程中出現的問題及時反饋,并協同其他方提出解決或提升方案,有助于數據質量的動態提升。
在有業務需求變更時,也應及時同步相關部門,及時做出數據的加工或者數據統計口徑的調整,以免影響下游數據質量。
(3)數據處理方
a) 技術規范
技術人員在進行數據的處理時,應首先保障自身的技術規范,避免在數據處理環節污 染數據。可以通過數據探查、開發規范以及數據監控,實現在數據加工過程的卡點校驗以及數據監控報警機制。
b) 支撐保障
同時,技術人員也在整個數據質量管理過程中,發揮著支撐與保障的作用。
技術人員應配合數據質量提升工作,進行
數據應用的開發建設和運維,落實數據管理制度、流程和成果輸出;保障數據質量管理工作所需的相關軟硬件資源,負責問題涉及系統的開發、測試、上線工作,負責開發數據質量管理工具的開發和運維;協同業務與管理部門,架構科學的數據模型,準確映射業務規則,助力業務增長;通過質量校驗規則和質量檢查,全方位保障各個數據質量。
— 03 —
監測評估(Check)
數據質量的提升,并不是一蹴而就的,它是一個長期且動態的過程。所以,我們針對數據質量提升的監測與評估,也應貫穿始終,做到過程中實時監控、錯誤及時反饋,并定期進行相應評估,讓整個數據質量提升工作持續優化。
1.實時監控
對于數據質量的實時監控,是整改數據質量問題的有力保障。監控環節涉及數據質量水平監控、質量問題整改考核、數據質量報告發布等內容,力求精確、有效地跟蹤企業內部數據質量變化,及時發現問題及時調整問題。
2.錯誤反饋機制
數據出現問題,如何迅速地定位并解決問題非常重要,不然可能會在下游造成更大的影響,延誤業務進行或者造成決策失誤,所以我們需要建立一個敏捷的錯誤反饋機制,及時反饋數據質量問題并進行分析溯源、制定相應解決方案。
在問題分發環節我們需要重點關注的是問題解決方案的類型,如果是數據缺失需要補錄的情況,則分發到各業務部門,由業務部門組織補錄,如果需要修改系統代碼,則分發到系統主管業務部門發起系統變更需求。在問題分發完成后。需要定時確認質量提升效果,并進行核檢,確認解決狀態。
3.定期評估
定期的數據質量提升成效評估,有助于提升
數據治理的成熟度,并為下一階段的數據質量改進提供參考依據。
整改評估的指標可以從問題率、解決率、解決時效等方面來建立,評估后要整改優化結果來進行適當的績效考核。這個過程中,各部門之間定期的交流也是非常必要的,大家一起就數據質量問題、產生的原因、采取的措施、改進的結果進行交流,能讓更多的人將積極參與到數據質量改進中來,進一步鞏固企業的數據文化。
— 04 —
長效提升(Act)
一份數據質量報告、一份評估檢查結果并不是數據質量提高的終點。
我們在每個管理周期結束時,要認真梳理分析問題和不足,堵塞風險漏洞,提升數據質量,研究改進措施,提高管理效能。對于長期存在的問題,研究出臺解決政策;對于反復出現的問題,通過修訂制度加以約束;對于好經驗要及時納入長效機制;對于暫時無法解決的問題,應廣泛征求建議,同時將新辦法、新制度運用到下一個管理周期中。
— 05 —
小結
數據質量不僅僅是數據治理的過程之一,它同時還是數據治理的目標之一。保證數據質量是數據要素流通的重要基礎,也是企業實現
數字化轉型的關鍵前提之一。
但數據質量管理不是一個單一過程,它涉及到多方參與、反復打磨。企業可以應用PDCA戰略方法,來對數據質量進行一個系統的優化與提升,并將這個過程標準化、長期化、體系化,從源頭、過程和結果層面,把控數據質量,從而更好地發揮
數據價值。
(部分內容來源網絡,如有侵權請聯系刪除)