大數據的概念正在進一步滲透到各個行業與領域當中,隨著企業業務增長和規模擴大,以及伴隨著信息技術和相關基礎設施的不斷完善,在短短的幾年內,數據已經呈現了爆發式的增長,多數傳統企業也開始走上了
數字化轉型的道路。數據中蘊藏的商業價值也逐漸被人們挖掘出來:客戶群體細分提供個性化服務和精準營銷、數據驅動創新促進發掘新的需求和商業模式、數據互聯互通打破了組織邊界提高管理效率和產業效率,以及降低服務成本。

數據是數字化時代企業的重要資產,數據可以以產品或服務的形態為企業創造價值。既然數據可以是產品、可以是服務,那問題就簡單了。雖然數據質量管理沒有成熟方法論支撐,但是產品和服務的質量管理體系卻已非常的成熟了,何不嘗試用產品和服務的質量管理體系來管理數據質量?!那國際上最權威的質量管理體系IOS9001是否也適用于企業的數據質量管理呢?
在
數據治理方面,不論是國際的還是國內的,我們能找到很多數據治理成熟度評估模型這樣的理論框架,作為企業實施的指引。而說到數據質量管理的方法論,其實業內還沒有一套科學、完整的數據質量管理的體系。很多企業對數據質量的重視程度還不夠,即使部分企業在朝著這個方向努力,也是摸著石頭過河。
下圖是ISO9001基于PDCA的質量管理核心思想,其重點強調以客戶為關注焦點、領導作用、全員參與、過程方法、持續改進、循證決策和關系管理。
依據ISO9001以及企業在數據治理方面的相關經驗,億信華辰認為企業數據質量管理應從以下幾個方面著手:
1. 明確目標
這里先提一個概念:數據生命周期管理。數據的生命周期從數據規劃開始,中間是一個包括產生、處理、部署、應用、監控、存檔、銷毀這幾個步驟并不斷迭代的過程。那么在其中任何一個環節都會涉及到數據質量的管理。因此當我們確定此次數據質量評估的目標時,首先要定位當前的數據處于生命周期的哪個階段,進一步明確后續步驟對于數據質量的需求有哪些。
數據價值的體現形式在于數據通過流動最終被消費。同一份數據在不同的生命周期中,其質量的關注點是存在差異的,因此很重要的一點就是明確當前階段數據質量管理的目標是什么。有了明確的目標,才能開始對數據進行合理的評估。
2. 構建數據全景圖
許多企業進行數據質量評估的時候很容易只關注在當前企業的現有數據。從而忽視了當前企業中暫時沒有的數據。我們知道,數據可以劃分為內部數據和外部數據,還可以通過數據交易獲取數據。因此對于數據質量管理,很重要的一點就是企業首先要構建一個數據全景圖。基于生態或者完整的業務全景來構建數據全景。數據全景圖與業務是不可分離的,因此,脫離了業務,或者僅僅圍繞部分當前的業務進行質量的評估,并不能從長遠和全局的角度給我們的數據質量管理帶來更加價值的指導意義。既要關注當下的現狀,又要著眼于未來的演變。
3. 選取數據質量維度
評價數據質量的維度有很多,例如:數據準確性、數據一致性、數據的實效性、數據的完整性等等。可列舉出十幾種維度或者更多,在許多地方都會有對數據質量維度的具體解釋。那么在這里我們要關注的是如何選取維度。盡管每一個維度都與質量相關聯,但是并不是每一個維度對質量都會產生相同的影響作用。因此,我們需要對選取幾個我們最為關注的數據質量維度來對其進行評估。選取過多的維度會增加后續數據質量評估模型的復雜度,并會增加采樣數據,度量質量的成本和難度。而選取過少的維度又不能全面的反應數據質量。一般來說,4-7個維度是比較合理的選擇。當然,根據實際需要,也可以定義自己的質量維度和選取適當的數量。
4. 制定數據質量評估模型
經過上一步選定了進行質量度量的維度,接下來就是對數據評估進行建模。建模的目的是我們在對各個維度進行質量度量之后,需要對度量結果進行一個計算,得到一個更加直觀的分數來衡量數據質量的好壞。建模本身也是一個復雜的工程,當然簡單的評估模型可以是一個線性模型,既各個維度的數值乘以一個權重然后進行累加。也可以是一個很復雜的數學模型,甚至會對模型進行調參。建模本身需要對數據有一定敏感性和深刻的理解,同時需要具備一定的數學知識。
5. 確定數據質量度量標準和度量方法
在數據質量的眾多維度當中,有些維度是很容易進行度量的,例如缺失率。缺失率的計算只要統計出缺失的數據量在整個數據集中的占比就可以得出一個具體的值。然而有些維度,例如實效性、一致性等如果要進行度量的話,就不是那么容易了。我們需要在度量之前定義出度量的標準是什么,基于這個標準,再確定度量的方法。就是我們如何把一些描述性的度量全部轉化成為可以量化的數值或者比率。需要這樣一個量化的過程,才能夠將這些度量結果通過模型計算,最終得出一個質量的評估結果。度量的方法也會分為多種,可以是人工去對比,也可以用程序化的方式進行對比,或者采用統計學的方式來進行度量。
6. 實施數據質量評估并撰寫評估報告
終于到了最后的實施環節,在實施的環節需要考慮的是數據采樣策略。如果數據量小,我們可以對全部數據進行度量和評估。如果數據量很大或者對全量數據進行評估成本過高,那么就需要進行部分數據采樣,對樣本數據進行評估。數據會有其自身的一些特點,例如周期性或者實效性。因此在制定抽樣策略和抽樣頻率的時候,不能不考慮這些因素,否則采樣數據得出的評估結論很可能就會與全量數據的真實情況有較大的偏差,因此如何盡可能的減少偏差也是一個需要思考的問題。
經過抽樣、度量、評估之后,就可以得到評估結論了。最后我們需要的就是撰寫一份評估的報告,在這份報告當中,除了最后的結論,應當還包括對這個結論的分析和解讀,并通過一些可視化的方式展現在報告當中。數據質量評估報告不是最終的目的,這份報告對后續數據質量的管理,數據治理等都具有非常重要的參考意義。因此,在這份報告中應當包含結論、分析以及只質量改善建議這幾個方面。
(部分內容來源網絡,如有侵權請聯系刪除)