是不是做好了事前預防和事中控制就不會再有數據質量問題發生了?答案顯然是否定的。事實上,不論我們采取了多少預防措施、進行了多么嚴格的過程控制,數據問題總是還有 “漏網之魚”。你會發現只要是人為干預的過程,總會存在數據質量問題,即使拋開人為因素,數據質量問題也無法避免。為了盡可能減少數據質量問題,減輕數據質量問題對業務的影響,我們需要及時發現它并采取相應的補救措施。
一、定期質量監控
定期質量監控也叫定期數據測量,是對某些非關鍵性數據和不適合持續測量的數據定期重新評估,為數據所處狀態符合預期提供一定程度的保證。
定期監控數據的狀況,為數據在某種程度上符合預期提供保障,發現數據質量問題及數據質量問題的變化,從而制定有效的改進措施。定期質量監控就像人們定期體檢一樣,定期檢查身體的健康狀態,當某次體檢數據發生明顯變化時,醫生就會知道有哪些數據出現異常,并根據這些異常數據采取適當的治療措施。
對于數據也一樣,需要定期對企業
數據治理進行全面“體檢”,找到問題的“病因”,以實現數據質量的持續提升。
二、數據問題補救
盡管
數據質量控制可以在很大程度上起到控制和預防不良數據發生的作用,但事實上,再嚴格的質量控制也無法做到 100%的數據問題防治,甚至過于嚴格的數據質量控制還會引起其他數據問題。因此,企業需要不時進行主動的數據清理和補救措施,以糾正現有的數據問題。
1、清理重復數據
對經數據質量檢核檢查出的重復數據進行人工或自動處理,處理的方法有刪除或合并。例如:對于兩條完全相同的重復記錄,刪除其中一條;如果重復的記錄不完全相同,則將兩條記錄合并為一條,或者只保留相對完整、準確的那條。
2、清理派生數據
派生數據是由其他數據派生出來的數據,例如:“利潤率”就是在“利潤”的基礎上計算得出的,它就是派生數據。而一般情況下,存儲派生出的數據是多余的,不僅會增加存儲和維護成本,而且會增大數據出錯的風險。如果由于某種原因,利潤率的計算方式發生了變化,那么必須重新計算該值,這就會增加發生錯誤的機會。因此,需要對派生數據進行清理,可以存儲其相關算法和公式,而不是結果。
3、缺失值處理
處理缺失值的策略是對缺失值進行插補修復,有兩種方式:人工插補和自動插補。對于“小數據”的數據缺失值,一般采用人工插補的方式,例如
主數據的完整性治理。而對于大數據的數據缺失值問題,一般采用自動插補的方式進行修復。自動插補主要有三種方式:
● 利用上下文插值修復;
● 采用平均值、最大值或最小值修復;
● 采用默認值修復。
當然,最為有效的方法是采用相近或相似數值進行插補,例如利用機器學習算法找到相似值進行插補修復。
4、異常值處理
異常值處理的核心是找到異常值。異常值的檢測方法有很多,大多要用到以下機器學習技術:
● 基于統計的異常檢測;
● 基于距離的異常檢測;
● 基于密度的異常檢測;
● 基于聚類的異常檢測。
三、持續改進優化
數據質量管理是個持續的良性循環,不斷進行測量、分析、探查和改進可全面改善企業的信息質量。通過對數據質量管理策略的不斷優化和改進,從對于數據問題甚至緊急的數據故障只能被動做出反應,過渡到主動預防和控制數據缺陷的發生。
經過數據質量測量、數據問題根因分析以及數據質量問題修復,我們可以回過頭來評估數據模型設計是否合理,是否還有優化和提升的空間,數據的新增、變更、采集、存儲、傳輸、處理、分析各個過程是否規范,預置的質量規則和閾值是否合理。如果模型和流程存在不合理的地方或可優化的空間,那么就實施這些優化。
事后補救始終不是數據質量管理的最理想方式,建議堅持以預防為主的原則開展數據質量管理,并通過持續的數據質量測量和探查,不斷發現問題,改進方法,提升質量。
(部分內容來源網絡,如有侵權請聯系刪除)