平時企業都會處理
數據質量的問題,越來越能夠懂得數據庫整套系統的運行模式和模型概念,深深覺得數據挖掘的本質其實不僅僅是從海量的數據中發現有效的,有用的,有目的性的數據,深入來說,如果大數據平臺里的數據質量根本無法保證,那么數據挖掘就是毫無意義的,命中率和精確度根本沒有參考價值。但是問題就出在這里,外圍系統抽取隔離的數據,要怎么樣清洗和梳理才能夠在數據的源頭上盡可能的提高數據質量?不可能每個人都懂業務,對針對性業務方面的數據質量如何提升。
每個企業都會存在數據質量問題。所有人都知道數據分析、數據挖掘的80%工作量都在數據處理上。但是與數據分析、數據挖掘紅得發紫的熱度相比,數據處理顯得冷清多了。
業務數據的生命周期說起。
數據的流轉分為四個步驟:數據的產生、存儲、加工和使用。
數據質量在這四個環節均會產生。所以需要有不同的手段。

在各個環節控制質量的最開始,我們需要對數據質量管理進行標準定義處理。即對元數據進行梳理,并按照
元數據管理理念,對各個環節的數據進行管控。在此只探討結構化數據,非結構化數據可以結構化之后再以此法繼續。
0、元數據管理
元數據管理簡單來說,就是建立一套標準的指標(度量)、口徑(維度)等體系,建立相關的單位、分組等支撐信息。目的是保證各環節的數據一致性和統一性。
1、數據產生階段的質量管理手段
方法:控制輸入
盡可能的使用非開放式的輸入手段,如下拉菜單、單復選框、時間控件、標簽(支持自定義學習型)等。必須開放的輸入部分,進行必要的校驗。
互聯網行業的log數據質量之高,簡直不需要進行此步驟的管理!可以說互聯網的log分析直接推動了
大數據分析發展的進程。
2、
數據存儲階段的質量管理手段
方法:數據統一在數據結構設計時,就應該按照標準對相同含義的字段統一命名、格式、精度等,排除數據的歧義。
3、數據加工階段的質量管理手段
方法:
數據清洗數據加工階段的目的非常明確,但數據問題繁多,不同的問題需要使用不同的手段處理,詳細操作手段見另外一個回答:數據挖掘中常用的數據清洗方法有哪些?
4、數據使用階段的質量管理手段
數據使用階段還需要質量管理?當然!無論是在數據分析還是數據挖掘之后,結果自然是要保存下來的,此時的數據仍然要按照標準,進行規范的管理,無論是存儲結果的表名,還是字段、格式等。此外,在數據分析、挖掘的時候,也會有新的數據產生,此時依然需要進行標準化之后進行統一管理。
5、數據質量的持續監控和完善
數據質量管理并不是一個流程做完就結束了。如同戴明環一樣,數據質量同樣要建立一個環,不斷發現問題,彌補問題。在各個環節新發現的各種問題,定期進行分析,確定應對方案,并加以改進。質量乃數據之根本,沒有質量,數據便不可信,在此之上的數據分析、數據挖掘更是一紙空談,甚至是大謬論。
工欲善其事,必先利其器,檢測之前咱們有必要對檢測工具有基本的認知:

億信
數據質量管理平臺提供從標準定義、質量監控、績效評估、質量分析、質量報告、重大問題及時告警、流程整改發起、系統管理等數據質量管理全過程的功能。通過事先定義好的規則、調度時間、工作流程,自動完成數據的質量檢查,極大的減少人力的投入和過程干預,提升效率,減少誤差。 同時遇到重大問題能夠及時警告,對質量檢查的結果提供多方式(界面、郵件、短信)告警,讓用戶及時了解到系統檢查結果,避免重大問題的延誤。
(部分內容來源網絡,如有侵權請聯系刪除)