一站式數據分析平臺

在線免費試用 DEMO體驗視頻介紹

免費試用產品詳情

如何利用WonderDM實現可視化數據探索和預處理

時間：2019-05-06來源：億信華辰瀏覽數：1094次

跨行業數據挖掘標準流程（CRISP-DM）把完整的數據挖掘過程定義為六個標準階段，分別是業務理解、數據理解、數據準備、創建模型、模型評估和模型應用。

其中，數據準備是數據挖掘流程中的一個重要環節。具體工作主要包括清理、規約、轉換、抽樣等一系列的預處理工作，提高數據的質量，使得數據挖掘算法可以更高效的執行以及獲得更加有效的結果。

有些小伙伴可能會問，我的數據有現成的，為什么還要預處理數據，不能直接拿來進行數據挖掘嗎？回答是，當然能。但是，現實往往是殘酷的！

1. 現實世界的數據是骯臟的（不完整，含噪聲，不一致）。

2. 沒有高質量的數據，就沒有高質量的挖掘結果。

3. 原始數據中存在很多問題，

常用的數據預處理方法可以歸納為四個方面。

數據清理

缺失值處理：數據中的缺失值會影響挖掘的正常進行，造成挖掘結果不正確。對較大比例的缺失值可以進行忽略處理，少量的缺失值可以采用最大、最小、均值、中位數、自定義表達式等方式進行填充。
數據集成與過濾：用于去除冗余數據、進行重復值檢測、編碼一致性、數據一致性等。

數據規約

維規約：減少所考慮的隨機變量或屬性的個數（主成分分析PCA）。

例如，一個汽車數據的樣本，里面既有“千米/每小時”的速度特征，也有“英里/小時”的速度特征，顯然有一個多余，需要消除冗余的特征。
數量規約和壓縮：用替代的、較小的數據表示形式替換原數據。

例如，不同年份的數據特征基本一樣，可以只保留一個年份的數據進行挖掘。

數據變換

屬性構造：從給定屬性構造新的屬性，或者將屬性類別進行變換，輔助數據挖掘過程。

例如根據月收入和獎金等屬性可以構造出年收入，便于用來預測年收入。
歸一化：將不同度量方式的數據放在同一個度量體系中進行比較。

比如通過min-max標準化方法來求某個字段A的新值，然后進行比較分析。歸一化是為了后面數據挖掘算法的方便，保正程序運行時收斂加快，提高挖掘的精度。
標準化：數據的標準化是將數據按比例縮放，使之落入一個小的特定區間。可以通過z-score方法對原始數據的均值（mean）和標準差（standard deviation）進行數據的標準化，同時不改變原始數據的分布。在某些比較和評價的指標處理中經常會用到，去除數據的單位限制，將其轉化為無量綱的純數值，便于不同單位或量級的指標能夠進行比較和加權。
離散化：也叫分箱，將數值屬性的原始值用區間標簽或概念標簽進行替換。

如年收入數據，可以通過2-3W、3-5W等區間符號標識，也可以用高收入、中等收入、低收入進行離散化。