20世紀90年代晚期發展的跨行業數據挖掘標準流程(CRISP-DM), 這是對我們怎么去做數據挖掘的有效指導
第一, 是商業理解, 在我看來, 這個商業理解就是要把業務問題轉換成數據挖掘問題, 目前數據挖掘的理論概念中, 一般都包括分類, 聚類,回歸, 關聯規則這幾類, 這需要對這幾類方法有一定的理解, 才能有效地轉換,
第二. 數據理解, 數據描述了我們的業務, 在這一步, 我們必須找準對應關系, 所面臨的業務問題, 有哪些數據可以用, 我們做的是定量分析, 沒有數據顯然是得不到模型的, 知道哪里數據和業務關系緊密, 也能讓我們的分析事半功倍,?
第三.數據準備, 實際上數據挖掘的大部分工作都在這一步, 往往到了這一步就發現理想很美好, 但現實很骨感,
數據質量令人堪憂, 缺失值, 異常值接踵而來, 這是數據的錯誤, 還有為了適應算法, 需要將數據去量綱化, 類型轉換, 去相關性, 降維等等操作, 這一步將消耗分析人員大量精力
第四, 建模, 這一步需要對算法理解透徹, 要了解數據特征和算法特點, 才能選擇最優算法, 以及最優參數, 很多算法的使用是有假設條件的, 必須仔細掌握, 得到的模型才會合理, 另外,還要考慮業務需要, 如果模型必須能解釋, 那就要選擇生成式模型算法
第五, 評價, 就是模型評估了, 各種評估指標的側重點是不一樣的, 要以最能反應業務的指標為準, 另外,評估數據的選擇也很關鍵, 要盡可能的模擬實際生產環境, 才能評估模型的性能。
以上就是得到模型流程了, 業務理解和數據理解做的好, 就能快速選好方法, 和關鍵字段,這是能加速建模的, 數據質量是能否得到模型的關鍵, 缺失值, 異常值雖然能刪除,填充, 但是信息的缺失是找不回來的, 就可能導致得不到模型, 可能會倒逼選擇其他方法分析, 建模就要看對算法的理解了。
億信華辰推出的數據挖掘產品億信豌豆DM,讓用戶可以通過半自動化或者自動化地分析業務數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。

(部分內容來源網絡,如有侵權請聯系刪除)