- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2019-12-13來源:億信華辰瀏覽數:722次
隨著時代的發展,人類產生的數據成倍增長,數據的開放性應用和數據可挖掘價值越來越高。在大數據精準營銷、大數據洞察等一系列熱詞背后,正是數據挖掘、分析技術發揮著重要的作用。數據挖掘技術不僅成為當今政務部門提升治理能力的重要手段,也成為各行各業提升核心競爭力的關鍵。
數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但有潛在的有用信息和知識的過程。
可以看出,數據挖掘是一個過程結果的稱謂,即主要目標是從數據中挖取隱藏的信息。它是一個交叉科學領域,受多個學科影響,包括數據庫系統、統計、機器學習、可視化和信息科學。
舉個簡單點的例子:
也就是說:
利用數據挖掘技術,對大量的業務數進行探索和分析揭示隱藏的、未知的規律,是商業智能的高級應用。
根據數據挖掘的應用方向,常見的數據挖掘能解決的問題體現在下面幾個方面。
1. 分類與回歸
分類根據樣本數據中標記的類別對原數據進行分類總結,進而也可以預測未來數據的歸類。
回歸是確定一種或多種變量間相互依賴關系的一種統計分析方法。
分類與回歸本質上解決的都是預測問題,不同的是分類適用于離散型目標變量的預測,而回歸適用于連續型目標變量的預測。下面這些問題可以用分類和回歸技術來解決:
下圖是一個基于決策樹預測銀行客戶是否存在貸款風險的示例:
2. 聚類
聚類是在預先不知道欲劃分類的情況下,根據數據相似度原則進行數據歸類的方法。
中國有句古話是“物以類聚,人以群分”,其實已經蘊含了聚類算法的基本思想。聚類能解決如下方面的問題:
例如下圖,找到共性的數據,然后聚類顯示:
3. 關聯規則
關聯規則在一個數據集中找出各個物品或者商品之間的關系,也被稱為購物籃分析。
關聯規則描述的是在一個事物中物品間同時出現的規律的知識模式,可以應用到很多實際業務中:
下圖是某商場購物藍推薦結果示例:
4. 時間序列預測
通過已有的時間序列數據進行類推,以預測下一段時間的趨勢。
時間序列預測是在與時間相關的歷史數據中,找到數據隨時間變動的規律。你可以用來解決如下問題:
下圖是某公司紅酒銷量的預測圖:
5. 關系網絡分析
關系網絡分析用來探索社會行動者及其間的關系,例如:社會關系、親屬關系、角色關系、行為關系、流動關系、地理空間關系等等。
關系網絡分析也叫社會網絡分析。通過社會網絡分析,可以探索和發現行動者之間隱藏的關系。常見的關系有:
下面是對《悲慘世界》一書中人物的關系網絡分析的一個示例:
數據挖掘是一個周而復始的過程,在生成規則的過程中不斷地對模型進行調整,從而提升精度。那么,怎么才能更好地掌握數據挖掘呢,億信華辰數據挖掘軟件豌豆DM是一個不錯的選擇。
豌豆DM內置分類分析、回歸分析、聚類分析、關聯規則分析以及時間序列應用等五大類十幾個小類的數據挖掘算法,并支持R語言算法擴展。讓用戶可以通過半自動化或者自動化地分析業務數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助你解決客戶流失分析、客戶細分、銀行客戶貸款風險分析、客戶信用評價、關聯推薦(購物籃分析)等各類數據分析應用問題。