億信ABI

一站式數(shù)據(jù)分析平臺

ABI（ALL in one BI）是億信華辰歷經(jīng)19年匠心打造的國產(chǎn)化BI工具，技術自主可控。它打通從數(shù)據(jù)接入、到數(shù)據(jù)建模與處理、再到數(shù)據(jù)分析與挖掘整個數(shù)據(jù)應用全鏈路，可滿足企業(yè)經(jīng)營中各類復雜的分析需求，幫助企業(yè)實現(xiàn)高效數(shù)字化轉型。

在線免費試用 DEMO體驗視頻介紹

億信ABI

一站式數(shù)據(jù)分析平臺

億信華辰深耕商業(yè)智能十多年，
打造一體化的填報、處理、可視化平臺。

免費試用產(chǎn)品詳情

談數(shù)據(jù)分析和數(shù)據(jù)建模

時間：2019-05-29來源：Bart Baesens瀏覽數(shù)：490次

大數(shù)據(jù)應用有幾個方面，一個是效率提升，幫助企業(yè)提升數(shù)據(jù)處理效率，降低數(shù)據(jù)存儲成本。另外一個是對業(yè)務作出指導，例如精準營銷，反欺詐，風險管理以及業(yè)務提升。過去企業(yè)都是通過線下渠道接觸客戶，客戶數(shù)據(jù)不全，只能利用財務數(shù)據(jù)進行業(yè)務運營分析，缺少圍繞客戶的個人數(shù)據(jù)，數(shù)據(jù)分析應用的領域集中在企業(yè)內部經(jīng)營和財務分析。

數(shù)字時代到來之后，企業(yè)經(jīng)營的各個階段都可以被記錄下來，產(chǎn)品銷售的各個環(huán)節(jié)也被記錄下來，客戶的消費行為和網(wǎng)上行為都被采集下來。企業(yè)擁有了多維度的數(shù)據(jù)，包括產(chǎn)品銷售數(shù)據(jù)、客戶消費數(shù)據(jù)、客戶行為數(shù)據(jù)、企業(yè)運營數(shù)據(jù)等。擁有數(shù)據(jù)之后，數(shù)據(jù)分析成為可能，企業(yè)成立了數(shù)據(jù)分析團隊整理數(shù)據(jù)和建立模型，找到商品和客戶之間的關聯(lián)關系，商品之間關聯(lián)關系，另外也找到了收入和客戶之間的關聯(lián)關系。典型的數(shù)據(jù)分析案例如沃爾瑪啤酒和尿布、蛋撻和手電筒，Target的判斷16歲少女懷孕都是這種關聯(lián)關系的體現(xiàn)。

關聯(lián)分析是統(tǒng)計學應用最早的領域，早在1846年倫敦第二次霍亂期間，約翰醫(yī)生利用霍亂地圖找到了霍亂的傳播途徑，平息了倫敦霍亂，打敗了霍亂源于空氣污染說的精英，拯救了幾萬人的生命。倫敦霍亂平息過程中，約翰醫(yī)生利用了頻數(shù)分布分析，建立了霍亂地圖，從死亡案例分布的密集程度上歸納出病人分布同水井的關系，從而推斷出污染的水源是霍亂的主要傳播途徑，建議移除水井手柄，降低了霍亂發(fā)生的概率。

另外一個典型案例是第二次世界大戰(zhàn)期間，統(tǒng)計分析學家改造轟炸機。英美聯(lián)盟從1943年開始對德國的工業(yè)城市進行轟炸，但在1943年年底，轟炸機的損失率達到了英美聯(lián)盟不能承受的程度。轟炸軍司令部請來了統(tǒng)計學家，希望利用數(shù)據(jù)分析來改造轟炸機的結構，降低陣亡率，提高士兵生還率。統(tǒng)計學家利用大尺寸的飛機模型，詳細記錄了返航轟炸機的損傷情況。統(tǒng)計學家在飛機模型上將轟炸機受到攻擊的部位用黑筆標注出來，兩個月后，這些標注布滿了機身，有的地方標注明顯多于其他地方，例如機身和側翼。有的地方的標注明顯少于其他地方，例如駕駛室和發(fā)動機。統(tǒng)計學家讓軍火商來看這個模型，軍火商認為應該加固受到更多攻擊的地方，但是統(tǒng)計學家建議對標注少的地方進行加固，標注少的原因不是這些地方不容易被擊中，而是被擊中的這些地方的飛機，很多都沒有返航。這些標注少的地方被擊中是飛機墜毀的一個主要原因。軍火商按照統(tǒng)計學家的建議進行了飛機加固，大大提高了轟炸機返航的比率。以二戰(zhàn)著名的B-17轟炸機為例，其陣亡率由26%降到了7%，幫助美軍節(jié)約了幾億美金，大大提高了士兵的生還率。

一數(shù)據(jù)分析中的角色和職責

數(shù)據(jù)分析團隊應該在科技部門內部還在業(yè)務部門內部一直存在爭議。在業(yè)務部門內部，對數(shù)據(jù)場景比較了解，容易找到數(shù)據(jù)變現(xiàn)的場景，數(shù)據(jù)分析對業(yè)務提升幫助較大，容易出成績。但是弊端是僅僅對自己部門的業(yè)務數(shù)據(jù)了解，分析只是局限獨立的業(yè)務單元之內，在數(shù)據(jù)獲取的效率上，數(shù)據(jù)維度和數(shù)據(jù)視角方面缺乏全局觀，數(shù)據(jù)的商業(yè)視野不大，對公司整體業(yè)務的推動發(fā)展有限。業(yè)務部門的數(shù)據(jù)分析團隊缺少數(shù)據(jù)技術能力，無法利用最新的大數(shù)據(jù)計算和分析技術，來實現(xiàn)數(shù)據(jù)分析和建模。數(shù)據(jù)分析和計算依賴于科技部門，效率較低，無法打通各個環(huán)節(jié)和實現(xiàn)效率和收益最優(yōu)。

數(shù)據(jù)分析和挖掘部門位于科技部門，優(yōu)點是直接可以了解所有數(shù)據(jù)，利用最新的大數(shù)據(jù)算分析技術來進行數(shù)據(jù)分析和建模，數(shù)據(jù)視野好。面對全局數(shù)據(jù)建立數(shù)據(jù)采集和分析系統(tǒng)，系統(tǒng)復用程度高，降低重復投資，效率高。但是團隊人員商業(yè)敏感度低，過度關注技術和架構，重視技術的領先和處理效率，數(shù)據(jù)商業(yè)敏感度低，不重視數(shù)據(jù)商業(yè)化場景，對業(yè)務理解程度不夠，支持力度不如前者。科技部門愿意搭建一個大數(shù)據(jù)平臺，讓業(yè)務部門自己去尋數(shù)據(jù)場景，業(yè)務部門在數(shù)據(jù)商業(yè)化過程中也會遇到環(huán)節(jié)不暢通，效率低下的問題。

數(shù)據(jù)分析團隊應該屬于獨立的部門，為所有的業(yè)務部門提供服務，具有獨立的技術團隊，可以搭建獨立的大數(shù)據(jù)計算和分析平臺，利用最新的數(shù)據(jù)處理技術來建立模型進行分析。另外數(shù)據(jù)分析團隊的人應來源于業(yè)務部門，具有高度的數(shù)據(jù)商業(yè)敏感度，可以將業(yè)務部門的需求分解為數(shù)據(jù)需求，將業(yè)務場景同數(shù)據(jù)場景以及數(shù)據(jù)分析相結合起來。

數(shù)據(jù)分析是一項實踐性很強的工作，涉及到很多交叉學科，需要不同的崗位和角色，來實現(xiàn)不同的性質的工作。基本的崗位和角色如下

1 數(shù)據(jù)庫(倉庫)管理員DBA

DBA最了解企業(yè)內部的數(shù)據(jù)和可用的數(shù)據(jù)資源，包括數(shù)據(jù)的存儲細節(jié)和數(shù)據(jù)字典，另外其對數(shù)據(jù)的采集、清洗和轉化起到關鍵作用。

DBA為數(shù)據(jù)科學家和數(shù)據(jù)分析師提供加工好的原始數(shù)據(jù)，這些數(shù)據(jù)是數(shù)據(jù)分析和建模的基礎，DBA做了數(shù)據(jù)分析工作中最重要的基礎工作，完成了大量的臟活和累活。

2 業(yè)務專家

業(yè)務專家的優(yōu)勢是數(shù)據(jù)的商業(yè)敏感度，了解業(yè)務需求，可以將業(yè)務需求轉化為數(shù)據(jù)需求，進一步找到數(shù)據(jù)應用場景。另外業(yè)務專家也可以通過對數(shù)據(jù)的分析，找到新的商業(yè)機會，同業(yè)務部門一起制定商業(yè)計劃，利用數(shù)據(jù)分析推動業(yè)務增長。

業(yè)務專家的經(jīng)驗對于數(shù)據(jù)分析和建模是非常關鍵的，他們可能是風險管理人員、欺詐監(jiān)測專家、投資專家等。數(shù)據(jù)建模來源于業(yè)務經(jīng)驗和業(yè)務知識，正是業(yè)務專家的專業(yè)分析找到了業(yè)務規(guī)律，從而找到了建模方向，并對建模工作給出建議和解釋。

3 數(shù)據(jù)科學家

過去統(tǒng)計分析依賴于統(tǒng)計分析工具，大數(shù)據(jù)時代之后，數(shù)據(jù)量級的提升和數(shù)據(jù)類型的復雜程度，讓很多傳統(tǒng)的統(tǒng)計分析工具無法完成分析計算。這個時候，數(shù)據(jù)科學家出現(xiàn)了，他們可以利用自己的專業(yè)技能幫助業(yè)務專家和數(shù)據(jù)分析人員進行建模和計算。

過去數(shù)據(jù)統(tǒng)計分析建模常用SPSS，SAS，MATLAB等工具，現(xiàn)在基于大數(shù)據(jù)平臺的分析建模可以使用Spark+Scala/Python/R/Java。數(shù)據(jù)科學家了解模型和算法，可以直接承擔建模和調優(yōu)工作，懂得選擇合適的算法來進行計算，提高效率。

4數(shù)據(jù)分析師

數(shù)據(jù)分析師站在數(shù)據(jù)和商業(yè)的角度來解讀數(shù)據(jù)，利用圖標和曲線等方式向管理層和業(yè)務人員展現(xiàn)分析結果，揭示數(shù)據(jù)分析產(chǎn)生的商業(yè)機會和挑戰(zhàn)。

數(shù)據(jù)分析師將雜亂的數(shù)據(jù)進行整理后，將數(shù)據(jù)以不同的形式展現(xiàn)給產(chǎn)品經(jīng)理、運營人員、營銷人員、財務人員、業(yè)務人員等。提出基于數(shù)據(jù)的結果和分析建議，完成數(shù)據(jù)從原始到商業(yè)化應用到關鍵一步，數(shù)據(jù)分析師的數(shù)據(jù)敏感度、商業(yè)敏感度、分析角度、表達方式對于商業(yè)決策很重要。

5 運營專家

數(shù)據(jù)分析結果和商業(yè)決策出來之后，運營專家負責實現(xiàn)商業(yè)決策。通過有計劃的運營活動，將數(shù)據(jù)分析的結果應用到實際的商業(yè)活動之中，運營專家是實現(xiàn)數(shù)據(jù)變現(xiàn)最后一公里的關鍵人物。

運營專家屬于業(yè)務人員，實際上參與業(yè)務運營活動，利用數(shù)據(jù)分析結果，實現(xiàn)業(yè)務場景和數(shù)據(jù)場景的結合，實現(xiàn)數(shù)據(jù)商業(yè)化應用。

二數(shù)據(jù)分析之前的各項準備工作

數(shù)據(jù)分析團隊各成員確定之后，將進行下一項工作，就是找到有價值的數(shù)據(jù)進行分析了。數(shù)據(jù)是分析的基礎，因此數(shù)據(jù)的質量、數(shù)據(jù)的相關度、數(shù)據(jù)的維度等會影響數(shù)據(jù)分析的結果影，其中GIGO(垃圾進垃圾出)對于數(shù)據(jù)分析結果影響最大。

1 數(shù)據(jù)源選擇

數(shù)據(jù)分析團隊面對大量的數(shù)據(jù)源，各個數(shù)據(jù)源之間交叉聯(lián)系，各個數(shù)據(jù)域之間具有邏輯關系，各個產(chǎn)品統(tǒng)計口徑不同，不同的時間段數(shù)值不同等。這一系列問題多會影響數(shù)據(jù)分析結果，因此確定數(shù)據(jù)源選擇和數(shù)據(jù)整理至關重要。

DBA可以基于數(shù)據(jù)分析需要，找到相關數(shù)據(jù)，建立一張數(shù)據(jù)寬表，將數(shù)據(jù)倉庫的數(shù)據(jù)引入到這張寬表當中，基于一定的邏輯關系進行匯總計算。這張寬表作為數(shù)據(jù)分析的基礎，然后再依據(jù)數(shù)據(jù)分析需要衍生出一些不同的表單，為數(shù)據(jù)分析提供干凈全面的數(shù)據(jù)源。寬表一方面是用于集中相關分析數(shù)據(jù)，一方面是提高效率，不需要每次分析時都查詢其他的數(shù)據(jù)表，影響數(shù)據(jù)倉庫效率。

2 數(shù)據(jù)抽樣選擇

簡單的數(shù)據(jù)分析可以調用全體數(shù)據(jù)進行分析，數(shù)據(jù)抽樣主要用于建模分析，抽樣需考慮樣本具有代表性，覆蓋各種客戶類型，抽樣的時間也很重要，越近的時間窗口越有利于分析和預測。在進行分層抽樣時，需要保證分成出來的樣本比例同原始數(shù)據(jù)基本一致。

3 數(shù)據(jù)類型選擇

數(shù)據(jù)類型分為連續(xù)型和離散型，建模分析時需要確定數(shù)據(jù)類型。進行業(yè)務收入趨勢分析、銷售額預測分析、RFM分析時，一般采用連續(xù)型變量。信用評級、分類預測時一般采用離散變量。

4 缺失值處理

數(shù)據(jù)分析過程中會面對很多缺失值，其產(chǎn)生原因不同，有的是由于隱私的原因，故意隱去。有的是變量本身就沒有數(shù)值，有的是數(shù)據(jù)合并時不當操作產(chǎn)生的數(shù)據(jù)缺失。

缺失值處理可以采用替代法(估值法)，利用已知經(jīng)驗值代替缺失值，維持缺失值不變和刪除缺失值等方法。具體方法將參考變量和自變量的關系以及樣本量的多少來決定。

5 異常值檢測和處理

異常值對于某些數(shù)據(jù)分析結果影響很大，例如聚類分析、線性回歸(邏輯回歸)。但是對決策樹、神經(jīng)網(wǎng)絡、SVM支持向量機影響較小。

一般異常值是指明顯偏離觀測值的平均值，例如年齡為200歲，平均收入為10萬元時，有個異常值為300萬元。第一個異常值為無效異常值，需要刪掉，但是第二個異常值可能屬于有效異常值，可以根據(jù)經(jīng)驗來決定是否保留或刪掉。

6 數(shù)據(jù)標準化

數(shù)據(jù)標準化的目的是將不同性質、不同量級的數(shù)據(jù)進行指數(shù)化處理，調整到可以類比的范圍。例如在建立邏輯回歸模型時，性別的取值是0或以，但是收入取值可能就是0-100萬，跨度較大，需要進行標準化。

一般可以采用最佳/最大標準化(Min-Max 標準化法)將數(shù)值定在0和1之間，便于計算。Z分數(shù)法和小數(shù)定標標準化法也可以采用。

7 數(shù)據(jù)粗分類(Categorization)處理

歸類和分類的目的是減少樣本的變量，常有的方法由等間距分類，等頻數(shù)分類。可以依據(jù)經(jīng)驗將自變量分成幾類，分類的方法可以不同，建議采用卡方檢驗來決定采用哪種分類方法。連續(xù)型變量可以用WOE變化方法來簡化模型，但降低了模型的可解釋性。

8 變量選擇

數(shù)據(jù)分析過程中會面對成百上千的變量，一般情況下只有少數(shù)變量同目標變量有關，有助于提高預測精度。通常建模分析時，有意義的變量不會超過10-15個，稱他們?yōu)閺娤嚓P變量(聰明變量)。可以利用變量過濾器的方法來選擇變量。常見的變量過濾器應用場景如下。

連續(xù)型目標變量（CLV，LGD）

離散型目標變量／分類變量

（欺詐否／響應否／信用評分／流失否）

連續(xù)型變量

皮爾森系數(shù)

費西爾數(shù)

離散型變量

費希爾分數(shù)／方差分析ANOVA

信息差／IV

克雷姆值

提升值／熵值

一般IV值大于0.3代表變量的預測力較強，可以采用。

三數(shù)據(jù)分析過程

1 向業(yè)務部門進行調研，了解業(yè)務需要解決的問題，將業(yè)務問題映射成數(shù)據(jù)分析工作和任務

2 調研企業(yè)內外部數(shù)據(jù)，找到分析需要的數(shù)據(jù)，將數(shù)據(jù)匯聚到一個特定的區(qū)域，數(shù)據(jù)集市或數(shù)據(jù)倉庫，探索性分析

3 數(shù)據(jù)清洗，包括檢查數(shù)據(jù)的一致性，處理異常值和缺失值，刪除重復數(shù)據(jù)等

4 數(shù)據(jù)轉換，例如數(shù)據(jù)分箱(Binning)，將字符型變量轉化為數(shù)字型變量，按照數(shù)據(jù)所需維度進行匯總

5 建立模型，按照業(yè)務需求建立不同模型(例如客戶流失預警、欺詐檢測、購物籃分析、營銷響應等)

6 模型結果解釋和評估，業(yè)務專家進行業(yè)務解釋和結果評價

四大數(shù)據(jù)分析場景和模型應用

數(shù)據(jù)分析建模需要先明確業(yè)務需求，然后選擇是描述型分析還是預測型分析。如果分析的目的是描述客戶行為模式，就采用描述型數(shù)據(jù)分析，描述型分析就考慮關聯(lián)規(guī)則、序列規(guī)則、聚類等模型。

預測型數(shù)據(jù)分析就是量化未來一段時間內，某個事件的發(fā)生概率。有兩大預測分析模型，分類預測和回歸預測。常見的分類預測模型中，目標變量通常都是二元分類變量例如欺詐與否，流失與否，信用好壞等。回歸預測模型中，目標變量通常都是連續(xù)型變量，常見的有股票價格預測、違約損失率預測(LGD)等。

生存分析聚焦于將事件的結果和出現(xiàn)這一結果所經(jīng)歷的時間進行分析，源于醫(yī)療領域，研究患者治療后的存活時間。生存分析可也可以用于預測客戶流失時間，客戶下次購買時間，客戶違約時間，客戶提前償還貸款時間，客戶下次訪問網(wǎng)站時間等。

常見的數(shù)據(jù)分析應用場景如下

1市場營銷

營銷響應分析建模(邏輯回歸，決策樹)
凈提升度分析建模(關聯(lián)規(guī)則)
客戶保有分析建模(卡普蘭梅爾分析，神經(jīng)網(wǎng)絡)
購物藍分析(關聯(lián)分析Apriori)
自動推薦系統(tǒng)(協(xié)同過濾推薦，基于內容推薦，基于人口統(tǒng)計推薦，基于知識推薦，組合推薦，關聯(lián)規(guī)則)
客戶細分(聚類)
流失預測(邏輯回歸)

2風險管理

客戶信用風險評分(SVM，決策樹，神經(jīng)網(wǎng)絡)
市場風險評分建模(邏輯回歸和決策樹)
運營風險評分建模(SVM)
欺詐檢測(決策樹，聚類，社交網(wǎng)絡)

五數(shù)據(jù)模型評價的方法

1 AUC值判別法

應用模型	特征值屬性個數(shù)	AUC值范圍
信用風險評分	10-15	70%－85%
行為風險評分	10-15	80%－90%
流失預警（電信）	6-10	70%－90%
欺詐偵測（保險）	10-15	70%－90%