日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

淺談金融數據應用之不均衡樣本處理

時間:2022-11-27來源:半情歌瀏覽數:587

隨著數字經濟時代的到來,數據建模分析技術在金融機構的客戶細分、精準營銷、風險評估、欺詐識別、智能服務等多個業務領域得到了廣泛應用,機器學習也逐漸成為大數據分析的關鍵技術。但在實際應用中往往面臨數據建模樣本類別傾斜、算法可解釋性匱乏等挑戰,本文將從不均衡建模樣本問題的處理思路出發,淺談金融數據的機器學習建模應用實踐。

1.什么是不均衡樣本問題?

在實際應用場景中,類別間的實例數量不均衡(甚至嚴重傾斜)是極為常見的。以欺詐交易識別場景為例,欺詐性質的交易僅占全量交易記錄的極少部分,少數類別(涉詐樣本)與多數類別(正常樣本)的比例甚至可能會達到1:1000以上,而少數類別樣本往往包含著關鍵信息。這導致分類器過多地從多數樣本中學習信息要素,很容易將絕大多數新樣本判定為“多數類別”,因此不能很好地完成建模預測。這種因樣本中某類別數據遠多于其他類別數據而造成模型對少數類別識別不準確的問題,即是樣本不均衡問題。

2.不均衡樣本建模性能的評估方法?

利用不均衡樣本建模,即使分類器對新的少數類別實例的識別能力很弱,也能獲得很高的總體分類正確率(accuracy)。因此,應考慮采用更具有區分力的指標。混淆矩陣(confusion matrix)、準確率(precision rate)、召回率(recall rate)與F值(F-Score)的關系見下圖所示。

仍以欺詐交易識別為例,業務目標可能更偏向于找出所有涉詐交易(高召回率),而非是否意外將更多正常客戶也納入了篩查范圍(高準確率)。理想情況下,我們當然希望兩者兼而有之:既能識別涉詐交易,又能節約排查成本。但在實際應用時,我們必須處理二者的權衡關系,即是否要以降低召回率來提高精度,抑或反向為之,相關權衡效果如下表所示。

準確率和召回率的關系可以通過PR曲線展現,在同一個模型下,二者通常呈反向相關,曲線越靠右上側,模型性能越好。如下圖所示,B能夠完全包絡C,說明B模型全面由于C模型;A只能在一部分區域包絡B,則需要以準確率和召回率相等的點作為用于比較的“平衡點”,可以認為A模型優于B模型。PR曲線一般受樣本類別變化的影響非常明顯。ROC(receiver operating characteristic)曲線表現的是假正率(FP)和真正率(TP)之間的關系,線下面積一般稱為ROC-AUC(area under curve)。曲線越靠近左上方、線下面積越大(一般在0.5至1之間),說明模型性能越好。如下圖所示,A模型的性能表現優于B。

因為ROC曲線沒有將假負率(FN)考慮進來,在樣本類別分布變動時,其變化程度不大,因此,樣本越不均衡,ROC曲線可能會顯得越過于樂觀,實用性相較于PR曲線較弱。K-S(Kolmogorov-Smirnov)曲線,又稱作洛倫茲曲線。實際上,K-S曲線的數據來源和本質與ROC曲線是一致的,K-S曲線只是把真正率、假正率都作為縱軸,橫軸則由選定的閾值來充當。真正率和假正率的差值稱作K-S值,值越大,模型的預測準確性越好,一般KS>0.2即可認為模型有較好的預測性能。

不均衡樣本的處理思路通常分為數據驅動型和算法驅動型方案,前者在數據預處理階段通過采樣降低數據的不均衡程度,后者對現有算法進行改進,使其更傾向于少數類數據。

1.數據驅動型方案?

數據驅動型方案通過改變訓練集不同類別實例數量分布來降低類別間不均衡度,通常較容易實現,并對提升模型識別精準度有一定效果,稱為重采樣技術,可分為欠采樣、過采樣,也可將兩種技術聯合使用。欠采樣技術(undersampling)是指從多數類別樣本中剔除一些實例,或者說只從多數類別樣本中留存部分實例。常見的欠采樣技術及對比見下表。

過采樣技術(oversampling)即把少數類別實例復制多份,或者從少數類別實例中合成新的實例。后者也稱為數據增強算法,即在不實質增加數據的情況下,從原始數據加工出更多近似同分布的可參考實例。需要注意的是,

第一,對于數據間關聯性強顯著的情況(例如產品加工過程、設備故障溯源等數據特征間存在物理關系的場景),過采樣技術容易導致數據脫離現實情況;

第二,對于樣本極度不均衡的情況(例如少數類別實例數量僅有幾個),過采樣技術沒有應用的意義。常見的過采樣技術及對比見下表。

在使用采樣技術時,可以參考以下原則: 在多數類別實例絕對數量較多且遠多于少數類別時,考慮同時使用欠采樣與過采樣(常用組合有SMOTE+ENN和SMOTE+Tomek Links)。 欠采樣與過采樣后,少數與多數類別實例數量不需要達到1:1,通常這一比例可能適得其反,因為與現實數據分布情況相差甚遠。可以嘗試陸續增加少數類別樣本占樣本總體數量比例,并通過上文的評估指標和具體的線上測試選擇合適的比例。 考慮多嘗試不同的欠采樣與過采樣比例,并基于召回率、準確率、PR曲線、KS曲線等評估手段選擇性能最優的數據分布。?

2.算法驅動型方案?

代價敏感型(cost-sensitive)學習是在模型算法的損失函數層面進行優化,為不同的分類錯誤給予不同懲罰力度(權重),在調節類別平衡的同時,也不會增加計算復雜度。常見的方法見下表。

不同模型對不均衡樣本的敏感度是有差異性的。例如,相比邏輯回歸模型,決策樹在不均衡數據上面的表現要更好一些,因為前者考量的是全體樣本的最小損失,而后者在按照增益遞歸劃分數據的時候,僅考慮局部的增益。而基于采樣與集成樹模型的方式,在不均衡數據上的表現要更勝一籌。集成學習(ensemble learning)指的是通過重復組合少數類別實例與采樣獲得的與之數量相當的多數類別實例,訓練若干(弱)分類器并將其共同預測結果作為最終輸出的方法。分類器的組合使得單一學習的方差被平均化,由此提升模型整體的泛化能力和性能。常見的采樣與集成學習請見下表。

此外,RUSB、SmoteBoost、balanced RF等其他集成方法,也值得在實踐中加以實驗。在樣本類別不均衡很極端的情況下(例如少數類別只有幾十個實例),可以將分類問題考慮成異常檢測(anomaly detection)問題。異常檢測的重點不在于找出類間差別,而是為其中一類進行建模,通過數據挖掘方法發現與數據集分布不一致的異常數據,也被稱為離群點、異常值檢測等。無監督異常檢測按其算法思想大致可分為幾類:基于聚類、統計、分類模型(one-class SVM)、深度學習(孤立森林)以及神經網絡(自編碼器AE)的方法等。為進一步比對上述不均衡樣本處理思路異同,本文選用Bank Marketing Data Set和Abalone兩個數據集,主要基于imbalanced-learn包完成數據處理工作。

1.數據集說明?

兩個數據集均來自USI,Bank Marketing Data Set為銀行營銷數據集,少數類別實例與多數類別實例比約為1:9,主要根據客戶歷史營銷響應數據,結合對市場未來需求數據、相關行業政策數據等,預測未來周期內客戶營銷響應;Abalone為鮑魚數據集,通過物理測量來預測鮑魚的年齡,該數據集少數類別實例與多數類別實例比約為1:129,且少數類別實例數量極少,主要作為極端案例與銀行營銷數據集做對比。

2.試驗方法?

以不做樣本均衡化處理的邏輯回歸作為基線模型,比對前文所提到的部分樣本不均衡處理方法的特點。

3.不均衡樣本實例處理結果比對?

銀行營銷數據集的ROC曲線與PS曲線如下所示。

鮑魚數據集的ROC曲線與PS曲線如下所示,9種方法的AUC分別為。

兩個數據集的ROC和PS曲線線下面積如下表所示。

根據如上曲線和數據特點,可有以下評估結論: 對于銀行營銷數據集而言,可以采用集成方法或SMOTE與欠采樣的結合來做樣本均衡化處理;對于鮑魚數據集來說,SMOTE與欠采樣的結合方案,更適合用于樣本的均衡化處理。 從PR曲線的線下面積來看,鮑魚數據集可能不適用于傳統的均衡化方案(這種極度不均衡的情況也常見于欺詐識別等金融業務領域),可考慮采用異常檢測方法。 前文已經提到,ROC曲線對于數據不均衡的敏感度不如PR曲線,兩個數據集實驗中,ROC-AUC均遠大于PR-AUC。 集成學習和SMOTE與欠采樣結合方案的學習時間通常最長,對于追求速度的實時業務場景(例如實時欺詐識別),應考慮替代方案。 以上就是不均衡樣本處理的實證研究。在具體實施中還需要針對個性化的問題進行具體分析,通過實際應用不斷積累實戰經驗。另外,參考文獻中基本涵蓋了上述方法的出處論文,感興趣的讀者也可做進一步學習。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢