日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一，入選IDC企業數據治理實施部署指南。同時，在IDC發布的《中國數據治理市場份額》報告中，連續四年蟬聯數據治理解決方案市場份額第一。

在線免費試用 DEMO體驗視頻介紹

睿治智能數據治理平臺

IDC蟬聯數據治理解決方案市場第一

基于用戶行為的交易反欺詐探索

時間：2022-07-09來源：莫念初瀏覽數：411次

對于正常用戶，進入平臺后，首先會進行搜索，有了搜索結果后可能會去瀏覽，這個過程大概是1分鐘左右的時間，然后把喜歡的物品加入購物車，之后可能再去瀏覽同類的產品或者同賣家的其他產品，這個過程可能也會花費幾分鐘左右，很多人有選擇困難的問題，所以到最終購買完成，可能還會有部分思考時間。

導讀：本次分享的題目是基于用戶行為的交易反欺詐檢測，主要介紹在交易反欺詐場景下使用用戶的瀏覽行為序列，采用端到端或者兩段式，監督或者無監督的方法做了相關嘗試，在不同場景下進行評測，對收益確有提升。

今天介紹的主要內容包括以下三大部分：

交易反欺詐背景介紹

模型介紹

工程部署

01交易反欺詐背景介紹

首先和大家分享交易反欺詐的背景。

1. 傳統的交易反欺詐

下圖展示了經典的交易反欺詐流程。

Data：首先會去收集數據，這里的數據一般是結構化數據、用戶畫像（例如性別、年齡等基本信息）、交易中的數據、當次交易的金額、時間點等；

Feature：接下來，根據專家經驗，或根據部分樣本去做手工特征，這在整個流程中是最為耗時耗力的部分；

Model：有了這些特征后進行處理、過濾，然后開始建模。傳統模型例如LR、樹模型GBDT。有了模型后，就可以對目標有一個判斷。

整個過程簡單、直接、高效。

2. 用戶行為數據分析

上述流程是基于結構化數據，當我們要處理非結構化數據的時候，例如用戶的行為序列數據，如果仍采用上述傳統模型，可能會有局限性。

在電商平臺，廣告、推薦等應用場景下，用戶行為序列是被廣泛使用的、信息量很高的一部分特征。傳統的風險管理很少使用行為數據，因此我們希望在交易反欺詐的場景下嘗試使用用戶行為序列，看效果如何。

下面主要介紹兩類交易欺詐的類型：

① 盜號 (Account takeover)

對于欺詐者，他們的瀏覽行為目的性強，操作也比較流暢，用盜來的賬號一般會去買一些比較貴重的物品，例如鉆石、首飾、金銀珠寶或者3C一類的物品。

上圖是兩種盜號（Account takeover）的用戶行為數據：

欺詐者登錄后，用時15s去搜索一個airports，又用27s的時間來瀏覽界面，最后用了10s的時間來完成支付操作，從登錄到完成結賬整個過程不超過1分鐘，目的性很強，操作熟練；

欺詐者登錄后，明確去搜索一個4k的電視，而后又用比較短的時間完成付款，靜默一段時間后又發生購買行為，繼續重復這樣的過程。

② 偷卡 (Stolen financial)

偷盜者竊取銀行卡信用卡等設備，其進入平臺先瀏覽，瀏覽后付款，付款需要綁卡，在這里偷竊者會綁定這張偷來的卡去做交易，之后又會瀏覽不同的商品，一般也都是比較貴重的。

再來宏觀地看一下正常用戶和盜號用戶的區別：

正常用戶瀏覽頁面的次數是盜號用戶的1.5倍；

正常用戶的平均瀏覽時長約比盜號用戶長1分鐘；

正常用戶在特定頁面（如ViewItem或者Search）的瀏覽次數比盜號用戶多20%。

上圖中下半部分的圖將用戶行為數據可視化。每個藍色框是序列中的一個具體行為，如search，buy等。后面的數字是行為在序列中的位置。綠色的線串聯起來的框是正常用戶的行為軌跡，紅色的線是盜號的人的行為軌跡。可以看到，對于一些特定的頁面流轉，比如search后直接購買，這樣的行為流轉動作中盜號的占比要更高。

以上例子和數據證明，用戶行為序列對于交易反欺詐場景是有幫助的。

首先將用戶行為數據收集起來，進行一些基本處理，去做encode或者臟數據清理，接下來將收集到的行為序列做embedding，有了embedding之后，就可以將其應用到下游不同的任務當中。

02模型介紹

1. 有監督模型

① 端到端的方法

借鑒了Deep and Wide的結構，首先介紹Deep部分，Deep部分會把不同的行為序列進入各自深度的塔里面，對于不同的sequence，先做embedding，然后過一個LSTM的結構，之后又加了CNN的結構，最終為了將不同sequence的信息更好地融合，模型又加了attention的機制，從attention輸出之后，會跟Wide部分的特征“碰面”，Wide部分我們會選擇一些在交易反欺詐領域比較傳統的手工特征，最后進行分類。

在Deep部分，我們不僅嘗試了上述結構，還嘗試了將LSTM和attention部分全部替換成transformer中的encoder結構，或者直接全部用Transformer結構替換，不同的結果在不同的情況下效果會有差異。

Enrich Deep model借鑒了PPT圖下面的paper，首先對于輸入的一個behavior sequence，它由不同的event、viewed page組成，對于用戶停留的每一個頁面，會有不同的屬性，所以我們在輸入的時候會做全對齊，之后會做embedding，后面接RNN的結構，最后去做分類。

② 兩段式的方法

先用深度學習的模型把sequence部分的信息提取出來，即對sequence做embedding，抽取出embedding后將embedding加入到下游傳統的模型里面，作為behavior sequence的特征。

上圖是Performance的展示，無論是端到端還是兩段式，加入behavior數據后都會有所提升。

2. 無監督模型

采用無監督聚類這一整體思路，主要分為兩部分：先用無監督的方式把behavior embedding學出來，有了embedding后再做無監督的聚類，聚類完成后，借Fraud Seeds從cluster中找到risky cluster，從而承接下游不同的任務。

① 如何采用無監督的方法獲取behavior sequence embedding

這里的無監督是指我們沒有用到欺詐的標簽。

我們首先將一個behavior sequence分成event sequence和time sequence，兩個sequence分別進入雙向LSTM網絡（biLSTM）, 盜卡用戶在綁卡過程中對于密碼或安全問題等的不熟悉，因此他們在特定頁面可能會停留更長的時間，我們利用attention機制將event sequence和time sequence更好地融合起來，而后組合兩部分向量去做我們的next event prediction。

② 如何利用behavior embedding進行聚類

使用HDBSCAN把高維的向量映射到三維空間，PPT右邊的圖是一個實際的效果圖，藍色的點是正常的點，紅色點是欺詐點，從圖中也可以看出，欺詐點有明顯的點聚集特性。

為了讓業務同學更好地使用，我們有一個Cluster解釋模塊，主要參考了SKOPE-RULES工具。其思路是，要對某個cluster做解釋，會把這個cluster中的樣本看作是一類（Y=1），而其它cluster中的樣本看作是其它類（Y=0），為了更好地區分它們，通過決策樹不同的分枝，生成不同的rule，以這些rule為這個cluster做解釋供下游使用。

HDBSCAN優化：

我們利用GPU資源基于FAISS做了一些相關優化，以及在HDBSCAN最小生成樹的算法部分進行了優化。

③ 如何訓練

采用滑動窗口的概念，采用前30天的數據作為訓練，第31天作為測試數據。拿歷史數據找到當前的cluster，通過“壞樣本”的種子找到risky cluster，risky cluster再跟我們的test data計算一個相似度，經過閾值或規則的判斷來對當前的交易做一個評價。

03工程部署

前面介紹的訓練部分主要是上圖中Offline模塊，Offline模塊主要包含兩部分，一是用戶behavior embedding提取部分，同時將它部署到Deep model inference engine里面，二是找到risky cluster同時將它存到線上select cluster庫中。

線上我們會對實時的sequence做一些encode的處理，過inference embedding模型，將實時的sequence變成embedding向量，有了embedding向量后我們會將當前向量和之前聚類中心保存的cluster算similarity，而后在rule engine中判斷這筆交易是正常還是欺詐。

04總結

我們在交易反欺詐場景嘗試了應用用戶行為序列，經過分析它與標簽的相關性，以及它的pattern等，我們發現欺詐行為會有一些特定的表現，可以進一步提升我們的欺詐檢測和主動風險防御能力。

問答

Q：請問異構用戶的行為信息怎么用deepmodel來做，不同屬性的用戶行為信息可能不同，有什么技巧？

A：我理解提問同學指的異構用戶行為是指有item的屬性、page屬性、location屬性、時間屬性等，首先我們針對離散型或者連續型的數據都會進行一個離散化處理，離散化處理之后再做encode，encode之后再進行embedding等一列具體操作。

Q：請問cluster里輸入的embedding是怎么得到的？

A：我們是采用無監督的方式，我們學這個embedding的目標并不是它是否發生在欺詐交易的一個序列，而是對下一個event做預測，比如我們會把輸入的序列先打斷，之前有100個行為，我們按照每20個進行劃分，每一個都會有next event，相當于做預測，這樣通過一個多分類的目標把輸入的sequence數據的embedding學出來。

Q：請問使用有監督和無監督做行為序列embedding在業務效果和模型更新上有沒有什么差異，比如有監督的序列embedding模型在訓練時是不是要和主模型的周期避開？

A：確實會有上述問題存在，但還是要看怎么使用，如果只是想完全替換原來的某些模型，這種情況還好，更多的是想通過加入了不同的特征，整體特征候選集會有差異，所以它會學習到不同方面，我們的理想情況是，不同的模型，雖然它的目標相同，但是它可能抓住的人不同，加入用戶sequence embedding后可能會抓到以前模型漏掉的欺詐用戶，不同的模型雖有相同但也有互補。

Q：請問做sequence embedding時學習的y是什么，預測的問題是什么？

A: 我們這邊采用的是有監督和無監督兩種學習方式，如果是有監督y就是它是欺詐交易還是正常交易，如果是無監督的話我們就會對next event做prediction，然后embedding抽出來遷移到不同的任務中。

Q：做特征時時間范圍的選取是怎么操作的？

A：如果是做聚類的情況，我們使用歷史滑動窗口，比如30天，以30天以前的數據training，第31天的數據做test，它的特征就是從30天來取。

Q：在特征建模的時候，特征選取在什么粒度，是用戶粒度還是交易粒度，行為序列是怎么截取的？

A：上述講的方法都是在交易粒度。

Q：next event中event是怎么定義的？

A：大頁面的view，比如說它是checkout頁面，view頁面還是search頁面。

Q：關于反欺詐系統的搭建需要哪幾個階段，業務初期沒有太多交易數據，在這種情況下需要怎么做，是不是要從積累變量和欺詐樣本開始？

A：做模型，尤其是深度模型最好還是有大量的數據，如果初期數據不足，首先可以選用專家經驗，這個專家經驗可能不僅是你們公司專家你們的場景，其他相似的專家經驗也可以遷移過來，也可以是通過一些主要的case去看到一些pattern，先去上一些規則，后面不斷的累積，達到可以建模的規模后再上深度模型（深度模型改成模型）。

Q：對于用戶不同的行為序列embedding之后是要concate拼接嗎？

A: 對于viewpage的sequence、viewitem的sequence以及dwelltime的sequence相當于每一個經過不同的塔，塔之間是獨立的，后面會concate起來。

（部分內容來源網絡，如有侵權請聯系刪除）

立即申請數據分析/數據治理產品免費試用我要試用

上一篇：淺析大數據背景下金融機構數據倫理治理現狀及對策建議...

下一篇：教育知識圖譜: 機遇與挑戰...