日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

基于用戶行為的交易反欺詐探索

時間:2022-07-09來源:莫念初瀏覽數:411

對于正常用戶,進入平臺后,首先會進行搜索,有了搜索結果后可能會去瀏覽,這個過程大概是1分鐘左右的時間,然后把喜歡的物品加入購物車,之后可能再去瀏覽同類的產品或者同賣家的其他產品,這個過程可能也會花費幾分鐘左右,很多人有選擇困難的問題,所以到最終購買完成,可能還會有部分思考時間。

導讀:本次分享的題目是基于用戶行為的交易反欺詐檢測,主要介紹在交易反欺詐場景下使用用戶的瀏覽行為序列,采用端到端或者兩段式,監督或者無監督的方法做了相關嘗試,在不同場景下進行評測,對收益確有提升。

今天介紹的主要內容包括以下三大部分:

交易反欺詐背景介紹

模型介紹

工程部署

01交易反欺詐背景介紹

首先和大家分享交易反欺詐的背景。

1. 傳統的交易反欺詐

下圖展示了經典的交易反欺詐流程。

Data:首先會去收集數據,這里的數據一般是結構化數據、用戶畫像(例如性別、年齡等基本信息)、交易中的數據、當次交易的金額、時間點等;

Feature:接下來,根據專家經驗,或根據部分樣本去做手工特征,這在整個流程中是最為耗時耗力的部分;

Model:有了這些特征后進行處理、過濾,然后開始建模。傳統模型例如LR、樹模型GBDT。有了模型后,就可以對目標有一個判斷。

整個過程簡單、直接、高效。

2. 用戶行為數據分析

上述流程是基于結構化數據,當我們要處理非結構化數據的時候,例如用戶的行為序列數據,如果仍采用上述傳統模型,可能會有局限性。

在電商平臺,廣告、推薦等應用場景下,用戶行為序列是被廣泛使用的、信息量很高的一部分特征。傳統的風險管理很少使用行為數據,因此我們希望在交易反欺詐的場景下嘗試使用用戶行為序列,看效果如何。

下面主要介紹兩類交易欺詐的類型:

① 盜號 (Account takeover)

對于正常用戶,進入平臺后,首先會進行搜索,有了搜索結果后可能會去瀏覽,這個過程大概是1分鐘左右的時間,然后把喜歡的物品加入購物車,之后可能再去瀏覽同類的產品或者同賣家的其他產品,這個過程可能也會花費幾分鐘左右,很多人有選擇困難的問題,所以到最終購買完成,可能還會有部分思考時間。

對于欺詐者,他們的瀏覽行為目的性強,操作也比較流暢,用盜來的賬號一般會去買一些比較貴重的物品,例如鉆石、首飾、金銀珠寶或者3C一類的物品。

上圖是兩種盜號(Account takeover)的用戶行為數據:

欺詐者登錄后,用時15s去搜索一個airports,又用27s的時間來瀏覽界面,最后用了10s的時間來完成支付操作,從登錄到完成結賬整個過程不超過1分鐘,目的性很強,操作熟練;

欺詐者登錄后,明確去搜索一個4k的電視,而后又用比較短的時間完成付款,靜默一段時間后又發生購買行為,繼續重復這樣的過程。

② 偷卡 (Stolen financial)

偷盜者竊取銀行卡信用卡等設備,其進入平臺先瀏覽,瀏覽后付款,付款需要綁卡,在這里偷竊者會綁定這張偷來的卡去做交易,之后又會瀏覽不同的商品,一般也都是比較貴重的。

再來宏觀地看一下正常用戶和盜號用戶的區別:

正常用戶瀏覽頁面的次數是盜號用戶的1.5倍;

正常用戶的平均瀏覽時長約比盜號用戶長1分鐘;

正常用戶在特定頁面(如ViewItem或者Search)的瀏覽次數比盜號用戶多20%。

上圖中下半部分的圖將用戶行為數據可視化。每個藍色框是序列中的一個具體行為,如search,buy等。后面的數字是行為在序列中的位置。綠色的線串聯起來的框是正常用戶的行為軌跡,紅色的線是盜號的人的行為軌跡。可以看到,對于一些特定的頁面流轉,比如search后直接購買,這樣的行為流轉動作中盜號的占比要更高。

以上例子和數據證明,用戶行為序列對于交易反欺詐場景是有幫助的。

首先將用戶行為數據收集起來,進行一些基本處理,去做encode或者臟數據清理,接下來將收集到的行為序列做embedding,有了embedding之后,就可以將其應用到下游不同的任務當中。

02模型介紹

1. 有監督模型

① 端到端的方法

借鑒了Deep and Wide的結構,首先介紹Deep部分,Deep部分會把不同的行為序列進入各自深度的塔里面,對于不同的sequence,先做embedding,然后過一個LSTM的結構,之后又加了CNN的結構,最終為了將不同sequence的信息更好地融合,模型又加了attention的機制,從attention輸出之后,會跟Wide部分的特征“碰面”,Wide部分我們會選擇一些在交易反欺詐領域比較傳統的手工特征,最后進行分類。

在Deep部分,我們不僅嘗試了上述結構,還嘗試了將LSTM和attention部分全部替換成transformer中的encoder結構,或者直接全部用Transformer結構替換,不同的結果在不同的情況下效果會有差異。

Enrich Deep model借鑒了PPT圖下面的paper,首先對于輸入的一個behavior sequence,它由不同的event、viewed page組成,對于用戶停留的每一個頁面,會有不同的屬性,所以我們在輸入的時候會做全對齊,之后會做embedding,后面接RNN的結構,最后去做分類。

② 兩段式的方法

先用深度學習的模型把sequence部分的信息提取出來,即對sequence做embedding,抽取出embedding后將embedding加入到下游傳統的模型里面,作為behavior sequence的特征。

上圖是Performance的展示,無論是端到端還是兩段式,加入behavior數據后都會有所提升。

2. 無監督模型

采用無監督聚類這一整體思路,主要分為兩部分:先用無監督的方式把behavior embedding學出來,有了embedding后再做無監督的聚類,聚類完成后,借Fraud Seeds從cluster中找到risky cluster,從而承接下游不同的任務。

① 如何采用無監督的方法獲取behavior sequence embedding

這里的無監督是指我們沒有用到欺詐的標簽。

我們首先將一個behavior sequence分成event sequence和time sequence,兩個sequence分別進入雙向LSTM網絡(biLSTM), 盜卡用戶在綁卡過程中對于密碼或安全問題等的不熟悉,因此他們在特定頁面可能會停留更長的時間,我們利用attention機制將event sequence和time sequence更好地融合起來,而后組合兩部分向量去做我們的next event prediction。

② 如何利用behavior embedding進行聚類

使用HDBSCAN把高維的向量映射到三維空間,PPT右邊的圖是一個實際的效果圖,藍色的點是正常的點,紅色點是欺詐點,從圖中也可以看出,欺詐點有明顯的點聚集特性。

為了讓業務同學更好地使用,我們有一個Cluster解釋模塊,主要參考了SKOPE-RULES工具。其思路是,要對某個cluster做解釋,會把這個cluster中的樣本看作是一類(Y=1),而其它cluster中的樣本看作是其它類(Y=0),為了更好地區分它們,通過決策樹不同的分枝,生成不同的rule,以這些rule為這個cluster做解釋供下游使用。

HDBSCAN優化:

我們利用GPU資源基于FAISS做了一些相關優化,以及在HDBSCAN最小生成樹的算法部分進行了優化。

③ 如何訓練

采用滑動窗口的概念,采用前30天的數據作為訓練,第31天作為測試數據。拿歷史數據找到當前的cluster,通過“壞樣本”的種子找到risky cluster,risky cluster再跟我們的test data計算一個相似度,經過閾值或規則的判斷來對當前的交易做一個評價。

03工程部署

前面介紹的訓練部分主要是上圖中Offline模塊,Offline模塊主要包含兩部分,一是用戶behavior embedding提取部分,同時將它部署到Deep model inference engine里面,二是找到risky cluster同時將它存到線上select cluster庫中。

線上我們會對實時的sequence做一些encode的處理,過inference embedding模型,將實時的sequence變成embedding向量,有了embedding向量后我們會將當前向量和之前聚類中心保存的cluster算similarity,而后在rule engine中判斷這筆交易是正常還是欺詐。

04總結

我們在交易反欺詐場景嘗試了應用用戶行為序列,經過分析它與標簽的相關性,以及它的pattern等,我們發現欺詐行為會有一些特定的表現,可以進一步提升我們的欺詐檢測和主動風險防御能力。

05

問答

Q:請問異構用戶的行為信息怎么用deepmodel來做,不同屬性的用戶行為信息可能不同,有什么技巧?

A:我理解提問同學指的異構用戶行為是指有item的屬性、page屬性、location屬性、時間屬性等,首先我們針對離散型或者連續型的數據都會進行一個離散化處理,離散化處理之后再做encode,encode之后再進行embedding等一列具體操作。

Q:請問cluster里輸入的embedding是怎么得到的?

A:我們是采用無監督的方式,我們學這個embedding的目標并不是它是否發生在欺詐交易的一個序列,而是對下一個event做預測,比如我們會把輸入的序列先打斷,之前有100個行為,我們按照每20個進行劃分,每一個都會有next event,相當于做預測,這樣通過一個多分類的目標把輸入的sequence數據的embedding學出來。

Q:請問使用有監督和無監督做行為序列embedding在業務效果和模型更新上有沒有什么差異,比如有監督的序列embedding模型在訓練時是不是要和主模型的周期避開?

A:確實會有上述問題存在,但還是要看怎么使用,如果只是想完全替換原來的某些模型,這種情況還好,更多的是想通過加入了不同的特征,整體特征候選集會有差異,所以它會學習到不同方面,我們的理想情況是,不同的模型,雖然它的目標相同,但是它可能抓住的人不同,加入用戶sequence embedding后可能會抓到以前模型漏掉的欺詐用戶,不同的模型雖有相同但也有互補。

Q:請問做sequence embedding時學習的y是什么,預測的問題是什么?

A: 我們這邊采用的是有監督和無監督兩種學習方式,如果是有監督y就是它是欺詐交易還是正常交易,如果是無監督的話我們就會對next event做prediction,然后embedding抽出來遷移到不同的任務中。

Q:做特征時時間范圍的選取是怎么操作的?

A:如果是做聚類的情況,我們使用歷史滑動窗口,比如30天,以30天以前的數據training,第31天的數據做test,它的特征就是從30天來取。

Q:在特征建模的時候,特征選取在什么粒度,是用戶粒度還是交易粒度,行為序列是怎么截取的?

A:上述講的方法都是在交易粒度。

Q:next event中event是怎么定義的?

A:大頁面的view,比如說它是checkout頁面,view頁面還是search頁面。

Q:關于反欺詐系統的搭建需要哪幾個階段,業務初期沒有太多交易數據,在這種情況下需要怎么做,是不是要從積累變量和欺詐樣本開始?

A:做模型,尤其是深度模型最好還是有大量的數據,如果初期數據不足,首先可以選用專家經驗,這個專家經驗可能不僅是你們公司專家你們的場景,其他相似的專家經驗也可以遷移過來,也可以是通過一些主要的case去看到一些pattern,先去上一些規則,后面不斷的累積,達到可以建模的規模后再上深度模型(深度模型改成模型)。

Q:對于用戶不同的行為序列embedding之后是要concate拼接嗎?

A: 對于viewpage的sequence、viewitem的sequence以及dwelltime的sequence相當于每一個經過不同的塔,塔之間是獨立的,后面會concate起來。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢