日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

郁麗萍:哈啰出行精準營銷框架及算法實踐

時間:2022-04-11來源:透不過愛情瀏覽數:374

分享嘉賓:郁麗萍 哈啰出行 算法工程師

編輯整理:高超?北京欣奕華科技

出品平臺:DataFunTalk

導讀:本次跟大家分享的是哈啰出行精準營銷場景的算法與實踐,包括以下幾大部分:

精準營銷的背景和價值

精準營銷框架

精準營銷算法能力

未來方向

01精準營銷的背景和價值

首先和大家分享一下精準營銷背景和價值。

1. 精準營銷的業務背景

哈啰由出行逐漸邁向服務電商,除了兩輪以外,還包括本地生活、酒店和電動車等多種業務。需要通過精準營銷去實現各個新業務的用戶增長。我們的業務目標是通過用戶全生命周期精準營銷和精細化運營,去提升用戶增長的北極星目標。

2. 精準營銷的場景和流程

按照用戶生命周期來劃分,精準營銷的場景主要分為三個方面:

拉新:主要是充分去挖掘一些潛在用戶。

活躍:主要是為了留存和促活目前已經有的存量用戶。

挽留:主要是通過一些精準營銷的方式去召回一些流失用戶,最終去提升各個新業務的DAU。

流程包括三大部分:

首先是who,也就是目標群組;

接下來what,投什么內容;

之后是how,以什么樣的方式去投。

最后進行精準營銷。

3. 精準營銷業務痛點

精準營銷業務主要包含以下四個痛點:

尋找精準人群的效率低:主要表現在是要憑運營人工大量的去測試。

ROI 比較低:主要表現在營銷成本很高,但是實際的收益卻是很低。

算法覆蓋面低,接入效率較低:主要表現在僅能夠覆蓋部分人群的部分場景,定制化是很嚴重的。

未形成體系化:主要表現在缺乏營銷后的分析優化,沒有形成一個精準營銷的閉環。

4. 精準營銷項目價值

精準營銷的項目價值主要體現在以下兩個方面:

提效:主要表現在兩點,第一點是提升精準營銷的效率,主要表現在運營可以直接對算法的精準人群包去進行營銷,不用去做前期的大量測試。第二點,主要是提升轉化率,主要是通過精準營銷人群模型的搭建,去提升業務點擊率,預計提升CTR的幅度是20%。

增收:通過精精準營銷可以提升業務的訂單量,預計可以提升20%。

02精準營銷框架

在搭建精準營銷框架之前,需要深入了解業務,找到哈啰精準營銷場景的特點,并找到對應的解法。

1. 精準營銷場景特點與解法

通過前期的數據分析和調研發現,目前哈啰精準營銷的場景特點和我們針對性的解法主要有以下三方面:

精準營銷場景眾多,定制化重復開發:算法從模塊化逐步走向組件化,以及最終走向的平臺化。

高質量人群需要繼續擴量:采用目前業界比較先進的半監督框架Pu-Learning。

種子用戶過少,不足以算法建模:去通過一些無監督的學習方法,進行智能放量。

2. 精準營銷業務框架

精準營銷的業務框架主要分為以下三大模塊:

特征處理:主要分為離線特征處理和實時特征處理,離線的特征處理主要是通過埋點數據計算出的離線表提前存儲到機器本地。實時特征主要是通過Flink去計算一些實時特征,將其存儲在Redis中。

精準營銷:包括算法、用戶分析平臺和投放平臺模塊。首先是算法,算法主要分為兩個點,第一個就是行業包,所謂的行業包就是在Pu-Learning框架下的LookAlike建模方法。第二點是智能放量,通過Graph Embedding無監督學習的方式去得到用戶之間的embedding,之后通過向量引擎去計算用戶和用戶之間的相似度,得到每個用戶的top n相似用戶。其次是用戶分析平臺模塊,運營首先創建由原子標簽組成的種子人群群組,然后選擇是否進行智能放量,如若選擇,算法將會返回放量后的目標群組。再次是投放平臺,當運營在進行任務投放時,首先需要創建任務,然后選擇任務方案,這個方案就是用戶分析平臺返回的目標群組,之后進行任務的下發,以及一些ab效果的回收。

算法場景:主要是業務拉新、業務促活和業務流失。活動方面,主要包含資源位的投放,Banner,站內信,或者是push。

3. 精準營銷技術框架

接下來站在技術的視角去看精準營銷的框架。

運營在創建營銷任務時,首先選擇任務方案,這個方案背后是用戶的目標群組,此群組由兩個部分構成:

由行業包形成的群組:通過一些離線的樣本和特征,離線訓練模型,將模型部署在DataMan,最后形成一個離線的預測任務。此任務將輸出的數據存儲在hive表,此后將表數據存儲在ES中,形成標簽,最終構成目標群組。

智能放量服務放量后的目標群組:業務前端收集行為埋點數據,將其存儲在kafka中,然后通過flink實時計算,將計算出的實時特征,存儲在Redis,當智能放量服務使用時,直接從特征平臺取數據。

03精準營銷算法能力

1. Pu-Learning框架下的LookAlike建模方法

什么是lookAlike?它不是一種特定的算法,而是一種思想,主要是根據種子用戶去尋找相似的拓展人群。

怎么做lookAlike?主要分為兩個方法:利用機器學習模型進行隱式人群拓展;利用社交圖結構的相似人群拓展。其中機器學習模型主要分為有監督、半監督和無監督三類,在有監督學習,分類過程中,所有的訓練數據都是有標簽的;在半監督學習中,訓練數據的一部分是有標簽的,另一部分沒有標簽,并且沒標簽數據的量常常遠大于有標簽的量。而在無監督學習中是沒有標簽的。

在做lookAlike的時候遇到的挑戰,以及對應解決方案:

新業務用戶特征稀疏:稀疏主要表現在,哈啰目前以兩輪流量給新業務導流,并且兩輪的用戶群體基數是比較大的。但是新業務在起量時,用戶往往是比較少的,所以會導致用戶行為特征的稀疏。對此,采用的解決方案是使用兩輪特征。

可用特征較少:對此解決方案是分析各業務間的共性,得到業務之間的交叉特征。

高質量人群需要繼續擴量:對此采用的方案是采用的是業界目前比較先進的Pu-Learning框架。

面對多個業務多階段發展的時候,算法迭代分為以下兩個階段:

采用GBM有監督學習模型。正樣本是新業務真實轉化的種子用戶,負樣本是從一些未轉化的用戶里面隨機去選取的一部分樣本。由于各個業務間存在差異,業務成果提升30%-130% 不等。

采用TSA半監督模型。此模型主要分為兩步,第一步在未標記樣本中識別出一些可靠的負樣本,第二步在正樣本和第一步獲得的可靠負樣本上進行有監督的學習。

傳統TSA建模流程如下:

第一步:將正樣本混入未標注樣本中(間諜樣本),將他們統一視為負樣本進行第一次的模型訓練,訓練完之后,主要是通過選擇正樣本的分數范圍去選擇出一些可靠的負樣本。具體如上圖。

第二步:在正樣本和第一步得到的可靠負樣本上進行監督學習。

優化的TAS建模流程如下:

對傳統TSA的第一步,采用EM模型。其中EM中為間諜樣本分布的最小值,為算法離線指標recall很高時的概率。

對正樣本進行數據增強,即對正樣本進行擴充,擴充的方法是將[?2,1]間的樣本也視為真正樣本,而[0,?1]間的樣本視為真負樣本,輸入到DeepFM模型進行訓練。

優化TSA的業務成果:在保證就是ROI不降低的情況下,人群數量擴 3-10 倍。

2. Graph Embedding在精準營銷上的工業級應用

Graph Embedding,主要是基于用戶關系鏈去尋找相似的人群。分為兩個步驟,首先是獲取用戶Embedding,其次計算用戶間Embedding相似度。首先是Embedding的獲取,主要是利用某種無監督機器學習方法得到。

在做Graph Embedding時面對的挑戰和對應方案:

種子人群少,如何擴量:無監督計算Embedding相似度。

如何構圖:時空信息構圖。

如何增強序的概念:APP點擊序列。

時空信息構圖由點、邊構成。點指的是用戶。邊指的是用戶與用戶在同一地塊、同一時間、同時發生的行為。其中用戶行為,主要包括用戶對單車的掃碼和關鎖等。權重是無向等權,即當用戶在一個地塊一個時間段同時發生某種行為時,它們之間會有一條邊,并且此邊是等權重的。

然后采用DeepWalk得到用戶的Embedding。DeepWalk的原理是先在圖中隨機走出一個路徑,之后將路徑序列輸入到Skip-Gram里進行訓練,最后得到用戶的向量。

但是上述做法存在一定的不足,即只考慮了用戶和用戶之間的關系,沒有將用戶之間本身的一些特性加到模型中。因此后續第二個迭代版本采用的是EGES模型,其主要和以上做法有兩點不同:

第一點:把用戶Side information加入到模型。

第二點:不同類型用戶Side information設置不同權重。

在前面兩個算法迭代版本中,主要是兩輪的騎行行為,用戶間的關系以及用戶本身特性三大方面的特征,但是要考慮哈啰APP的所有用戶,所以第三個迭代部分是將一些APP的行為序列給加進去。

工業級向量相似度的計算方法,采用向量引擎Milvus,它的主要優點有兩個:

第一:可達到近實時查詢的效果。

第二:集成了多個向量索引庫,可在限定的時間內給業務返回結果。

此次業務成果主要體現在兩個方面:

覆蓋度:全面平臺化,0成本支持智能放量人群包,并覆蓋60%場景。

提升度:ROI提升20+%。

04未來方向

最后來講一下我們對精準營銷的未來規劃。

首先是圖的構建,因為數據是模型的上限,在Graph Embedding里,首先要做到的是把圖構建好。后續我們有兩個規劃,用戶公域點擊行為和用戶私域點擊行為。

第二是智能放量閾值,目前選擇閾值主要是運營,比如想擴10 倍或1000倍,就是隨機靠人工去拍板。后面希望建立一個閾值推薦機制,可以通過背后的算法推薦ROI最高情況下的放量倍數。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢