- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2023-09-19來源:可愛的害羞鬼瀏覽數:2249次
一、ab test 中的假設檢驗原理是什么,它是怎么跟ab test結合的
? 控制變量法下的假設檢驗
??假設檢驗的基本思想:“小概率事件”原理,其統計推斷方法是帶有某種概率性質的反證法。小概率思想是指小概率事件在一次試驗中基本上不會發生。
??假設檢驗基本思路:在小概率事件原理的基礎上,帶有概率性質的反證法。
1.假設檢驗
思路:
概率論中,如果我們能夠證明零假設不成立,那么其備擇假設肯定為真。即,零假設和備擇假設為對立事件。
設立假設:
??零假設:A和B沒有顯著差異
??備擇假設:A和B有顯著差異
如果能找到足夠強的證據來否定零假設(A和B沒有顯著差異),那么就能有效的說明零假設不成立,即備選假設成立。
證據:
計算零假設成立的前提下A和B沒有顯著差異的概率P.value,零假設為真的概率,若P值=0.01,顯著性水平α為0.05,則零假設成立的概率=1% < 5%,而備擇假設成立的概率大于95%,因此否定了零假設,可認為備擇假設為真。
結論:
P.value<=α,拒絕零假設;P.value>α,不拒絕零假設
假設檢驗的兩類錯誤:注:棄真和取偽都是針對零假設的。
??I類錯誤——棄真錯誤,發生的概率為α,否定了真實的原假設。避免方法:可通過α水平控制,降低α水平
??II類錯誤——取偽錯誤,發生的概率為β,接受了錯誤的原假設。避免方法:可通過擴大樣本容量
Type 1
1.H0:他沒有懷孕
2.H1:他懷孕了
第一類錯誤:棄真錯誤。H0是真的,但是被拒絕了。
Type 2
1.H0:她沒有懷孕
2.H1:她懷孕了
第二類錯誤:取偽錯誤。H0是假的,但是被接受了。

二、如何選擇實驗的樣本量
在線計算網址
Compare 2 Means 2-Sample, 2-Sided Equality | Power and Sample Size Calculators | HyLown
1.數值類計算:需要填寫方差
Compare 2 Means 2-Sample, 2-Sided Equality | Power and Sample Size Calculators | HyLown
Power/Sample Size Calculator (ubc.ca)
2.比值類計算:不需要方差Sample Size Calculator (Evan’s Awesome A/B Tools) (evanmiller.org)
A/B Test Size Calculator - ABTestGuide.com
(1)實驗所需樣本量的一般公式
統計學里有最小樣本量計算公式,如下:

其中
n是每組所需樣本量,因為A/B測試一般至少2組,所以實驗所需樣本量為2n;
α和β分別稱為第一類錯誤概率和第二類錯誤概率,一般分別取0.05和0.2;
Z為正態分布的分位數函數;
Δ為兩組數值的差異,如點擊率1%到1.5%,那么Δ就是0.5%;
σ為標準差,是數值波動性的衡量,σ越大表示數值波動越厲害。
從這個公式可以知道,在其他條件不變的情況下,如果實驗兩組數值差異越大或者數值的波動性越小,所需要的樣本量就越小。
(2)比例類數值所需樣本量的計算R和G*Power使用的樣本量計算公式:

??實際A/B測試中,我們關注的較多的一類是比例類的數值,如點擊率、轉化率、留存率等。
??這類比例類數值的特點是,對于某一個用戶(樣本中的每一個樣本點)其結果只有兩種,“成功”或“未成功”;對于整體來說,其數值為結果是“成功”的用戶數所占比例。如轉化率,對于某個用戶只有成功轉化或未成功轉化。
??比例類數值的假設檢驗在統計學中叫做兩樣本比例假設檢驗。其最小樣本量計算的公式如上圖所示。
??上面式子中p1我們稱為基礎值,是實驗關注的關鍵指標現在的數值(對照組);p2我們稱為目標值,是希望通過實驗將其改善至的水平;第一類錯誤和第二類錯誤上邊已經提到,暫不多做說明,通常設定α為0.05,β為0.2 。
(3)樣本量的四個影響因素
要確定所需樣本量,首先得知道哪些因素會影響樣本量大小。
以獨立樣本T檢驗為例,在計算實驗效果的時候,除了樣本量,我們還會考慮下面4個指標。
??顯著性水平(α)(第一類錯誤概率):顯著性水平越低,對實驗結果的要求也就越高,越需要更大的樣本量來確保精度
??統計功效(1 – β)(第二類錯誤概率):統計功效意味著避免犯二類錯誤的概率,這個值越大,需要的樣本量也越大
??均值差異(μ A ? μ B):如果兩個版本的均值差別巨大,也不太需要多少樣本,就能達到統計顯著
??標準差(σ):標準差越小,代表兩組差異的趨勢越穩定。越容易觀測到顯著的統計結果

在這個公式里:
nA代表A組的樣本數量,nB代表B組的樣本數量
K為nA與nB的比值,這個值一般情況下,我們都默認為1,即AB兩組的用戶數量相等,方便做嚴謹的AB實驗對比。
三、指標的提升怎么判斷顯著性
假設我們有了數據結果,策略A的轉換率是10%,策略B的轉換率是8%,那我們說策略A比策略B好,這樣就可以了嗎?不可以,因為可能是抽樣誤差引起的轉換率差異,為了區分實驗A和B的差異是由抽樣誤差引起的?還是本質差別引起的?我們需要做假設驗證 (hypothesis testing)。統計學中有很多假設驗證方法,例如:
??T檢驗: 也稱Student’s t test,適用: 樣本量較小(如n<30),總體標準差未知,正態/近似正態分布的樣本。目的: 比較平均值之間差異是否顯著。
(1)單樣本T檢驗: 總體樣本vs抽樣樣本。
(2)配對樣本T檢驗: 同一對象接受兩種不同的處理。
(3)雙獨立樣本T檢驗: 兩組獨立樣本。
??Z檢驗: 也稱U檢驗,適用: 大樣本量(如n>30),總體標準差已知,正態/近似正態分布的樣本。目的: 比較平均值之間差異是否顯著。
??F檢驗: 適用: 正態/近似正態分布的變量。目的: 檢驗兩個正態分布變量的總體方差是否相等。
??卡方檢驗: 也稱chi-square test或X2 test,適用: 類別型變量。目的: 檢驗兩個變量之間有無關系,例如性別和是否購買數碼產品之間的關系。

假設檢驗的檢驗有兩種:單邊假設檢驗和雙邊假設檢驗,前者判斷A、B是否顯著優/劣于對方,后者判斷A、B是否存在顯著差異。
四、aa 檢驗怎么做, 怎么判斷aa 做的科學
1.分配流量,AA實驗:
實際AB實驗中可能出現抽樣不均的情況,例如實驗組恰好有很多土豪,那么結果就會產生偏差,為了保證實驗數據的變化僅僅是實驗本身引起的,可以一次性抽取4,5組流量,選擇任意兩組不加策略空跑,監控核心指標數據,選取兩組數據最接近的上實驗(控制變量)
(1)AA進行假設檢驗,檢驗AA是否有顯著差異,如果隨機分流穩定,AA不會有顯著差異;
(2)檢查小樣本的分流比例是否和設定的相差不多,例如,看新老用戶分別的分流比例、2000家酒店detail頁的分流比例等等;
(3)順著隨機分流系統的代碼規則,看一個用戶是否被分到該分的組內(難度大,主要是看隨機分流系統有無問題)
(4)分流啟動后分析個分組是否符合流量分配大小比例;分析各組用戶屬性,是否符合整體用戶屬性分布。
五、ab test 主要的應用場景
1.體驗優化
用戶體驗永遠是賣家最關心的事情之一,但已經完善的落地頁隨意的改動是一件很冒險的事情,因此很多賣家會通過AB測試進行決策,常見的是在保證其他條件一致的情況下,針對某一單一的元素進行AB兩個版本的設計,并進行測試和數據收集,最終選定數據結果更好的版本。
2.轉化率優化
通常影響電商銷售轉化率的因素有產品標題、描述、圖片、表單、定價等,通過測試這些相關因素的影響,不僅可以直接提高銷售轉化率,長期進行也能提高用戶體驗。
3.廣告優化
廣告優化可能是AB測試最常見的應用場景了,同時結果也是最直接的,營銷人員可以通過AB測試的方法了解到哪個版本的廣告更受用戶的青睞,了解到哪些步驟怎么做才能最吸引用戶。
4.推薦及算法優化
當有需要進行驗證的算法時,可以通過AB測試來進行試驗驗證,相比全量更新,AB測試所進行的灰度測試更便捷,風險控制更精準。
5.UI優化
這是比較常見的場景。不像功能的設計,存在著很多邏輯上的思路,經常還是可以確定哪種方案好,哪種方案不好。UI的優化,往往是很“藝術”層面的。往往看到真實數據前,誰也難以說明哪種設計能帶來更好的數據效果。
6.文案變化

7.頁面布局
頁面布局,主要指的是同頁面中的不同元素的排列方式。
六、ab test流程
流程一
1.確認實驗目標
比如:找到召回沉默用戶效率最高的策略
2.設計實驗
??明確目標用戶
過去30天-180天未下單老客
??試驗周期
測試一周,周期內不進行打散
??最小樣本量
參照**【(2) 如何選擇實驗的樣本量】**
??用戶分組和分組策略
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-sgIVLHLG-1642665909788)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20211021153154019.png)]
??分流比例
3.上線實驗與過程監控
需要檢測實驗是否按照預期設定正常運行,在A/B實驗中常出現的需要檢查的問題有如下:
??空白組是否真的空白的,有無空白組用戶領取到實驗組1、實驗組2、實驗組3發的券,如果發現有領券的,那需要排查分流系統問題(一般需要產研根據log信息找到當時為什么判定給該用戶發券)
??1個用戶是否僅屬于某一個組,有無存在多個組的情況
??分流是否和預先設定的分流比例一致,誤差1%也要尋找原因
??實驗樣本是否是預先設定的目標實驗樣本,判斷實驗是否進行了用戶篩選過濾,比如本實驗是對沉默用戶進行召回,有無近30天有交易的活躍用戶也被發券,如果有那說明目標用戶的圈選出問題,需要排查上下游看看是哪個環節出現問題
4.結果復盤:ROI評估
流程二
1.確定業務目標
??明確要提升的業務指標
??明確要改進的產品/策略
2.選擇檢驗指標
3.哪些指標能夠體現出因策略不同而引起的變化
4.確定統計量
5.明確要檢驗的指標,是平均值,是方差,還是比例
6.確定零假設和備擇假設
7.樣本量計算
根據確定的統計量指標,選擇合適的假設檢驗方法進行結論驗證,如T檢驗,Z檢驗,F檢驗,卡方檢驗等。
8.檢驗策略、分組策略選擇
??A組:下單推薦頁前12個推薦,9個C類店鋪商品
??B組:下單推薦頁前12個推薦,6個C類店鋪商品
??C組:下單推薦頁前12個推薦,3個C類店鋪商品
??D組:不干預(對照組)
9.統計檢驗結果
??通過統計量及統計量的P值來觀測。
??通過樣本量分布和顯著性水平來確定拒絕域和接受域,從而拒絕或者接受結果。
10.業務決策
11.AB測試的條件的時候,如何解決問題
??沒有系統:沒有灰度發布系統,無法給不同用戶發送不同版本。可以考慮手動進行分組,然后進行線下試驗,或者手動給不同用戶發送不同的版本;
??用戶量不夠:無法達到最小樣本量。可以減少實驗條件,或者重新設計實驗;如果是統計量比例,可以延長實驗周期;如果是小眾用戶,可以考慮配對樣本T檢驗。
??時間成本高:如果是一個月度以上的實驗,時間成本太高。可以研究以日為周期或周為周期對月度的影響,然后進行日實驗或周實驗。
流程三
ABtest本質上是一個:兩總體假設檢驗問題,要檢驗A、B兩個版本是一樣,還是有所區別。和之前介紹的單總體假設檢驗一樣,兩總體假設檢驗,也分步驟:
??第一步:明確要檢驗的A、B兩個對象
??第二步:明確要檢驗的指標,是平均值,還是比例
??第三步:根據檢驗目的,給出原假設/備選假設戶,可以考慮配對樣本T檢驗。
??第四步:根據要檢驗的指標,選擇檢驗統計量
時間成本高:如果是一個月度以上的實驗,時間成本太高。可以研究以日為周期或周為周期對月度的影響,然后進行日實驗或周實驗。