日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據分析之A/B測試,看這一篇就夠了!

時間:2023-09-19來源:可愛的害羞鬼瀏覽數:2249

一、ab test 中的假設檢驗原理是什么,它是怎么跟ab test結合的

? 控制變量法下的假設檢驗

??假設檢驗的基本思想:“小概率事件”原理,其統計推斷方法是帶有某種概率性質的反證法。小概率思想是指小概率事件在一次試驗中基本上不會發生。

??假設檢驗基本思路:在小概率事件原理的基礎上,帶有概率性質的反證法。


1.假設檢驗

思路:

概率論中,如果我們能夠證明零假設不成立,那么其備擇假設肯定為真。即,零假設和備擇假設為對立事件。

設立假設:

??零假設:A和B沒有顯著差異

??備擇假設:A和B有顯著差異

如果能找到足夠強的證據來否定零假設(A和B沒有顯著差異),那么就能有效的說明零假設不成立,即備選假設成立。

證據:

計算零假設成立的前提下A和B沒有顯著差異的概率P.value,零假設為真的概率,若P值=0.01,顯著性水平α為0.05,則零假設成立的概率=1% < 5%,而備擇假設成立的概率大于95%,因此否定了零假設,可認為備擇假設為真。

結論:

P.value<=α,拒絕零假設;P.value>α,不拒絕零假設

假設檢驗的兩類錯誤:注:棄真和取偽都是針對零假設的。

??I類錯誤——棄真錯誤,發生的概率為α,否定了真實的原假設。避免方法:可通過α水平控制,降低α水平

??II類錯誤——取偽錯誤,發生的概率為β,接受了錯誤的原假設。避免方法:可通過擴大樣本容量

Type 1

1.H0:他沒有懷孕

2.H1:他懷孕了

第一類錯誤:棄真錯誤。H0是真的,但是被拒絕了。

Type 2

1.H0:她沒有懷孕

2.H1:她懷孕了

第二類錯誤:取偽錯誤。H0是假的,但是被接受了。


二、如何選擇實驗的樣本量

在線計算網址

Compare 2 Means 2-Sample, 2-Sided Equality | Power and Sample Size Calculators | HyLown

1.數值類計算:需要填寫方差

Compare 2 Means 2-Sample, 2-Sided Equality | Power and Sample Size Calculators | HyLown

Power/Sample Size Calculator (ubc.ca)

2.比值類計算:不需要方差

Sample Size Calculator (Evan’s Awesome A/B Tools) (evanmiller.org)

A/B Test Size Calculator - ABTestGuide.com

(1)實驗所需樣本量的一般公式

統計學里有最小樣本量計算公式,如下:

其中

n是每組所需樣本量,因為A/B測試一般至少2組,所以實驗所需樣本量為2n;

α和β分別稱為第一類錯誤概率和第二類錯誤概率,一般分別取0.05和0.2;

Z為正態分布的分位數函數;

Δ為兩組數值的差異,如點擊率1%到1.5%,那么Δ就是0.5%;

σ為標準差,是數值波動性的衡量,σ越大表示數值波動越厲害。

從這個公式可以知道,在其他條件不變的情況下,如果實驗兩組數值差異越大或者數值的波動性越小,所需要的樣本量就越小。

(2)比例類數值所需樣本量的計算R和G*Power使用的樣本量計算公式:

??實際A/B測試中,我們關注的較多的一類是比例類的數值,如點擊率、轉化率、留存率等。

??這類比例類數值的特點是,對于某一個用戶(樣本中的每一個樣本點)其結果只有兩種,“成功”或“未成功”;對于整體來說,其數值為結果是“成功”的用戶數所占比例。如轉化率,對于某個用戶只有成功轉化或未成功轉化。

??比例類數值的假設檢驗在統計學中叫做兩樣本比例假設檢驗。其最小樣本量計算的公式如上圖所示。

??上面式子中p1我們稱為基礎值,是實驗關注的關鍵指標現在的數值(對照組);p2我們稱為目標值,是希望通過實驗將其改善至的水平;第一類錯誤和第二類錯誤上邊已經提到,暫不多做說明,通常設定α為0.05,β為0.2 。

(3)樣本量的四個影響因素

要確定所需樣本量,首先得知道哪些因素會影響樣本量大小。

以獨立樣本T檢驗為例,在計算實驗效果的時候,除了樣本量,我們還會考慮下面4個指標。

??顯著性水平(α)(第一類錯誤概率):顯著性水平越低,對實驗結果的要求也就越高,越需要更大的樣本量來確保精度

??統計功效(1 – β)(第二類錯誤概率):統計功效意味著避免犯二類錯誤的概率,這個值越大,需要的樣本量也越大

??均值差異(μ A ? μ B):如果兩個版本的均值差別巨大,也不太需要多少樣本,就能達到統計顯著

??標準差(σ):標準差越小,代表兩組差異的趨勢越穩定。越容易觀測到顯著的統計結果

在這個公式里:

nA代表A組的樣本數量,nB代表B組的樣本數量

K為nA與nB的比值,這個值一般情況下,我們都默認為1,即AB兩組的用戶數量相等,方便做嚴謹的AB實驗對比。



三、指標的提升怎么判斷顯著性

假設我們有了數據結果,策略A的轉換率是10%,策略B的轉換率是8%,那我們說策略A比策略B好,這樣就可以了嗎?不可以,因為可能是抽樣誤差引起的轉換率差異,為了區分實驗A和B的差異是由抽樣誤差引起的?還是本質差別引起的?我們需要做假設驗證 (hypothesis testing)。統計學中有很多假設驗證方法,例如:

??T檢驗: 也稱Student’s t test,適用: 樣本量較小(如n<30),總體標準差未知,正態/近似正態分布的樣本。目的: 比較平均值之間差異是否顯著。

(1)單樣本T檢驗: 總體樣本vs抽樣樣本。

(2)配對樣本T檢驗: 同一對象接受兩種不同的處理。

(3)雙獨立樣本T檢驗: 兩組獨立樣本。

??Z檢驗: 也稱U檢驗,適用: 大樣本量(如n>30),總體標準差已知,正態/近似正態分布的樣本。目的: 比較平均值之間差異是否顯著。

??F檢驗: 適用: 正態/近似正態分布的變量。目的: 檢驗兩個正態分布變量的總體方差是否相等。

??卡方檢驗: 也稱chi-square test或X2 test,適用: 類別型變量。目的: 檢驗兩個變量之間有無關系,例如性別和是否購買數碼產品之間的關系。

我們做AB Test,“如果樣本量足夠大,那么Z檢驗和t檢驗將得出相同的結果。對于大樣本,樣本方差是對總體方差的較好估計,因此即使總體方差未知,我們也可以使用樣本方差的Z檢驗”。但正常來說,除非是長期的實驗(0.5-1年),例如算法,會選擇Z檢驗。正常的短期AB Test基本是實驗1個月內甚至說1-2周,那么此時建議選擇T檢驗。

假設檢驗的檢驗有兩種:單邊假設檢驗雙邊假設檢驗,前者判斷A、B是否顯著優/劣于對方,后者判斷A、B是否存在顯著差異。



四、aa 檢驗怎么做, 怎么判斷aa 做的科學

1.分配流量,AA實驗:

實際AB實驗中可能出現抽樣不均的情況,例如實驗組恰好有很多土豪,那么結果就會產生偏差,為了保證實驗數據的變化僅僅是實驗本身引起的,可以一次性抽取4,5組流量,選擇任意兩組不加策略空跑,監控核心指標數據,選取兩組數據最接近的上實驗(控制變量)

(1)AA進行假設檢驗,檢驗AA是否有顯著差異,如果隨機分流穩定,AA不會有顯著差異;

(2)檢查小樣本的分流比例是否和設定的相差不多,例如,看新老用戶分別的分流比例、2000家酒店detail頁的分流比例等等;

(3)順著隨機分流系統的代碼規則,看一個用戶是否被分到該分的組內(難度大,主要是看隨機分流系統有無問題)

(4)分流啟動后分析個分組是否符合流量分配大小比例;分析各組用戶屬性,是否符合整體用戶屬性分布。



五、ab test 主要的應用場景

1.體驗優化

用戶體驗永遠是賣家最關心的事情之一,但已經完善的落地頁隨意的改動是一件很冒險的事情,因此很多賣家會通過AB測試進行決策,常見的是在保證其他條件一致的情況下,針對某一單一的元素進行AB兩個版本的設計,并進行測試和數據收集,最終選定數據結果更好的版本。

2.轉化率優化

通常影響電商銷售轉化率的因素有產品標題、描述、圖片、表單、定價等,通過測試這些相關因素的影響,不僅可以直接提高銷售轉化率,長期進行也能提高用戶體驗。

3.廣告優化

廣告優化可能是AB測試最常見的應用場景了,同時結果也是最直接的,營銷人員可以通過AB測試的方法了解到哪個版本的廣告更受用戶的青睞,了解到哪些步驟怎么做才能最吸引用戶。

4.推薦及算法優化

當有需要進行驗證的算法時,可以通過AB測試來進行試驗驗證,相比全量更新,AB測試所進行的灰度測試更便捷,風險控制更精準。

5.UI優化

這是比較常見的場景。不像功能的設計,存在著很多邏輯上的思路,經常還是可以確定哪種方案好,哪種方案不好。UI的優化,往往是很“藝術”層面的。往往看到真實數據前,誰也難以說明哪種設計能帶來更好的數據效果。

6.文案變化

7.頁面布局

頁面布局,主要指的是同頁面中的不同元素的排列方式。



六、ab test流程

流程一

1.確認實驗目標

比如:找到召回沉默用戶效率最高的策略

2.設計實驗

??明確目標用戶

過去30天-180天未下單老客

??試驗周期

測試一周,周期內不進行打散

??最小樣本量

參照**【(2) 如何選擇實驗的樣本量】**

??用戶分組和分組策略

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-sgIVLHLG-1642665909788)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20211021153154019.png)]

??分流比例

3.上線實驗與過程監控

需要檢測實驗是否按照預期設定正常運行,在A/B實驗中常出現的需要檢查的問題有如下:

??空白組是否真的空白的,有無空白組用戶領取到實驗組1、實驗組2、實驗組3發的券,如果發現有領券的,那需要排查分流系統問題(一般需要產研根據log信息找到當時為什么判定給該用戶發券)

??1個用戶是否僅屬于某一個組,有無存在多個組的情況

??分流是否和預先設定的分流比例一致,誤差1%也要尋找原因

??實驗樣本是否是預先設定的目標實驗樣本,判斷實驗是否進行了用戶篩選過濾,比如本實驗是對沉默用戶進行召回,有無近30天有交易的活躍用戶也被發券,如果有那說明目標用戶的圈選出問題,需要排查上下游看看是哪個環節出現問題

4.結果復盤:ROI評估


流程二

1.確定業務目標

??明確要提升的業務指標

??明確要改進的產品/策略

2.選擇檢驗指標

3.哪些指標能夠體現出因策略不同而引起的變化

4.確定統計量

5.明確要檢驗的指標,是平均值,是方差,還是比例

6.確定零假設和備擇假設

7.樣本量計算

根據確定的統計量指標,選擇合適的假設檢驗方法進行結論驗證,如T檢驗,Z檢驗,F檢驗,卡方檢驗等。

8.檢驗策略、分組策略選擇

??A組:下單推薦頁前12個推薦,9個C類店鋪商品

??B組:下單推薦頁前12個推薦,6個C類店鋪商品

??C組:下單推薦頁前12個推薦,3個C類店鋪商品

??D組:不干預(對照組)

9.統計檢驗結果

??通過統計量及統計量的P值來觀測。

??通過樣本量分布和顯著性水平來確定拒絕域和接受域,從而拒絕或者接受結果。

10.業務決策

11.AB測試的條件的時候,如何解決問題

??沒有系統:沒有灰度發布系統,無法給不同用戶發送不同版本。可以考慮手動進行分組,然后進行線下試驗,或者手動給不同用戶發送不同的版本;

??用戶量不夠:無法達到最小樣本量。可以減少實驗條件,或者重新設計實驗;如果是統計量比例,可以延長實驗周期;如果是小眾用戶,可以考慮配對樣本T檢驗。

??時間成本高:如果是一個月度以上的實驗,時間成本太高。可以研究以日為周期或周為周期對月度的影響,然后進行日實驗或周實驗。


流程三

ABtest本質上是一個:兩總體假設檢驗問題,要檢驗A、B兩個版本是一樣,還是有所區別。和之前介紹的單總體假設檢驗一樣,兩總體假設檢驗,也分步驟:

??第一步:明確要檢驗的A、B兩個對象

??第二步:明確要檢驗的指標,是平均值,還是比例

??第三步:根據檢驗目的,給出原假設/備選假設戶,可以考慮配對樣本T檢驗。

??第四步:根據要檢驗的指標,選擇檢驗統計量

時間成本高:如果是一個月度以上的實驗,時間成本太高。可以研究以日為周期或周為周期對月度的影響,然后進行日實驗或周實驗。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢