- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2019-03-15來源:億信華辰瀏覽數:1051次
相信很多朋友已經有了較豐富的分析經驗,這里權且從個人的角度進行梳理,以資參考。為了幫助大家更好地理解本文,先貼出一張思維導圖:

在目前講解數據分析的文章里,大多數會忽略數據分析本身的目的。這會導致我們在執行時,會出現動作變形的情況。以終為始,才能保證不會跑偏。個人的理解上, 數據分析是為了能以量化的方式來分析業務問題并得出結論。其中有兩個重點詞語:量化和業務。
量化是為了統一認知,并且確保路徑可回溯,可復制。 統一認知后,才能保證不同層級,不同部門的人在平等話語權和同一個方向進行討論和協作,才能避免公司內的人以「我感覺」「我猜測」來猜測當前業務的情況。
除了「量化」之外,另外一個重點詞語是「業務」。只有解決業務問題分析才能創造價值,價值包括個人價值和公司價值。對于公司來講,你提高了收入水平或者降低了業務成本,對于個人來講,你知道怎么去利用數據解決業務問題,這對個人的能力成長和職業生涯都有非常大的幫助。
如何站在業務方的角度思考問題呢,總結起來就是八個字「憂其所慮,給其所欲」主要是在這以下幾個環節:
1. 溝通充分
2. 結論簡明
3. 提供信息量及可落地建議
4. 尋求反饋
在溝通上,確定業務方想要分析什么,提出更合理專業的衡量和分析方式,同時做好節點同步,切忌一條路走到黑。在分析業務需求上,跟很多產品需求分析方法論是類似的,需要明確所要數據背后的含義。舉例來講,業務方說要看「頁面停留時長」,但他實際想要的,可能是想衡量用戶質量,那么「留存率」「目標轉化率」才是更合適的指標。
在闡述分析結果上,要記得結論先行,逐層講解,再提供論據。論據上,圖 > 表 > 文字。因為業務方或管理層時間都是有限的,洋洋灑灑一大篇郵件,未看先暈,誰都沒心思看你到底分析了啥。需要做到,在郵件最前面,用 1-3 句話先把結論給出來,即使需求方不看后續內容都可以了解你報告 80% 的內容。
在「提供信息量及可落地建議」上,先要明白什么叫信息量:提供了對方不知道的信息。太陽明天從東方升起不算信息量,從西方升起才是。在分析的過程中,一定要從專業的角度,從已知邊界向未知邊界進軍,力求角度新穎論證扎實,并且根據分析內容給出可落地的建議。舉個簡單例子:
數據分析的本質是抓住「變」與「不變」。「變」是數據分析的基礎,如果一個業務每天訂單是 10000 單,或者每天都是以 10% 的速度穩步增長,那就沒有分析的必要了。而若想抓住「變」,得先形成「不變」的意識。
積累「不變」,就是養成「數據常識(Data Common Sense)」的過程。「不變」是根據對歷史數據不斷的觀察和積累而來。一般來說會是個范圍,范圍越精準,你對「變」就越敏感。這里有三個個人的習慣,可以幫助養成「不變」:
形成習慣,每天上班第一時間查看數據:實時&日周月報;記住各個指標大數,反復推算,記錄關鍵數據(榜單&報告)
大部分指標沒有記住全部數字的必要,簡單記住大數,萬以下只需要記到萬位,有些數字只需要記住百分比。 而指標之間的推算可以幫助你對各個指標的數量級關系和邏輯脈絡梳理清楚,出現波動時便能更加敏感。記錄關鍵數據是將工作生活遇到的比較有趣的榜單或數據報告保存在一個統一的地方,方便查閱和分析。
在「不變」的基礎上,便能逐漸培養出指標敏感性,即意識指標偏離的能力。這主要是通過各種日環比,周月同比的監控以及日常的好奇心來保持。我們從一個 Questmobile 榜單上,來簡單看下「指標偏離」是怎么應用到日常的分析上的:

這里先跟大家分享下怎么看這種榜單:
1. 看整體排行:看哪些 APP 排在前方是出乎你意料之外的
2. 分行業看排行:看行業里排行及其變動
3. 看增長率:哪些 APP 增長比較快
4. 看使用時長等其他指標
如果找到了某個維度的問題,則需要溯源到業務端或現實端,確認問題產生的源頭。如果多次細分對比下來仍然沒有確認問題,則需要溯源到業務日志或用戶訪談來更進一步摸清楚情況。
在細分方式上,主要有以下三種方式
1. 橫切:根據某個維度對指標進行切分及交叉分析
2. 縱切:以時間變化為軸,切分指標上下游
3. 內切:根據某個模型從目標內部進行劃分

橫切上,以轉轉舉例,我們對維度和指標做做了分類和交叉,當某一類的指標出現問題時,我們便知道該從什么維度進行分析。在進行橫切分析時,經常需要多個維度交叉著使用。這在數據分析術語上叫:交叉多維分析。這也是剛才講的「維度總線矩陣」看到的各維度交叉情況了。
縱切上,有目的有路徑,則用漏斗分析。無目的有路徑,則用軌跡分析。無目的無路徑,則用日志分析。
漏斗分析分為長漏斗和短漏斗。長漏斗的特征是涉及環節較多,時間周期較長。常用的長漏斗有渠道歸因模型,AARRR,用戶生命周期漏斗等等。短漏斗是有明確的目的,時間短,如訂單轉化漏斗和注冊漏斗。在軌跡分析里,桑基圖是一種常用的方式。常見于各頁面的流轉關系,電商中各品類的轉移關系等等。日志分析,則通過直接瀏覽用戶前后端日志,來分析用戶的每一個動作。
各種手段的細分往往交叉著使用,如訂單漏斗縱切完可以接著橫切,看看是哪個維度的轉化率導致的問題。

內切上,主要是根據現有市面上常見的分析模型,RFM,Cohort 和 Segment等方式進行分析。RFM 即最近購買時間,頻率及金額三個指標綜合來判定用戶忠誠度及粘性。Cohort,即同期群分析,是通過對不同時期進入平臺的新用戶分群分析,來區分不同新用戶的質量,如留存率或目標轉化率等。Segment 通過若干個條件對用戶分層,然后針對不同用戶進行分層分析和運營,如用戶活躍度分層等等。
經過反復的細分對比后,基本可以確認問題所在了。這時候就需要和業務方確認是否因為某些業務動作導致的數據異常,包括新版本上線,或者活動策略優化等等。
如果仍然沒有頭緒,那么只能從最細顆粒度查起了,如用戶日志分析、用戶訪談、外在環境了解,如外部活動,政策經濟條件變化等等
3.4 衍生模型
在「細分對比」的基礎上,可以衍生出來很多模型。這些模型的意義是能夠幫你快速判斷一個事情的關鍵要素,并做到不重不漏。這里列舉幾個以供參考:
1. Why-How-What
2. 5W1H
3. 5Why
4. 4P模型(產品,價格,渠道,宣傳)
5. SWOT 模型(優勢,劣勢,機會,威脅)
6. PEST 模型(政治,經濟,社會,科技)
7. 波士頓矩陣
而當你在競品做比對分析時,SWOT 或者 4P 模型能夠給你提供不同的角度。
根據不同的流程和場景,會有些不同的注意點和「術」的結合

4.2 數據分析常見謬誤
控制變量謬誤:在做 A/B 測試時沒有控制好變量,導致測試結果不能反映實驗結果。或者在進行數據對比時,兩個指標沒有可比性。
樣本謬誤:在做抽樣分析時,選取的樣本不夠隨機或不夠有代表性。舉例來講,互聯網圈的人會發現身邊的人幾乎不用「今日頭條」,為什么這 APP 還能有這么大瀏覽量?有個類似的概念,叫幸存者偏差。
定義謬誤:在看某些報告或者公開數據時,經常會有人魚目混珠。「網站訪問量過億」,是指的訪問用戶數還是訪問頁面數?
比率謬誤:比率型或比例型的指標出現的謬誤以至于可以單獨拎出來將。一個是每次談論此類型指標時,都需要明確分子和分母是什么。另一方面,在討論變化的百分比時,需要注意到基數是多少。有些人即使工資只漲 10% ,那也可能是 150萬…
因果相關謬誤:會誤把相關當因果,忽略中介變量。比如,有人發現雪糕的銷量和河溪溺死的兒童數量呈明顯相關,就下令削減雪糕銷量。其實可能只是因為這兩者都是發生在天氣炎熱的夏天。天氣炎熱,購買雪糕的人就越多,而去河里游泳的人也顯著增多。
辛普森悖論:簡單來說,就是在兩個相差較多的分組數據相加時,在分組比較中都占優勢的一方,會在總評中反而是失勢的一方。
最后以幾句話作為總結,也是全文中心:
數據準確性是第一位的,站在業務方的角度思考問題:憂其所慮,予其所欲,定義「變」與「不變」,細分,對比,溯源。
下一篇:6步搭建數據化運營知識體系...