- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-04-21來源:夢回中瀏覽數:189次
作為一名數據產品經理,看過很多關于數倉建設的文章,這些文章大多是數據工程師所寫,旨在通過通俗易懂的語言告訴大家為什么要建數倉,建數倉的過程中需要注意哪些事項;今天希望站在數據產品經理的視角來和大家聊一聊數倉建設過程中的幾點事項,視角不同,可能提出的觀點也有所偏差,歡迎大家提出建議,多多交流。
01
數倉主要面向人群是誰
數據產品經理中有一群專門負責數倉建設的產品經理,他們活躍在各個業務中,收集著各類數據需求,最后沉淀成一張張數據表,這一過程中,數據產品經理的需求方主要有(下文中所有數據產品經理均指負責數倉建設方向的數據產品):
1
數據分析師
數據分析師作為業務線最懂數據的人,常年干著各種臟活累活,比如跑數、搭報表,他們直接面向業務,承接著來自產品、運營、市場等各個方向的各種需求,當他們需要跑某份數據的時候,如果數據表混亂,會降低他們取數的效率,因此數據分析師會經常給數據產品經理提需求,希望建標準數倉表,統一數據標準。
2
商業分析師
這是一群聽起來比較高大上的存在,和數據分析師相比,他們在商業分析上更加專業,他們的需求主要來源于領導層,然后圍繞某方向進行專題分析,構建商業分析框架,從而實現全維度商業分析;商業分析師進行分析所依賴的就是數倉建設的一張張表,尤其是上層的ADS(應用數據層)表,如果這些表說明不準確,存在歧義,會影響他們分分析結果,因此商業分析師也是數據產品經理的需求方;
3
業務產品經理
作為產品的締造者,每一個業務產品經理都想知道自己的產品怎么樣,用戶反饋如何,很多時候他們會直接向數據分析師提需求,同時也有一部分勤奮好學的業務產品經理會自己去進行跑數,此時他們對于數倉的訴求更多的是想弄清楚他們想要的數據在哪張表里,表里的每個字段代表什么意思;
4
運營
隨著信息技術的發展,運營這個崗位越來越細分,有產品運營、活動運營、用戶運營、社區運營等等,不論哪種運營,他們工作中很重要的一個事情就是查看數據,通過數據對一次活動進行全方位分析,來評估本次活動的收益和效果如何,以便于制定后續的決策。
以上,是數倉主要面向的人群,在這里沒有寫研發工程師,主要是因為研發工程師也是因為業務產品經理或運營提的需求來向數據側提需,其實最后都是面向產品、運營。
02
數倉主要解決他們的什么問題
1
降低取數門檻
由于ods層表命名沒有統一規范,數據格式混亂,業務產品經理、運營、數據分析師想要跑一份數的時候,需要咨詢很多人,才能知道某個數據存儲在哪個表里;然后還要多次確認各個字段的含義才能最后得到自己想要的數據,整個過程比較繁瑣,存在一定門檻;
通過建設標準數倉,我們會統一數據標準,對每個標準給出準確釋義,幫助用戶快速定位字段,并了解字段的真實含義;同時將各業務系統數據互聯互通,打破信息壁壘,降低取數門檻。
2
提升工作效率
在沒有標準數倉的時候,不論是數據分析師還是商業分析師,想要獲取一份數據都需要耗費大量的時間,通過編寫大量的SQL獲取目標數據;
通過建設標準數倉,根據商分、數分的訴求,將數據按照既定的主題進行匯總,通過匯總表的建設,大大降低數據分析師、商業分析師、業務產品經理、運營的取數時間,讓他們有更多的精力去進行數據分析,發現數據背后的問題并制定相應的策略去調整。
3
減少業務調整對上層應用的影響
在沒有數倉時,數據分析師的報表主要依賴于原始ods表,這時如果業務發生調整,此時對應的ods表也會發生變更,此時數據分析師也需要去調整依賴這些表的報表,后續維護成本較高;
通過建設標準數倉,我們將一些公共處理邏輯在dwd層處理掉,數分直接使用dwd層,降低ods層變化對上層報表的影響;
03
我們建的數倉有哪些注意事項
1
數據標準的統一
現有訂單表和登錄表,登錄表中存儲了用戶ID,字段名為user_id,訂單表中也存儲了用戶ID,字段名為uid。此時兩個表中包含的用戶ID均是同一內容,但是使用了兩種不同的字段名進行描述,字段出現了歧義便需要人工介入理解進行確認。
所以在建設初期,我們就可以根據業務的梳理,明確數據標準,統一數據格式,在后續的建模過程中統一引用該標準。
2
字段釋義要準確
字段一般有屬性、維度、度量三種,我們需要根據每種字段的特性進行專門的釋義;
(1)屬性:主體的某種屬性,假設主體是用戶,那么用戶姓名就是用戶的一種屬性,此時需要對這一屬性進行說明,比如用戶姓名是怎么獲取的,代表什么意思,如果某屬性是通過數據挖掘得來的,需要說明挖掘的規則是什么;
(2)維度:這是表中最常見的一種字段,比如用戶性別、城市等;這類字段經常被用于對比分析;這時我們需要對這一字段進行解釋說明,告知用戶性別是什么字段,如果可枚舉,需要給出具體的枚舉值,方便后續分析師使用,比如性別,需要給出枚舉值男、女、未知;
(3)度量:度量字段在匯總表中常見,度量也等同于指標,主要用于明確業務統計口徑和邏輯;此時在該字段的釋義中需要說明計算邏輯和口徑,便于用戶查看時可以明確對應的計算規則;比如活躍用戶數,需要特別說明活躍的口徑是什么,是否有過濾掉哪些數據,這些都需要在這里明確說明;或者將該字段和數據指標進行聯動,能夠讓用戶查看該字段對應的指標定義。
3
血緣清晰
需要把該表的上下游依賴通過清晰的方式呈現出來,便于使用者了解該表的上下游依賴,尤其是上游依賴,當數據沒在既定時間就緒時,可以快速進行問題的追蹤定位;
4
支持數據預覽
當用戶查看某表時,我們直接提供數據預覽的功能,便于用戶快速查看表中的數據樣例,好確認數據是否和自己想象的一致。
當我們做好這一切,接下來就是持續建設了,作為一名數據基建的產品經理,旨在通過我們的工作,推動業務數據化和數據業務化,讓數據發揮最大的價值。