實用干貨來了!

數(shù)倉全景圖鎮(zhèn)樓
00
建設(shè)過程

數(shù)倉建模的過程分為業(yè)務(wù)建模、領(lǐng)域建模、邏輯建模和物理建模,但是這? 些步驟比較抽象。為了便于落地,我根據(jù)自己的經(jīng)驗,總結(jié)出上面的七個步驟:梳理業(yè)務(wù)流程、垂直切分、指標體系梳理、實體關(guān)系調(diào)研、維度梳理、數(shù)倉分層以及物理模型建立。每個步驟不說理論,直接放工具、模板和案例。
01
業(yè)務(wù)流程
1
找到公司核心業(yè)務(wù)流程,找到誰,在什么環(huán)節(jié),做什么關(guān)鍵動作,得到什么結(jié)果。

2
梳理每個業(yè)務(wù)節(jié)點的客戶及關(guān)注重點,找到數(shù)據(jù)在哪。

02
分域/主題
3
決定數(shù)倉的建設(shè)方式,快速交活,就用自下而上的建設(shè)。要全面支撐,就頂層規(guī)劃,分步實施,交活稍微慢點。

4
同時按照業(yè)務(wù)領(lǐng)域劃分主題域。主題域的劃分方法有:按業(yè)務(wù)流劃分(推薦)、按需求分、按職責(zé)分、按產(chǎn)品功能分等。

03
指標體系
5
指標的意義在于統(tǒng)一語言,統(tǒng)一口徑。所以指標的定義必須有嚴格的標準。否則如無根之水。

指標可分為原子指標、派生指標和衍生指標,其含義及命名規(guī)則舉例如下:

6
依照指標體系建設(shè)標準,開始梳理指標體系。整個體系同樣要以業(yè)務(wù)為核心進行梳理。同時梳理每個業(yè)務(wù)過程所需的維度。維度就是你觀察這個業(yè)務(wù)的角度,指標就是衡量這個業(yè)務(wù)結(jié)果 好壞的量化結(jié)果。
請注意,此時不能被現(xiàn)有數(shù)據(jù)局限。如果分析出這個業(yè)務(wù)過程應(yīng)該有這個指標,但是沒有數(shù)據(jù),請標注出來,提出收集數(shù)據(jù)的需求。
04
實體關(guān)系
7
每個業(yè)務(wù)動作都會有數(shù)據(jù)產(chǎn)生。我們將能夠獲取到的數(shù)據(jù),提取實體,繪制ER圖,便于之后的維度建模。

8
同樣以業(yè)務(wù)過程為起點向下梳理,此時的核心是業(yè)務(wù)表。把每張表中涉及的維度、指標都整理出來。

05
維度整理
9
維度標準化是將各個業(yè)務(wù)系統(tǒng)中相同的維度進行統(tǒng)一的過程。其字段名稱、代碼、名字都可能不一樣,我們需要完全掌握,并標準化。

維度的標準盡可能參照國家標準、行業(yè)標準。例如地區(qū)可以參照國家行政區(qū)域代碼。
另外,有些維度存在層級,如區(qū)域的省、市、縣。絕大多數(shù)業(yè)務(wù)系統(tǒng)中的級聯(lián)就是多層級維度。
06
數(shù)倉分層
10
數(shù)據(jù)倉庫一般分為4層,名字可能會不一樣,但是其目的和建設(shè)方法基本一致:

每一層采用的建模方法都不一樣,其核心是逐層解耦。越到底層,越接近業(yè)務(wù)發(fā)生的記錄,越到上層,越接近業(yè)務(wù)目標。
11
依托數(shù)倉分層的設(shè)計理論,根據(jù)實際業(yè)務(wù)場景,我們就可以梳理出整體的數(shù)據(jù)流向圖。這張圖會很清晰的告訴所有人,數(shù)據(jù)從那來,到哪里去,最終提供什么樣的服務(wù)。

07
模型建立
12
此時才真正進入純代碼階段。數(shù)倉、ETL工具選型;ETL流程開發(fā);cube的建立;任務(wù)調(diào)度,設(shè)定更新方式、更新頻率;每日查看日志、監(jiān)控etl執(zhí)行情況等等。

前面梳理清楚了,ETL會變的非常清晰
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)