- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-10-14來源:21尐傻瓜瀏覽數:279次
數據倉庫具有面向主題的特性,那么就會有主題的概念,數倉建設是遵循縱向分層開發,橫向劃分主題域設計,數倉分層就不在這次談了,這次我會結合本人數倉工作實踐總結的經驗來聊聊數倉主題域劃分,同時會引申出主題劃分,和數據域是什么,業務過程等。
這個對于大數據數倉工程師來說是必備的能力,比如當你面臨著一個新業務的開啟,需要從0到1開始搭建數據倉庫或者數據集市,這時候就要考慮到主題域和主題的合理劃分。
當然本次分享的內容都是從個人實際出發,有疑問或者反饋可以通過關注公眾號留言共同探討,感謝關注。
二、數倉建設的步驟1. 業務調研數倉開發側是承上對接業務研發側&承下對接數據分析側,在數倉建設前期要對上游業務過程和對下游數據分析指標體系有所了解和熟知,然后拉齊上下游溝通數據口徑和數倉搭建。
2. 主題域劃分
3. 主題劃分
4. 輸出總線矩陣即業務過程和維度,組建成的矩陣
5. 數倉分層設計模型表
6. 數倉公共層表迭代升級
三、主題和主題域下面結合本人對搬家業務的數倉建設,進行主題域劃分和主題劃分實踐,當然項目的大小決定著這是一個小型的數據集市 還是 企業級的數據倉庫。
1主題域的劃分數倉主題域:主題域通常是聯系較為緊密的數據主題的集合,根據業務需求分析的視角進行劃分抽象歸類。
劃分方法:主題域劃分的方法一般有幾種
要么按照業務過程來劃分,一個業務過程抽象出一個主題域,比如業務系統中的商品、交易、物流 等
要么按照業務部門來劃分,一個業務部門抽象出一個主題域,比如中臺部門、業務運營部門、供應鏈部門 等
要么按照業務系統來劃分,一個業務系統抽象出一個主題域,比如搬家系統、erp系統 等
2主題的劃分數倉主題:是在較高層次上將企業生產上的各個系統中某一分析對象的數據進行整合、歸類并分析的一種范圍,屬于一個抽象概念,簡單點說每一個主題對應一個宏觀分析領域。
劃分方法:說白了主要就是要識別出分析對象主體,做主題劃分和主題域劃分,個人建議是要站在全局的視角來看,然后先劃分出主題域,再接著在主題域里面劃分出各個主題,主題域的劃分一般比較謹慎,一旦定下來了避免頻繁變動,雖然數倉建設是迭代建設的,不能保證一次性初始化好,但我們的主題域劃分和主題劃分要盡可能地涵蓋企業的所有業務,以及在新業務進來時能夠無影響地被包含進來和可擴展主題域。
3個人案例實踐分享我就分享我負責過的搬家業務數倉建設中,我是如何劃分主題域和劃分主題的,規模相當于數據集市,即小型的數據倉庫
劃分主題域:首先我是按照業務系統來劃分的,搬家是企業業務中一個獨立的業務線,所對應的業務系統也是跟其他系統是獨立開的,那么這時候我按照業務系統來劃分,就不會在建設過程中出現一些‘扯皮’操作,出現數據邊界歸屬問題。
劃分主題:上面的主題域劃分完了后就產生一個搬家主題域,然后把搬家分析作為一個分析領域,那么‘搬家分析’所涉及到的主要分析對象就有用戶、訂單、搬運工 等,則數倉的主題就可以劃分為用戶主題、訂單主題、搬運工主題 等。
健壯性評估:當后續搬家主題域業務新增,我還可以輕松地擴展出其他主題,畢竟按照上面的劃分法,搬家的數據基本都劃分在搬家主題域,剩下的就是搬家有新業務進來時擴展新主題或包含進已有主題。
4分享業界其他的案例分享網上搜索到的 馬蜂窩數倉主題、主題域劃分案例
以馬蜂窩訂單交易模型的建設為例,基于業務生產總線的設計是常見的模式,首先調研訂單交易的完整過程,定位過程中的關鍵節點,確認各節點上發生的核心事實信息。


總是聽到數據域,那么數據域和主題域是有什么關系呢,參考《阿里巴巴大數據之路》書籍和網上有人總結過這么一段,如下:
主題域:面向業務過程,將業務活動事件進行抽象的集合,如下單、支付、退款都是業務過程,針對公共明細層(DWD)進行主題劃分。
數據域:面向業務分析,將業務過程或者維度進行抽象的集合,針對公共匯總層(DWS)進行數據域劃分。
業務過程:指企業的業務活動事件,如下單、支付、退款都是業務過程,業務過程就是一個不可拆分的行為事件。
其實數據域跟主題域的差別不大,很大情況下兩者就等同于一個概念的。
