- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-02-23來源:不服老瀏覽數:648次
? ? ? ?阿里中臺的概念,可以說是近些年來的頗為火爆的概念。從十余年前的阿里在內部完成這一過程,并提出了“中臺”概念;到后面中臺概念逐步被外部接受并在2019年爆火興起。數據中臺爆火背后,既有傳統企業轉型焦慮的市場東風,又有阿里中臺戰略示范效應的推波助瀾。下圖為阿里中臺架構,其內置“大中臺、小前臺”的戰略,其中包含了業務中臺和數據中臺的雙中臺配置。

? ? ? ?從本質上來說,中臺概念更多是一種方法論。它來告訴用戶如何構建數據化服務體系,包括從數據集成、數據建模、數據開發、數據共享到數據質量、數據治理等。用戶可以阿里云或其他中臺產品去快速構建,也完全可以自主完成這一過程。本文就嘗試從數據建模為切入點,描述如何完成這一過程。
? ? ? ?建模步驟
? ? ? ?選擇業務過程。業務過程可以是單個業務事件,比如交易的支付、退款等;也可以是某個事件的狀態,比如當前的賬戶余額等;還可以是一系列相關業務事件組成的業務流程,具體需要看我們分析的是某些事件發生情況,還是當前狀態,或是事件流轉效率。 選擇粒度。在事件分析中,要預判所有分析需要細分的程度,從而決定選擇的粒度。粒度是維度的一個組合。 識別維表。選擇好粒度之后,就需要基于此粒度設計維表,包括維度屬性,用于分析時進行分組和篩選。 選擇事實。確定分析需要衡量的指標。? ? ? ?下面以維度建模作為理論基礎,構建總線矩陣、劃分和定義數據域、業務過程、維度、度量/原子指標、修飾類型、修飾詞、時間周期、派生指標。整體遵循下面的建模規范。

? ? ? ?數據域
? ? ? ?指面向業務分析,將業務過程或者維度進行抽象的集合。其中,業務過程可以概括為一個個不可拆分的行為事件。在業務過程之下,可以定義指標;維度是指度量的環境,如買家下單事件,買家是維度。為保障整個體系的生命力,數據域是需要抽象提煉,并且長期維護和更新的,但不輕易變動。在劃分數據域時,既能涵蓋當前所有的業務需求,又能在新業務進入時無影響地被包含進已有的數據域中和擴展新的數據域。? ? ? ?業務過程
? ? ? ?指企業的業務活動事件,如下單、支付、退款都是業務過程。請注意,業務過程是一個不可拆分的行為事件,通俗地講,業務過程就是企業活動中的事件。? ? ? ?時間周期
? ? ? ?用來明確數據統計的時間范圍或者時間點,如最近30天、自然周、截至當日等。? ? ? ?修飾類型
? ? ? ?是對修飾詞的一種抽象劃分。修飾類型從屬于某個業務域,如日志域的訪問終端類型涵蓋無線端、PC端等修飾詞。? ? ? ?修飾詞
? ? ? ?指除了統計維度以外指標的業務場景限定抽象。修飾詞隸屬于一種修飾類型,如在日志域的訪問終端類型下,有修飾詞PC端、無線端等。? ? ? ?度量/原子指標
? ? ? ?原子指標和度量含義相同,基于某一業務事件行為下的度量,是業務定義中不可再拆分的指標,具有明確業務含義的名詞,如支付金額。? ? ? ?維度
? ? ? ?維度是度量的環境,用來反映業務的一類屬性,這類屬性的集合構成一個維度,也可以稱為實體對象。維度屬于一個數據域,如地理維度(其中包括國家、地區、省以及城市等級別的內容)、時間維度(其中包括年、季、月、周、日等級別的內容)。? ? ? ?維度屬性
? ? ? ?維度屬性隸屬于一個維度,如地理維度里面的國家名稱、國家ID、省份名稱等都屬于維度屬性。? ? ? ?派生指標
? ? ? ?派生指標=一個原子指標+多個修飾詞(可選)+時間周期。可以理解為對原子指標業務統計范圍的圈定。如原子指標:支付金額,最近l天海外買家支付金額則為派生指標(最近l天為時間周期,海外為修飾詞,買家作為維度,而不作為修飾詞)? ? ? ?派生指標
?
? ? ? ?派生指標由原子指標、時間周期修飾詞、若干其他修飾詞組合得到。 派生指標唯一歸屬一個原子指標 ,繼承原子指標的數據域, 與修飾詞的數據域無關。 派生指標可以選擇多個修飾詞,修飾詞之間的關系為"或"或者"且",由具體的派生指標語義決定。 派生指標要繼承原子指標的英文名、數據類型和算法要求。
?
? ? ? ?操作數據層(ODS)把操作系統數據幾乎無處理地存放在數據倉庫系統中。 同步:結構化數據增量或全量同步到底層存儲。 結構化:非結構化(日志)結構化處理并存儲至底層存儲。 累積歷史、清洗:根據數據業務需求及稽核和審計要求保存歷史數據、清洗數據。 公共維度模型層(CDM)存放明細事實數據、維表數據及公共指標匯總數據,其中明細事實數據、維表數據一般根據ODS層數據加工生成;公共指標匯總數據一般根據維表數據和明細事實數據加工生成。CDM層又細分為DWD層和DWS層,分別是明細數據層和匯總數據層,采用維度模型方法作為理論基礎,更多地采用一些維度退化手法,將維度退化至事實表中,減少事實表和維表的關聯,提高明細數據表的易用性;同時在匯總數據層,加強指標的維度退化,采取更多的寬表化手段構建公共指標數據層,提升公共指標的復用性,減少重復加工。
? ? ? ?模型整體實施過程如下圖所示:

? ? ? ?數據域是指面向業務分析,將業務過程或者維度進行抽象的集合。業務過程可以概括為一個個不可拆分的行為事件,如下單、支付、退款。為保障整個體系的生命力,數據域需要抽象提煉,并且長期維護和更新,但不輕易變動。在劃分數據域時,既能涵蓋當前所有的業務需求,又能在新業務進入時無影響地被包含進已有的數據域中或者擴展新的數據域。
? ? ? ?構建總線矩陣
? ? ? ?在進行業務調研和需求調研后,就要構建總線矩陣了。需要做兩件事情:明確每個數據域下有哪些業務過程;業務過程與哪些維度相關,并定義每個數據域下的業務過程和維度。
? ? ? ?* 可加性事實,是指可以按照與事實表關聯的任意維度進行匯總。
? ? ? ?* 半可加性事實,只能按照特定維度匯總,不能對所有維度匯總,比如庫存可以按照地點和商品進行匯總,而按時間維度把一年中每個月的庫存累加起來則毫無意義。
? ? ? ?* 不可加性事實,還有一種度量完全不具備可加性,比如比率型事實。對于不可加性事實可分解為可加的組件來實現聚集。
? ? ? ?事實表類型
? 
? ? ? ?*?事務事實表用來描述業務過程,跟蹤空間或時間上某點的度量事件,保存的是最原子的數據,也稱為"原子事實表"。事務事實表中的數據在事務事件發生后產生,數據的粒度通常是每個事務一條記錄。一旦事務被提交,事實表數據被插入,數據就不能更改,其更新方式為增量更新。* 周期快照事實表以具有規律性的、可預見的時間間隔記錄事實,時間間隔如每天、每月、每年等。周期快照事實表的日期維度通常記錄時間段的終止日,記錄的事實是這個時間段內一些聚集事實值或狀態度量。事實表的數據一旦插入就不能更改,其更新方式為增量更新。* 累積快照事實表用來表述過程開始和結束之間的關鍵步驟事件,覆蓋過程的整個生命周期,通常具有多個日期字段來記錄關鍵時間點,當過程隨著生命周期不斷變化時,記錄也會隨著過程的變化而被修改。另外,它還會有一個用于指示最后更新日期的附加日期字段。由于事實表中許多日期在首次加載時是不知道的,而且這類事實表在數據加載完成后,可以對其數據進行更新,來補充業務狀態變更時的日期信息和事實。
? ? ? ?數據展示層,是需要根據用戶個性化需求來設計。在穩固的底層模型的支持下,上層展示層更為強調靈活組合,快速響應用戶前端交互。經常采用的是“大寬表”的設計,避免關聯,加速顯示。

?
? ? ? ?圖中的類別、子類別是層次維度的體現。 圖中的銷售額合計,是派生指標的體現。 PS:點擊文末左下角閱讀原文獲取更多數據治理干貨內容!