日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

阿里數據中臺建模規范和實施過程

時間:2022-02-23來源:不服老瀏覽數:648

? ? ? ?阿里中臺的概念,可以說是近些年來的頗為火爆的概念。從十余年前的阿里在內部完成這一過程,并提出了“中臺”概念;到后面中臺概念逐步被外部接受并在2019年爆火興起。數據中臺爆火背后,既有傳統企業轉型焦慮的市場東風,又有阿里中臺戰略示范效應的推波助瀾。下圖為阿里中臺架構,其內置“大中臺、小前臺”的戰略,其中包含了業務中臺和數據中臺的雙中臺配置。

? ? ? ?從本質上來說,中臺概念更多是一種方法論。它來告訴用戶如何構建數據化服務體系,包括從數據集成、數據建模、數據開發、數據共享到數據質量數據治理等。用戶可以阿里云或其他中臺產品去快速構建,也完全可以自主完成這一過程。本文就嘗試從數據建模為切入點,描述如何完成這一過程。

? ? ? ?01?數據建模概述

? ? ? ?1、建模意義

? ? ? ?性能:良好的數據模型能幫助我們快速查詢所需要的數據,減少數據的I/O吞吐。 成本:良好的數據模型能極大地減少不必要的數據冗余,也能實現計算結果復用,極大地降低大數據系統中的存儲和計算成本。 效率:良好的數據模型能極大地改善用戶使用數據的體驗,提高使用數據的效率。 質量:良好的數據模型能改善數據統計口徑的不一致性,減少數據計算錯誤的可能性。

? ? ? ?2、模型方法論 - OLTP vs OLAP

? ? ? ?OLTP系統面向的主要數據操作是隨機讀寫,主要采用滿足3NF的實體關系模型存儲數據,從而在事務處理中解決數據的冗余和一致性問題 OLAP系統面向的主要數據操作是批量讀寫,事務處理中的一致性不是OLAP所關注的,其主要關注數據的整合,以及在一次性的復雜大數據查詢和處理中的性能,因此它需要采用一些不同的數據建模方法。

? ? ? ?3、數倉建模方法論

? ? ? ?ER模型其建模本質是是從全企業的高度設計一個3NF模型,用實體關系(ER)模型描述企業業務,在范式理論上符合3NF。3NF - OLAP vs OLTPOLAP中的3NF與OLTP系統中的3NF的區別在于,它是站在企業角度面向主題的抽象,而不是針對某個具體業務流程的實體對象關系的抽象。建模步驟 高層模型:一個高度抽象的模型,描述主要的主題以及主題間的關系,用于描述企業的業務總體概況。 中層模型:在高層模型的基礎上,細化主題的數據項。 物理模型(也叫底層模型):在中層模型的基礎上,考慮物理存儲,同時基于性能和平臺特點進行物理屬性的設計,也可能做一些表的合并、分區的設計等。 維度模型維度建模從分析決策的需求出發構建模型,為分析需求服務,因此它重點關注用戶如何更快速地完成需求分析,同時具有較好的大規模復雜查詢的響應性能。其典型的代表是星形模型,以及在一些特殊場景下使用的雪花模型。

? ? ? ?建模步驟

? ? ? ?選擇業務過程。業務過程可以是單個業務事件,比如交易的支付、退款等;也可以是某個事件的狀態,比如當前的賬戶余額等;還可以是一系列相關業務事件組成的業務流程,具體需要看我們分析的是某些事件發生情況,還是當前狀態,或是事件流轉效率。 選擇粒度。在事件分析中,要預判所有分析需要細分的程度,從而決定選擇的粒度。粒度是維度的一個組合。 識別維表。選擇好粒度之后,就需要基于此粒度設計維表,包括維度屬性,用于分析時進行分組和篩選。 選擇事實。確定分析需要衡量的指標。

? ? ? ?02 維度建模規范

? ? ? ?下面以維度建模作為理論基礎,構建總線矩陣、劃分和定義數據域、業務過程、維度、度量/原子指標、修飾類型、修飾詞、時間周期、派生指標。整體遵循下面的建模規范。

? ? ? ?1、概念層次

? ? ? ?2、概念解讀

? ? ? ?業務板塊業務板塊是邏輯空間的定義,是基于業務特征劃分的命名空間

? ? ? ?數據域

? ? ? ?指面向業務分析,將業務過程或者維度進行抽象的集合。其中,業務過程可以概括為一個個不可拆分的行為事件。在業務過程之下,可以定義指標;維度是指度量的環境,如買家下單事件,買家是維度。為保障整個體系的生命力,數據域是需要抽象提煉,并且長期維護和更新的,但不輕易變動。在劃分數據域時,既能涵蓋當前所有的業務需求,又能在新業務進入時無影響地被包含進已有的數據域中和擴展新的數據域。

? ? ? ?業務過程

? ? ? ?指企業的業務活動事件,如下單、支付、退款都是業務過程。請注意,業務過程是一個不可拆分的行為事件,通俗地講,業務過程就是企業活動中的事件。

? ? ? ?時間周期

? ? ? ?用來明確數據統計的時間范圍或者時間點,如最近30天、自然周、截至當日等。

? ? ? ?修飾類型

? ? ? ?是對修飾詞的一種抽象劃分。修飾類型從屬于某個業務域,如日志域的訪問終端類型涵蓋無線端、PC端等修飾詞。

? ? ? ?修飾詞

? ? ? ?指除了統計維度以外指標的業務場景限定抽象。修飾詞隸屬于一種修飾類型,如在日志域的訪問終端類型下,有修飾詞PC端、無線端等。

? ? ? ?度量/原子指標

? ? ? ?原子指標和度量含義相同,基于某一業務事件行為下的度量,是業務定義中不可再拆分的指標,具有明確業務含義的名詞,如支付金額。

? ? ? ?維度

? ? ? ?維度是度量的環境,用來反映業務的一類屬性,這類屬性的集合構成一個維度,也可以稱為實體對象。維度屬于一個數據域,如地理維度(其中包括國家、地區、省以及城市等級別的內容)、時間維度(其中包括年、季、月、周、日等級別的內容)。

? ? ? ?維度屬性

? ? ? ?維度屬性隸屬于一個維度,如地理維度里面的國家名稱、國家ID、省份名稱等都屬于維度屬性。

? ? ? ?派生指標

? ? ? ?派生指標=一個原子指標+多個修飾詞(可選)+時間周期。可以理解為對原子指標業務統計范圍的圈定。如原子指標:支付金額,最近l天海外買家支付金額則為派生指標(最近l天為時間周期,海外為修飾詞,買家作為維度,而不作為修飾詞)

? ? ? ?3、指標體系(指標組成體系之間關系)

? ? ? ?原子指標原子指標、修飾類型及修飾詞,直接歸屬在業務過程下,其中修飾詞繼承修飾類型的數據域。

? ? ? ?派生指標


?

? ? ? ?派生指標由原子指標、時間周期修飾詞、若干其他修飾詞組合得到。 派生指標唯一歸屬一個原子指標 ,繼承原子指標的數據域, 與修飾詞的數據域無關。 派生指標可以選擇多個修飾詞,修飾詞之間的關系為"或"或者"且",由具體的派生指標語義決定。 派生指標要繼承原子指標的英文名、數據類型和算法要求。

? ? ? ?03 維度模型設計

? ? ? ?1、模型架構圖

?

? ? ? ?操作數據層(ODS)把操作系統數據幾乎無處理地存放在數據倉庫系統中。 同步:結構化數據增量或全量同步到底層存儲。 結構化:非結構化(日志)結構化處理并存儲至底層存儲。 累積歷史、清洗:根據數據業務需求及稽核和審計要求保存歷史數據、清洗數據。 公共維度模型層(CDM)存放明細事實數據、維表數據及公共指標匯總數據,其中明細事實數據、維表數據一般根據ODS層數據加工生成;公共指標匯總數據一般根據維表數據和明細事實數據加工生成。CDM層又細分為DWD層和DWS層,分別是明細數據層和匯總數據層,采用維度模型方法作為理論基礎,更多地采用一些維度退化手法,將維度退化至事實表中,減少事實表和維表的關聯,提高明細數據表的易用性;同時在匯總數據層,加強指標的維度退化,采取更多的寬表化手段構建公共指標數據層,提升公共指標的復用性,減少重復加工。

? ? ? ?2.其主要功能如下

? ? ? ?組合相關和相似數據:采用明細寬表,復用關聯計算,減少數據掃描。 公共指標統一加工:基于OneData體系構建命名規范、口徑一致和算法統一的統計指標,為上層數據產品、應用和服務提供公共指標;建立邏輯匯總寬表。 建立一致性維度:建立一致的數據分析維表,降低數據計算口徑、算法不統一的風險。 應用數據層(ADS)存放數據產品個性化的統計指標數據,根據CDM層與ODS層加工生成。

? ? ? ?04 模型實施過程

? ? ? ?模型整體實施過程如下圖所示:

? ? ? ?1、數據調研

? ? ? ?業務調研要構建大數據數據倉庫,就需要了解各個業務領域、業務線的業務有什么共同點和不同點,以及各個業務線可以細分為哪幾個業務模塊,每個業務模塊具體的業務流程又是怎樣的。業務調研是否充分,將會直接決定數據倉庫建設是否成功 。 需求調研需求調研的途徑有兩種:一是根據與分析師、業務運營人員的溝通(郵件、IM)獲知需求;二是對報表系統中現有的報表進行研究分析。通過需求調研分析后,就清楚數據要做成什么樣的。很多時候,都是由具體的數據需求驅動數據倉庫團隊去了解業務系統的業務數據,這兩者并沒有嚴格的先后順序。

? ? ? ?2、架構設計

? ? ? ?數據域劃分

? ? ? ?數據域是指面向業務分析,將業務過程或者維度進行抽象的集合。業務過程可以概括為一個個不可拆分的行為事件,如下單、支付、退款。為保障整個體系的生命力,數據域需要抽象提煉,并且長期維護和更新,但不輕易變動。在劃分數據域時,既能涵蓋當前所有的業務需求,又能在新業務進入時無影響地被包含進已有的數據域中或者擴展新的數據域。

? ? ? ?構建總線矩陣

? ? ? ?在進行業務調研和需求調研后,就要構建總線矩陣了。需要做兩件事情:明確每個數據域下有哪些業務過程;業務過程與哪些維度相關,并定義每個數據域下的業務過程和維度。

? ? ? ?3、規范定義

? ? ? ?規范定義主要定義指標體系,包括原子指標、修飾詞、時間周期和派生指標。上面也做了詳細說明,此處不做展開。

? ? ? ?4、模型定義

? ? ? ?模型設計主要包括維度及屬性的規范定義,維表、明細事實表和匯總事實表的模型設計。 維度設計維度是維度建模的基礎和靈魂。在維度建模中,將度量稱為"事實",將環境描述為"維度",維度是用于分析事實所需要的多樣環境。維度所包含的表示維度的列,稱為維度屬性。維度屬性是查詢約束條件、分組和報表標簽生成的基本來源,是數據易用性的關鍵。維度的作用一般是查詢約束、分類匯總以及排序等。維度的設計過程就是確定維度屬性的過程,如何生成維度屬性,以及所生成的維度屬性的優劣,決定了維度使用的方便性,成為數據倉庫易用性的關鍵。正如Kimball所說的,數據倉庫的能力直接與維度屬性的質量和深度成正比。設計步驟: 第一步:選擇維度或新建維度作為維度建模的核心,在企業級數據倉庫中必須保證維度的唯一性。以淘寶商品維度為例,有且只允許有一個維度定義。 第二步:確定主維表此處的主維表一般是ODS表,直接與業務系統同步。 第三步:確定相關維表數據倉庫是業務源系統的數據整合,不同業務系統或者同一業務系統中的表之間存在關聯性。根據對業務的梳理,確定哪些表和主維表存在關聯關系,并選擇其中的某些表用于生成維度屬性 第四步:確定維度屬性主要包括兩個階段,其中第一個階段是從主維表中選擇維度屬性或生成新的維度屬性;第二個階段是從相關維表中選擇維度屬性或生成新的維度屬性。 事實表設計事實表作為數據倉庫維度建模的核心,緊緊圍繞著業務過程來設計,通過獲取描述業務過程的度量來表達業務過程,包含了引用的維度和與業務過程有關的度量。 粒度事實表中一條記錄所表達的業務細節程度被稱為粒度。 事實類型作為度量業務過程的事實,一般為整型或浮點型的十進制數值,有可加性、半可加性和不可加性三種類型。

? ? ? ?* 可加性事實,是指可以按照與事實表關聯的任意維度進行匯總。

? ? ? ?* 半可加性事實,只能按照特定維度匯總,不能對所有維度匯總,比如庫存可以按照地點和商品進行匯總,而按時間維度把一年中每個月的庫存累加起來則毫無意義。

? ? ? ?* 不可加性事實,還有一種度量完全不具備可加性,比如比率型事實。對于不可加性事實可分解為可加的組件來實現聚集。

? ? ? ?事實表類型

?

? ? ? ?*?事務事實表用來描述業務過程,跟蹤空間或時間上某點的度量事件,保存的是最原子的數據,也稱為"原子事實表"。事務事實表中的數據在事務事件發生后產生,數據的粒度通常是每個事務一條記錄。一旦事務被提交,事實表數據被插入,數據就不能更改,其更新方式為增量更新。* 周期快照事實表以具有規律性的、可預見的時間間隔記錄事實,時間間隔如每天、每月、每年等。周期快照事實表的日期維度通常記錄時間段的終止日,記錄的事實是這個時間段內一些聚集事實值或狀態度量。事實表的數據一旦插入就不能更改,其更新方式為增量更新。* 累積快照事實表用來表述過程開始和結束之間的關鍵步驟事件,覆蓋過程的整個生命周期,通常具有多個日期字段來記錄關鍵時間點,當過程隨著生命周期不斷變化時,記錄也會隨著過程的變化而被修改。另外,它還會有一個用于指示最后更新日期的附加日期字段。由于事實表中許多日期在首次加載時是不知道的,而且這類事實表在數據加載完成后,可以對其數據進行更新,來補充業務狀態變更時的日期信息和事實。

? ? ? ?05 數據展示層設計

? ? ? ?數據展示層,是需要根據用戶個性化需求來設計。在穩固的底層模型的支持下,上層展示層更為強調靈活組合,快速響應用戶前端交互。經常采用的是“大寬表”的設計,避免關聯,加速顯示。

? ? ? ?1、示例:寬表

? ? ? ?2、示例:數據可視化

?

? ? ? ?圖中的類別、子類別是層次維度的體現。 圖中的銷售額合計,是派生指標的體現。 PS:點擊文末左下角閱讀原文獲取更多數據治理干貨內容!


(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢