日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國數(shù)據(jù)治理市場(chǎng)份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場(chǎng)份額第一。

詳解數(shù)據(jù)模型的方法、規(guī)范、流程、架構(gòu)、分層和工具寶典

時(shí)間:2022-02-28來源:中關(guān)村村花瀏覽數(shù):515

01 ?建模概念

數(shù)據(jù)幾乎總是用于兩種目的:操作型記錄的保存和分析型決策的制定。簡(jiǎn)單來說,操作型系統(tǒng)保存數(shù)據(jù),分析型系統(tǒng)使用數(shù)據(jù)。通常我們將操作型系統(tǒng)簡(jiǎn)稱為OLTP(On-Line Transaction Processing)— 聯(lián)機(jī)事務(wù)處理,將分析型系統(tǒng)簡(jiǎn)稱為OLAP(On-Line Analytical Processing)— 聯(lián)機(jī)分析處理。針對(duì)這兩種不同的數(shù)據(jù)用途,如何組織數(shù)據(jù),更好地滿足數(shù)據(jù)使用需求。這里就涉及到數(shù)據(jù)建模問題。即設(shè)計(jì)一種數(shù)據(jù)組織方式(模型),來滿足不同場(chǎng)景。在OLTP場(chǎng)景中,常用的是使用實(shí)體關(guān)系模型(ER)來存儲(chǔ),從而在事務(wù)處理中解決數(shù)據(jù)的冗余和一致性問題。在OLAP場(chǎng)景中,有多種建模方式有:ER模型、星型模型和多維模型。

02? 維度建模

維度建模,是數(shù)據(jù)倉庫大師Ralph Kimball提出的,是數(shù)據(jù)倉庫工程領(lǐng)域最流行的數(shù)倉建模經(jīng)典。維度建模以分析決策的需求出發(fā)構(gòu)建模型,構(gòu)建的數(shù)據(jù)模型為分析需求服務(wù),因此它重點(diǎn)解決用戶如何更快速完成分析需求,同時(shí)還有較好的大規(guī)模復(fù)雜查詢的響應(yīng)性能。它是面向分析的,為了提高查詢性能可以增加數(shù)據(jù)冗余,反規(guī)范化的設(shè)計(jì)技術(shù)。

2、維度表?

維度表,一致性維度,業(yè)務(wù)過程的發(fā)生或分析角度,我們主要關(guān)注下退化維度和緩慢變化維。退化維度(DegenerateDimension)在維度類型中,有一種重要的維度稱作為退化維度,亦維度退化一說。這種維度指的是直接把一些簡(jiǎn)單的維度放在事實(shí)表中。退化維度是維度建模領(lǐng)域中的一個(gè)非常重要的概念,它對(duì)理解維度建模有著非常重要的作用,退化維度一般在分析中可以用來做分組使用。緩慢變化維(Slowly Changing Dimensions)維度的屬性并不是始終不變的,它會(huì)隨著時(shí)間的流逝發(fā)生緩慢的變化,這種隨時(shí)間發(fā)生變化的維度我們一般稱之為緩慢變化維(SCD)。SCD常用的三種處理方式:

TYPE1 直接覆蓋原值

TYPE2 增加維度行在為維度成員增加新行時(shí),需為其分配新的主代理鍵。并且,至少需要在維度行再增加三列:有效日期、截止日期、行標(biāo)識(shí)。這個(gè)地方可聯(lián)想拉鏈表設(shè)計(jì)。

TYPE3 增加屬性列

④ 混合方式可根據(jù)實(shí)際業(yè)務(wù)場(chǎng)景,混合或選擇使用以上三種方式,以快速方便而又準(zhǔn)確的分析歷史變化情況。

3、粒度用于確定某一事實(shí)表中的行表示什么,是業(yè)務(wù)最小活動(dòng)單元或不同維度組合,即業(yè)務(wù)細(xì)節(jié)程度。

4、維度建模流程維度建模步驟:選擇業(yè)務(wù)過程->聲明粒度->確定維度->確定事實(shí)。旨在重點(diǎn)解決數(shù)據(jù)粒度、維度設(shè)計(jì)和事實(shí)表設(shè)計(jì)問題。聲明粒度,為業(yè)務(wù)最小活動(dòng)單元或不同維度組合。以共同粒度從多個(gè)組織業(yè)務(wù)過程合并度量的事實(shí)表稱為合并事實(shí)表,需要注意的是,來自多個(gè)業(yè)務(wù)過程的事實(shí)合并到合并事實(shí)表時(shí),它們必須具有同樣等級(jí)的粒度。由于在維度建模過程中,涉及到很多概念。下面通過一個(gè)場(chǎng)景來,來一一說明。例如:常見的電商下單環(huán)節(jié),每個(gè)用戶提交一筆訂單(僅限一個(gè)物品),就對(duì)應(yīng)于一條訂單記錄。

03? 維度建模方法論

數(shù)據(jù)倉庫建模方法論可分為:維度建模、范式建模、Data Vault模型、Anchor模型。

1、維度模型企業(yè)中最流行、也是最經(jīng)典的數(shù)倉建模經(jīng)典,數(shù)據(jù)倉庫大師Ralph Kimball的經(jīng)典著作《數(shù)據(jù)倉庫工具箱 維度建模權(quán)威指南 第三版》一本書進(jìn)行了論述。從事數(shù)據(jù)倉庫/ETL/BI的同學(xué),強(qiáng)烈建議買一本至少讀一遍。按數(shù)據(jù)組織類型劃分可分為星型模型、雪花模型、星座模型。

(1)星型模型星型模型主要是維表和事實(shí)表,以事實(shí)表為中心,所有維度直接關(guān)聯(lián)在事實(shí)表上,呈星型分布。圖來源于Kimball《The Data Warehouse Toolkits -3rd Edition》

(2)雪花模型雪花模型,在星型模型的基礎(chǔ)上,維度表上又關(guān)聯(lián)了其他維度表。這種模型維護(hù)成本高,性能方面也較差,所以一般不建議使用。尤其是基于hadoop體系構(gòu)建數(shù)倉,減少join就是減少shuffle,性能差距會(huì)很大。

(3)星座模型星座模型,是對(duì)星型模型的擴(kuò)展延伸,多張事實(shí)表共享維度表。數(shù)倉模型建設(shè)后期,大部分維度建模都是星座模型。

2、范式模型

即 實(shí)體關(guān)系(ER)模型,數(shù)據(jù)倉庫之父Immon提出的,從全企業(yè)的高度設(shè)計(jì)一個(gè)3NF模型,用實(shí)體加關(guān)系描述的數(shù)據(jù)模型描述企業(yè)業(yè)務(wù)架構(gòu),在范式理論上符合3NF。此建模方法,對(duì)建模人員的能力要求非常高。

3、Data Vault模型

DataVault由Hub(關(guān)鍵核心業(yè)務(wù)實(shí)體)、Link(關(guān)系)、Satellite(實(shí)體屬性) 三部分組成 ,是Dan Linstedt發(fā)起創(chuàng)建的一種模型方法論,它是在ER關(guān)系模型上的衍生,同時(shí)設(shè)計(jì)的出發(fā)點(diǎn)也是為了實(shí)現(xiàn)數(shù)據(jù)的整合,并非為數(shù)據(jù)決策分析直接使用。

4、Anchor模型高度可擴(kuò)展的模型,所有的擴(kuò)展只是添加而不是修改,因此它將模型規(guī)范到6NF,基本變成了K-V結(jié)構(gòu)模型。一般很少使用,本文不多做介紹。

04? 建模規(guī)范

以維度建模為理論基礎(chǔ),定義一系列術(shù)語來描述建模對(duì)象。下圖摘自于《阿里巴巴大數(shù)據(jù)實(shí)踐之路》。數(shù)據(jù)域指面向業(yè)務(wù)分析,將業(yè)務(wù)過程或者維度進(jìn)行抽象的集合。在劃分?jǐn)?shù)據(jù)域時(shí),既能涵蓋當(dāng)前所有的業(yè)務(wù)需求,又能在新業(yè)務(wù)進(jìn)入時(shí)無影響地被包含進(jìn)已有的數(shù)據(jù)域中和擴(kuò)展新的數(shù)據(jù)域。業(yè)務(wù)過程指企業(yè)的業(yè)務(wù)活動(dòng)事件,如下單、支付、退款都是業(yè)務(wù)過程。請(qǐng)注意,業(yè)務(wù)過程是一個(gè)不可拆分的行為事件,通俗地講,業(yè)務(wù)過程就是企業(yè)活動(dòng)中的事件。時(shí)間周期用來明確數(shù)據(jù)統(tǒng)計(jì)的時(shí)間范圍或者時(shí)間點(diǎn),如最近30天、自然周、截至當(dāng)日等。修飾類型是對(duì)修飾詞的一種抽象劃分,是從屬于某個(gè)業(yè)務(wù)域的。修飾詞指除了統(tǒng)計(jì)維度以外指標(biāo)的業(yè)務(wù)場(chǎng)景限定抽象。修飾詞隸屬于一種修飾類型。度量/原子指標(biāo)原子指標(biāo)和度量含義相同,基于某一業(yè)務(wù)事件行為下的度量,是業(yè)務(wù)定義中不可再拆分的指標(biāo),具有明確業(yè)務(wù)含義的名詞,如支付金額。維度維度是度量的環(huán)境,用來反映業(yè)務(wù)的一類屬性,這類屬性的集合構(gòu)成一個(gè)維度,也可以稱為實(shí)體對(duì)象。維度屬于一個(gè)數(shù)據(jù)域,如地理維度(其中包括國家、地區(qū)、省以及城市等級(jí)別的內(nèi)容)、時(shí)間維度(其中包括年、季、月、周、日等級(jí)別的內(nèi)容)。維度屬性維度屬性隸屬于一個(gè)維度,如地理維度里面的國家名稱、國家ID、省份名稱等都屬于維度屬性。派生指標(biāo)派生指標(biāo)=一個(gè)原子指標(biāo)+多個(gè)修飾詞(可選)+時(shí)間周期??梢岳斫鉃閷?duì)原子指標(biāo)業(yè)務(wù)統(tǒng)計(jì)范圍的圈定。

數(shù)據(jù)層次的劃分:

ODS:Operational Data Store,操作數(shù)據(jù)層,在結(jié)構(gòu)上其與源系統(tǒng)的增量或者全量數(shù)據(jù)基本保持 一致。它相當(dāng)于一個(gè)數(shù)據(jù)準(zhǔn)備區(qū),同時(shí)又承擔(dān)著基礎(chǔ)數(shù)據(jù)的記錄以及歷史變化。其主要作用是把基礎(chǔ)數(shù)據(jù)引入到MaxCompute。

CDM:Common Data Model,公共維度模型層,又細(xì)分為DWD和DWS。它的主要作用是完成數(shù)據(jù)加工與整合、建立一致性的維度、構(gòu)建可復(fù)用的面向分析和統(tǒng)計(jì)的明細(xì)事實(shí)表以及匯總公共粒度的指標(biāo)。

DWD:Data Warehouse Detail,明細(xì)數(shù)據(jù)層。

DWS:Data Warehouse Summary,匯總數(shù)據(jù)層。

ADS:Application Data Service,應(yīng)用數(shù)據(jù)層。

具體倉庫的分層情況需要結(jié)合業(yè)務(wù)場(chǎng)景、數(shù)據(jù)場(chǎng)景、系統(tǒng)場(chǎng)景進(jìn)行綜合考慮。數(shù)據(jù)分類架構(gòu)

數(shù)據(jù)處理流程架構(gòu)

圖片來源網(wǎng)絡(luò)

數(shù)據(jù)模型模型是對(duì)現(xiàn)實(shí)事物的反映和抽象,能幫助我們更好地了解客觀世界。數(shù)據(jù)模型定義了數(shù)據(jù)之間關(guān)系和結(jié)構(gòu),使得我們可以有規(guī)律地獲取想要的數(shù)據(jù)。例如,在一個(gè)超市里,商品的布局都有特定的規(guī)范,商品擺放的位置是按照消費(fèi)者的購買習(xí)慣以及人流走向進(jìn)行擺放的。數(shù)據(jù)模型的作用 數(shù)據(jù)模型是在業(yè)務(wù)需求分析之后,數(shù)據(jù)倉庫工作開始時(shí)的第一步。良好的數(shù)據(jù)模型可以幫助我們更好地存儲(chǔ)數(shù)據(jù),更有效率地獲取數(shù)據(jù),保證數(shù)據(jù)間的一致性。

(4)成本與性能平衡 適當(dāng)?shù)臄?shù)據(jù)冗余可換取查詢和刷新性能,不宜過度冗余與數(shù)據(jù)復(fù)制。

(5)數(shù)據(jù)可回滾 處理邏輯不變,在不同時(shí)間多次運(yùn)行數(shù)據(jù)的結(jié)果需確定不變。

(6)一致性 相同的字段在不同表中的字段名必須相同。

(7)命名清晰可理解 表命名規(guī)范需清晰、一致,表命名需易于下游的理解和使用。

(8)補(bǔ)充說明 一個(gè)模型無法滿足所有的需求。 需合理選擇數(shù)據(jù)模型的建模方式。 通常,設(shè)計(jì)順序依次為:概念模型->邏輯模型->物理模型。

事實(shí)表設(shè)計(jì)要點(diǎn):事實(shí)表作為數(shù)據(jù)倉庫維度建模的核心,緊緊圍繞著業(yè)務(wù)過程來設(shè)計(jì),通過獲取描述業(yè)務(wù)過程的度量來表達(dá)業(yè)務(wù)過程,包含了引用的維度和與業(yè)務(wù)過程有關(guān)的度量。在設(shè)計(jì)過程中,可以選擇不同類型的事實(shí)表,它們有各自的適用場(chǎng)景。

在整個(gè)設(shè)計(jì)過程中,應(yīng)當(dāng)遵循下面一些原則:

選擇一種適合的事實(shí)表類型。 事實(shí)盡可能完整,包含整個(gè)業(yè)務(wù)過程的全部事實(shí)。 確保每一個(gè)事實(shí)度量都是一致性,反復(fù)計(jì)算都會(huì)得到相同的結(jié)果。盡量記錄一些“原子”事實(shí),而不是加工后的結(jié)果。 可適當(dāng)做些”維度退化屬性”,提高事實(shí)表的查詢性能。 為提高聚合性能,可適度做些上卷匯聚事實(shí)表。?

05? 建模工具

1、PowerDesignerPowerDesigner是目前數(shù)據(jù)建模業(yè)界的領(lǐng)頭羊。功能包括:完整的集成模型,和面向包含IT為中心的、非IT為中心的差異化建模訴求。支持非常強(qiáng)大的元數(shù)據(jù)信息庫和各種不同格式的輸出。PowerDesigner擁有一個(gè)優(yōu)雅且人性化的界面,非常易懂的幫助文檔,快速幫助用戶解決專業(yè)問題。

2、ER/StudioER/Studio 是一個(gè)支持多平臺(tái)環(huán)境的直觀數(shù)據(jù)建模工具,并且本地集成了用于處理大數(shù)據(jù)平臺(tái),例如-MongoDB和Hadoop Hive。它能夠進(jìn)行正向和逆向工程,并且擁有“比較合并”功能,能夠輸出例如XML、PNG、JPEG等格式文檔。內(nèi)建自動(dòng)執(zhí)行任務(wù)功能支持當(dāng)前流行數(shù)據(jù)庫平臺(tái)。ER/Studio功能非常強(qiáng)大,擁有直觀的界面和很好的用戶支持特別易于馬上開始工作。

6、Visio Visio?是Office?軟件系列中的負(fù)責(zé)繪制流程圖和示意圖的軟件,是一款便于IT和商務(wù)人員就復(fù)雜信息、系統(tǒng)和流程進(jìn)行可視化處理、分析和交流的軟件。同時(shí)它也可以用來數(shù)據(jù)庫建模。打開visio 2010,文件—>新建—>數(shù)據(jù)庫—>數(shù)據(jù)庫模型圖。建立數(shù)據(jù)庫模型圖之后,菜單欄多出一個(gè)菜單項(xiàng)"數(shù)據(jù)庫"。7、Excel Mapping通過我們最熟悉的Excel進(jìn)行維護(hù)數(shù)據(jù)模型、血緣關(guān)系和元數(shù)據(jù)管理,話不多說,直接上圖:06? 總結(jié)
上述的這些方法都有自己的優(yōu)點(diǎn)和局限性,實(shí)際在創(chuàng)建數(shù)據(jù)倉庫模型的時(shí)候,可以參考使用上述數(shù)據(jù)倉庫不同的建模方法,在各個(gè)不同階段采用不同的方法,從而能夠保證整個(gè)數(shù)據(jù)倉庫建模的質(zhì)量。方法論僅僅停留在理論層面上,落地實(shí)現(xiàn)的才真正決定了數(shù)倉設(shè)計(jì)的好壞,當(dāng)然再好的方法,只有在合適的階段使用,才有意義,才能發(fā)揮它最大的價(jià)值。



(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢