日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

漫談企業數據倉庫的演進

時間:2022-02-13來源:南宮瑄瀏覽數:335

數據倉庫的概念誕生最早可追溯到上世紀70年代,回顧早期的企業環境,企業的生產與服務是一個很長周期,導致業務數據呈現一種粗粒度模式。

隨著互聯網的快速滲透,從早期的pc到現在的移動互聯網,業務的需求與服務周期逐漸變短,業務數據量級,與數據類型的多樣化暴增,對應著的技術、架構、理論也顯出快速發展。從最開始的數據倉庫到現在的大數據,中間經歷過太多的技術、架構模式的演進與變革,從最初的數據倉庫到海量數據,從大數據到現在的數據平臺,從數據中臺到數據湖。中間還穿插著人工智能與云計算兩大技術體系。

數據倉庫在國外的發展歷史多年,進入中國的時間大概在1998-1999年左右,中間大致經歷了兩個階段,從傳統企業的數據倉庫架構到現在互聯網時代的大數據之下的數據倉庫架構,有著明顯的變更。本文按照數據倉庫的發展歷程,細說數據倉庫的發展歷程,最后再討論下技術體系對數據倉庫架構的影響。

1?傳統企業數據倉庫

從數據倉庫的萌芽至今,傳統企業的數據倉庫大致可以分為五個時代,四種架構。

1970~1991 數據倉庫概念萌芽到全企業集成

1991~1994 EDW企業數據集成時代(Inmon 數據倉庫一書,范式建模)

1994~1996 數據集市時代(kimball維度建模)

1996~1997 神仙大戰時代(維度建模與范式建模爭論)

1998~2001 合并時代(CIF架構)

1.1?范式建模

五個時代均是以重要事件或者人物的出現作為劃分,比如說EDW企業數據集成時代是以Bill Inmon大作《Building the Data Warehouse》作為劃分,在這本書里面Inmon給出了數據倉庫定義:數據倉庫(DataWarehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化的(Time Variant)數據集合,用于支持管理決策(Decision-Making Support)。該書還提供了建立數據倉庫的指導意見和基本原則。憑借此書,Bill Inmon被稱為數據倉庫之父。

1.2 維度建模

數據倉庫的概念確立之后,有關數據倉庫的實施方法、實施路徑和架構等問題引發了諸多爭議。在實際運用中,大部分企業也都以失敗告終。這時候數據集市時代代表人物 Ralph kilmball及其代表作《The Data Warehouse Toolkit》出現。在數據倉庫的建設上提出了自下而上的建設方法,剛好與Bill Inmon的范式建模自上而下建設理論相反。這兩種理論的架構是各有千秋,所以就進入的爭吵年代。

(范式建模以及維度建模的架構圖)

Inmon提出的集線器的自上而下(EDW-DM)的數據倉庫架構。操作型或事務型系統的數據源,通過ETL抽取轉換和加載到數據倉庫的ODS層,然后通過ODS的數據建設原子數據的數據倉庫EDW,EDW不是多維格式的,不方便上層應用做數據分析,所以需要通過匯總建設成多維格式的數據集市層。

范式建模應用在EDW層,一個符合3范式的關系必須具有以下三個條件:

每個屬性的值唯一,不具有多義性;

每個非主屬性必須完全依賴于整個主鍵,而非主鍵的一部分;

每個非主屬性不能依賴于其他關系中的屬性,因為這樣的話,這種屬性應該歸到其他關系中去。

但是由于EDW的數據是原子粒度的,數據量比較大,完全規范的3范式在數據的交互的時候效率比較低下,所以通常會根據實際情況在事實表上做一些冗余,減少過多的數據交互。

Inmon理論下結構就是:ODS、EDW(ADM/FDM)和DM,也就是貼源層、主題模型層、共性加工層以及集市層。每一個層對應于數據庫下面的模式,接下來依次介紹這四個層:

(1)ODS(貼源層):即這里存放的數據與原系統保持一致,將采集公司所有的系統產生的數據以及外部數據(包括合作數據以及爬蟲獲得的數據),將所采集的數據匯總到一起,供EDW和DM使用;

(2)EDW:這一層分為兩個,即ADM(共性加工層)和FDM(主題模型層)。其中FDM將從ODS層不同系統不同表的字段進行分類,同一主題的字段都歸為一類,之前針對不同行業的十大主題;ADM是加工一些共性的指標,指標從ODS或者FDM的字段加工來,這層主要供集市層使用;

(3)DM:數據集市層,這一層是將業務部門所關注的指標進行匯總,形成的數據,不同的業務部門可以形成不同的集市,具體情況可以視情況而定;集市層的架構可以細分為:基礎層、匯總層和分析層。

Kimball提出的總線式的自下而上(DM-DW)的數據倉庫架構。同樣的,操作型或事務型系統的數據源,通過ETL抽取轉換和加載到數據倉庫的ODS層,然后通過ODS的數據,利用維度建模方法建設一致維度的數據集市。通過一致性維度可以將數據集市聯系在一起,由所有的數據集市組成數據倉庫。

在復合式的數據倉庫架構中,操作型或事務型系統的數據源,通過ETL抽取轉換和加載到數據倉庫的ODS層,然后通過ODS的數據,利用范式建模方法,建設原子數據的數據倉庫EDW,然后基于EDW,利用維度建模方法建設數據集市。一般采用的模型是星型模型(推薦)和雪花模型。

范式建模和維度建模的區別在于,范式建模是先進行全企業數據的數據倉庫建設,包含數據倉庫生命周期中的所有內容,在一開始的時候不會過于關注數據的應用與變現,通過對數據質量的摸底,分階段的去按照一條數據主線的方式將全企業數據聚集起來。最后再將第一階段數據倉庫中的數據再次通過階梯型高度聚合進入到數據集市DM中,完成對業務的支撐。

由于需要對企業全局進行規范化建模,這將導致較大的工作量。但這一步必須完成好,才能繼續往上建設數據集市。因此也就導致規范化數據倉庫需要一定時間才能投入使用,敏捷性相對后者來說略差。但是規范化數據倉庫一旦建立好了,則以后數據就更易于管理。而且由于開發人員不能直接使用其數據倉庫(通過數據集市的方式使用),更加確保了數據質量。還有由于中心數據庫是采用規范化設計的,冗余情況也會更少。

而維度建模則是更像是根據需求,面向業務的提取相關業務數據,按照維度建模的方式組織數據,最后進入到數據集市,維度建模敏捷性更強,而且適用于業務變化比較頻繁的情況,對開發人員的要求也沒有規范化數據倉庫那么高。

(范式建模與維度建模大致區別)

1.3?CIF架構

隨著數據倉庫的不斷實踐與迭代發展,從爭吵期進入到了合并的時代,Bill inmon 與 Ralph kilmball 的爭吵沒有結論,干脆提出一種新的架構包含對方,也就是后來Bill Inmon 提出的CIF(corporation information factory) 架構模式,這也算是數據倉庫的第三代架構,其架構特點是把整個架構劃分為不同層次,把每一層次的定義與功能都詳細的描述下來,CIF主要包括集成轉換層(DSA)、操作數據存儲(ODS)、數據倉庫(EDW)、數據集市(DM)、探索倉庫(EW)等部件。

在后續的數據倉庫建設過程中,一般是合用維度建模和CIF兩種架構進行的,即建立CIF的數據倉庫和維度建模的數據集市。

CIF模式架構建設周期較長且設計復雜,初始階段建立企業級數據模型和數據標準以及相關的數據清洗整合工作,需要花費大量的人力和時間,但是一旦建立起企業級數據模型,數據的完整性和一致性問題就能夠得到根本解決,針對需求變化易于擴展,后續的成本較低。

維度建模架構首先著重于某幾個業務過程進行構建,以增量演進的方式簡化企業級數據倉庫的實現過程,啟動成本和設計方法較為簡單,通過維度建模方式將原子層和匯總層合二為一,可以快速創建分析應用,但是企業級數據倉庫的穩定性和數據集市之間數據的一致性需要持續維護一致性維度來保證,后續擴展數據集市的工作量較大。

1.4?OPDM

OPDM 大約是在2011年提出來的,嚴格上來說,OPDM 操作型數據集市(倉庫)是實時數據倉庫的一種,它更多的是面向操作型數據而非歷史數據查詢與分析。這里的操作型數據集市指的是將那些支持企業日常運作的系統數據(比如說訂單系統,財務系統,CRM系統產生的數據),通過一種實時技術,將這些分布在各個孤島的數據,按照業務的邏輯有機的整合到一起。提供業務系統的監控與指導(這些技術可以大體可以認為是storm、spark、flink)這一部分的內容和后續大數據時代下的數據倉庫實時數倉重合,我們后續進行討論。

2?互聯網時代的大數據平臺

傳統企業數據倉庫的正確讀法應該是 傳統-企業數據倉庫,從架構體系上來說,傳統企業數據倉庫是數據倉庫一個從無到有的過程,中間的有著不停的探索與實踐。但是隨著互聯網的高速發展,傳統企業數據倉庫的劣勢也愈來展現。

不能滿足海量數據存儲需求

不能處理不同類型的數據

計算與處理能力差

隨著大數據技術的發展,互聯網時代的數據倉庫閃亮登場,互聯網的數據平臺從07年-08年左右開始迅猛發展,在發展的初期也是從傳統數據平臺的第三代架構開始演進的,互聯網產品發展特點是“糙、快、猛”,原有的技術體系必然無法支撐高IO吞吐、密集型計算,由此帶來了一系列的技術變革,適合互聯網時代的大數據平臺應運而生。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢