數據倉庫,英文名為Data Warehouse(簡寫DW或DWH),他是為企業所有級別的決策制定過程提供所有類型數據支持的戰略集合。這樣的專業解析多少有些晦澀難懂了。其實就我看來,數倉的建設目的就是對企業數據進行統一的“存”、“管”、“用”。

存——多源頭業務數據的采集、整合、匯總,形成數據倉庫。
管——對數據倉庫中匯集的數據進行清洗、轉換、分層管理及ETL調度管理。
用——面向報表平臺提供數據,進行可視化展示。
數據倉庫建設示意圖
然而,數倉項目的實際建設過程并不是一帆風順的,經常遇到的問題如下:
1、數據源混亂,職責不清,業務系統各自為政,已形成嚴重數據壁壘;
2、研發規范不一,模型管理混亂,難以理清現有數據字典;
3、維表管理混亂,相同
數據分析指標不一,導致數模型無法復用;
4、業務系統數據庫類型多樣,產品功能不全,難以支撐多類型數據庫之間的數據傳輸;
5、缺乏ETL執行監控、實時
數據采集監控,存在部分數據黑盒。
如何解決以上問題,搭建企業級共享型數倉呢?這里給出以下幾點建議:
第一、接管ODS層,做好源頭管控
ODS層是各業務系統數據接入數倉平臺的第一層,需要把原先分散、雜亂的數據統一到數倉平臺,提高高共享、可復用的數據模型。因此,數倉建設團隊必須理清職責,從源頭進行把控,不可將ODS層交由業務系統自行維護。同時,ODS層的數據必須與業務系統數據源的表結構、記錄數保持一致,做到高度無損。
第二、理清數據分層,劃分主題域
傳統數據要求對數據進行分層,一般分為ODS層、DWD層、DWS層、ADS層;數據建設團隊要嚴格區分各層職責,將數據分層處理。劃分數倉層級后,仍需要對不同層級按照業務過程劃分主題域,方便數據管理維護。例如:針對倉儲管理的入庫、出庫、發貨、驗收等業務流程進行主題域劃分,可大致分為:商品域、會員域、供應鏈域、物流域、交易域、售后域、促銷域等。
第三、構建一致性維度,提高分析準確度
針對不同數據源采集的業務表,往往會順帶采集其依賴的維表;但數據倉庫在進行數據匯總時,會發現很多維表是具有通用性的,需要針對不同業務表,構建一致性維度。將公共維度屬于與特有維度屬性拆分、將頻繁更新維與緩慢變化維進行區分,構建不同的維表。
第四、整合事實表,提高模型復用率
事實表整合遵循的最基本的?個原則是,統計粒度必須保持?致,不同統計粒度的數據不能出現在同?個事實表中。還需要考慮數據源存在臟數據的情況,在數據整合過程中,需要對臟數據進行清洗、轉換,生成可用于分析的事實表。另外,還需要注意數據庫表的命名規范,一般維表可采用“dim_主題域_描述_分表規則”?式命名,事實表可采用“層次_主題_?主題_內容描述_分表規則”的方式命名。
第五、構建實時數據傳輸監控,提高數據傳輸透明度
實時產生的數據,是需要實時傳輸、實時分析的;如果仍然按照傳統數據的凌晨跑批模式,必將存在數據延時,影響分析決策。設計實時ETL,需要強大的產品支撐,需要產品支持Kafka、實時計算引擎等實時數據處理技術。
第六、統一調度管理,解決運維難題
數倉建設過程必然伴隨這大量的ETL任務產出,單一的自動調度難以滿足運維人員的需求。需要統一的調度管理,實現多種調度觸發機制;多維度的調度監控及異常預警,協助運維人員及時處理ETL任務執行過程中的異常情況。
優秀的數倉項目能夠整合企業所有業務數據,打通企業數據壁壘;實現業務系統匯總、集成、形成數據對接良性循環;實現自動化數據傳輸,降低管理成本;對接
報表系統,提供數據決策支撐;而優秀的數倉項目離不開優秀的產品支撐,億信數據工廠,一個平臺,解決所有數倉難題。
支持按照主題域、業務過程、分層的?式管理所有的數倉模型
豐富的ETL組件,滿足數倉搭建過程中的各種數據處理場景
支持實時數據處理組件,實現實時數據傳輸
統一調度管理,支持定時、觸發、實時任務調度
支持調度任務監控預警,實現調度任務全方位監控
億信數據工廠是一款面向數倉實施的自主研發的軟件工具,集數據建模與ETL設計于一體,內置新型的混合計算引擎,支持廣泛的數據源,可為政府或企業提供更快捷、更高效、更安全的
數據集成解決方案。
(部分內容來源網絡,如有侵權請聯系刪除)