一、數據倉庫的定義
數據倉庫是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用于支持管理決策。它是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出于分析性報告和決策支持目的而創建。為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。數據倉庫管理存儲的是數據以及數據結構,本質上是一種特殊的數據組織形式:
1、集成性,是指將企業中各大業務系統進行數據集中、整合、加工從而形成全局統一的數據視圖;
2、面向主題,即數據倉庫中表的設計是按照一個個主題進行組織的而非按照業務流程設計;
3、反應歷史變化,表明數據倉庫通常會保存數據的歷史備份,因此就可以從中獲取數據歷史變化情況;
4、相對穩定,則是指數據倉庫中的數據不會做頻繁的增刪改操作,相對于業務系統中頻繁的事務處理,其數據變化相對穩定。
二、數據倉庫的價值
1、時間價值
數據倉庫作為數據的集合,所有的信息都可以從數據倉庫直接獲取,數據倉庫的最大優勢在于一旦底層從各類數據源到數據倉庫的ETL流程構建成型,那么每天就會有來自各方面的信息通過自動任務調度的形式流入數據倉庫,從而使一切基于這些底層信息的數據獲取的效率達到迅速提升。
2、高效的數據組織形式
所有數據在進入數據倉庫之前都經過清洗和過濾,使原始數據不再雜亂無章,基于優化查詢的組織形式,有效提高數據獲取、統計和分析的效率。
3、歷史數據
數據倉庫能夠還原歷史時間點上的產品狀態、用戶狀態、用戶行為等,以便于能更好的回溯歷史,分析歷史,跟蹤用戶的歷史行為,更好地比較歷史和總結歷史,同時根據歷史預測未來。
4、集成價值
數據倉庫是所有數據的集合,包括日志信息、數據庫數據、文本數據、外部數據等都集成在數據倉庫中,對于應用來說,實現各種不同數據的關聯并使多維分析更加方便,為從多角度多層次地數據分析和決策制定提供的可能。
三、如何搭建數據倉庫
1、模板調研
找出實際存在的業務問題,領導的KPI問題,現在沒有提出未來可能出現的問題,這是數據倉庫建立的核心所在。
2、主題域模型設計
主題域的界定、每個主題主實體的準入原則、數據處理規范、核心的分類決定了數據模型的主體框架,保持主體框架的穩定性確保了倉庫的穩定性。
3、概念模型設計
詳細的實體屬性的設計,大量數據分析業務規則驗證的工作,模型設計的同時完成到邏輯 數據模型的簡要數據映射
4、邏輯模型數據設計
提供與生產一致版本的數據結構,準確完善的數據字典,符合分析需求的樣本數據;并能對樣本數據分析中的 問題進行及時準確的回復跟蹤
5、物理存儲模型設計
協調倉庫數據的相關方達成共識,既包容當前數據滿足現有需求,又具備一定的前瞻性便于擴展,還必須具備操作性
6、模型優化設計回顧
模型設計是多人協同的團隊工作,是一項持續不斷地擴展演化完善的過程,遵循模型設計規范、沿用一致的模型客戶化方式是至關重要的。