什么是數據倉庫
數據倉庫(Data Warehouse),是為企業所有級別的決策提供所有類型數據支持的戰略集合。它是出于分析性報告和決策支持目的而創建的一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合存儲系統,它將來自不同來源的結構化數據聚合起來,用于業務智能領域的比較和分析,為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。數據倉庫具備以下特點:
1、面向主題:數據倉庫中的數據是按照用戶使用數據倉庫進行決策時所關心的重點方面進行組織。通常與多個操作型信息系統相關。
2、數據集成:由于數據源有臟數據或者代碼不嚴謹,可能會導致數據失真,客戶看到錯誤的信息就可能分析出錯誤的決策,造成損失。因此,數據倉庫中的數據必須保證全局信息的一致性,需要對原有分散的數據庫數據抽取、清理、系統加工、匯總和整理。
3、不可更新:數據倉庫所涉及的操作主要是查詢數據,為決策分析提供數據;
4、歷史性:數據倉庫內的信息并不只是反映企業當前的狀態,而是記錄了從過去某一時點到當前各個階段的信息。通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
5、擴展性:建立合理的數據倉庫模型共同點是,數據倉庫方案中需要增加中間層,使海量數據流有足夠的緩沖,不至于數據量過大,導致運行失敗。大型數據倉庫系統架構設計復雜,有新需求或技術更新時不需要重建數據倉庫系統,就能很穩定運行。
什么是數據庫
數據庫即存放數據的倉庫,是一個長期存儲在計算機內的、有組織的、可共享的、統一管理的大量數據的集合。也可看作成一個按數據結構來組織、存儲和管理數據的計算機軟件系統。一方面,可以把數據庫看作是一個能夠合理保管數據的“倉庫”,用戶可以在其中存放要管理的事務數據;另一方面,數據庫是數據管理的新方法和技術,它能更方便的維護數據、更合適的組織數據、更有效的利用數據和更嚴密的控制數據。
數據倉庫與數據庫的區別
數據倉庫與數據庫的區別實際講的是OLAP與OLTP的區別。
聯機分析處理(OLAP),則是一種分析型處理,它使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達到深入理解數據的目的。具有FASMI特征,即快速性(Fast),可分析性(Analysis),多維性(Multi—dimensional)和信息性(Information)。一般針對某些主題歷史數據進行分析,支持管理決策。
聯機事務處理(OLTP),是面向交易的一種操作型處理系統。基本特征是前臺接收的用戶數據可以立即傳送到計算中心進行處理,并在很短的時間內給出處理結果,是對用戶操作快速響應的方式之一。主要用于具體業務在數據庫聯機的日常操作,比如對數據記錄進行查詢、修改。用戶較為關心數據的安全性、操作的響應時間、并發的支持用戶數和完整性等問題。傳統的數據庫系統作為數據管理的主要手段,主要用于操作型處理。
數據倉庫與數據庫具體區別如下:
1、數據倉庫是為分析數據而設計,數據庫是為捕獲數據而設計。
2、數據倉庫是面向主題設計的,數據庫是面向事務的設計。
3、數據倉庫在設計一般有意引入冗余,依照分析需求,分析維度、分析指標進行設計,數據庫設計需要避免冗余,一般針對某一業務應用進行設計,比如記錄用戶名、密碼等簡單數據即可。
4、數據庫一般存儲業務數據,數據倉庫存儲的一般是歷史數據。
PetaBase-V作為Vertica基于億信分析產品的定制版,提供面向海量數據的秒級分析服務,采用無共享大規模并行架構(MPP),可線性擴展集群的計算能力和數據處理容量,基于列式數據庫技術,使 PetaBase-V 擁有高性能、高擴展性、高壓縮率、高健壯性等特點,可完美解決報表計算慢和明細數據查詢等性能問題,實時數據倉庫平臺主要面向結構化實時存儲的應用場景,適合保險,金融等電子化依賴程度高的行業。