- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2018-12-20來源:數據治理瀏覽數:7466次
最簡單的數據倉庫是用于存儲和報告數據的系統。數據通常源自多個系統,然后將其移入數據倉庫以進行長期存儲和分析。該存儲的結構使得組織內的許多部門或部門的用戶可以根據他們的需要訪問和分析數據。

數據倉庫包含來自許多操作源的數據。它用于分析數據。
數據倉庫是分析工具,旨在支持跨多個部門的用戶的決策和報告。它們也是檔案,包含未在操作系統中維護的歷史數據。
數據倉庫致力于為整個組織創建單一,統一的真實系統。不幸的是,正如您可能想象的那樣,嘗試在這樣的系統中保持準確性和徹底性是非常困難的。
因此,如果數據倉庫的構建和維護非常復雜,那么組織為什么要這么做呢?
數據倉庫可以提供:
在結構化關系中存儲全面的數據意味著數據倉庫還可以提供各種復雜問題的答案,例如:
數據倉庫以多種不同的形式構建,試圖考慮并構建使用它們的組織的復雜性。
但基本架構非常一致:
首先,原始數據被格式化,有時稱為清理和規范化。您可以將此視為將源數據從源移動到倉庫的管道,確保數據被適當地命名和格式化,并與存儲的其余數據保持準確的關系。這通常稱為集成層,不一定被視為數據倉庫本身的一部分。
然后將格式化的數據存儲在數據倉庫中。訪問層允許工具和應用程序以適合其需要的格式檢索數據。
數據倉庫架構還有另一個方面,它管理稱為元數據的整個結構。元數據是有關數據的數據。維護數據倉庫的數據工程師和數據科學家收集有關數據源,命名約定,刷新計劃等的信息,并使用此信息來維護數據質量并確保數據倉庫滿足其預期目的。
提取,轉換,加載(ETL)
ETL系統管理源數據系統和數據倉庫系統之間的數據移動(即:數據倉庫架構部分中提到的管道),以及從數據倉庫到數據集市的移動。首先必須從源中提取數據,然后根據下一層存儲的標準進行轉換,最后必須將格式化的數據正確加載到下一層。
嚴格地說,數據庫是任何結構化數據集合。Excel電子表格,Rolodex或地址簿都是非常簡單的數據庫示例。Excel,Oracle或MongoDB等軟件是一個數據庫管理系統(DBMS),允許用戶訪問和管理數據庫。人們通常將DBMS稱為數據庫。然后,數據倉庫是一種數據庫。它專門用于存儲的數據 - 來自多個來源的歷史數據 - 以及它所服務的目的分析。
數據庫和數據倉庫的關鍵屬性是它們包含結構化數據。存儲數據的方式 - 從可用的字段到日期格式,以及介于兩者之間的所有內容 - 事先達成一致,整個數據庫嚴格遵循此結構或模式。它們的相對一致性和穩定性意味著數據倉庫可以為組織中的多種類型的角色提供查詢。這個過程非常有條理,非常可預測,而且效率很高,但也很難做得很好。
圍繞數據湖的精確定義仍然形成共識。但是,一般來說,數據湖是另一種存儲數據的方法,但沒有嚴格的數據倉庫模式。與數據倉庫相比,查詢應用數據湖中的模式。這意味著將數據加載到數據湖中要容易得多,但構建查詢要復雜得多,這限制了數據湖對數據工程師和數據科學家等復雜角色的使用。與數據倉庫相比,數據湖通常需要更長的時間才能返回結果。大多數數據湖都是基于Hadoop構建的。
如果數據倉庫保存并集成來自整個組織的數據,則數據集市是數據的較小子集,專門用于使用給定的部門或部門。數據集市通常由單個部門構建和控制,使用中央數據倉庫以及內部操作系統和外部數據。數據集市通常僅包含一個主題領域,例如營銷或銷售。因為它們更小且更具體,所以它們通常更易于管理和維護,并且具有更靈活的結構。
OLAP系統通常包含大量數據,這會使運行特定查詢的速度變慢。為了加速和簡化查詢,可以將OLAP系統進一步細分為稱為多維數據集的子數據庫,這些子數據庫包含一組有限的維度,因此可以提供更快的查詢時間。
商業智能軟件是數據倉庫之上的關鍵層,允許其中的信息用于制定業務決策。商業智能軟件具有許多不同類型的功能,但它通常包括用于構建和執行查詢的某種引擎,以及存儲和可視化結果以便合并到包含業務分析的文檔中的方法。
在考慮使用哪些工具時,重要的是確保它們在可擴展性方面滿足您的要求(可以根據您的需求增長),訪問權限(用戶以及需要訪問倉庫和從哪些位置訪問的數量)以及集成(此系統是否與您的數據源和BI工具集成)。
關系數據庫是存儲大多數業務數據的系統。他們已經存在了幾十年并且非常成熟。存在用于OLTP和OLAP用例的關系數據庫。他們非常了解并為管理和數據訪問提供了廣泛的互補技術生態系統。流行的關系數據庫包括:
MPP數據庫是一種數據倉庫技術,專注于支持并行處理的硬件和軟件。也就是說,查詢處理被分解為跨多個服務器一起執行的許多較小的并行任務。這種方法可以大大加快查詢和攝取時間。但是,MPP數據庫可能很昂貴,因為最受歡迎的供應商都有閉源產品。
流行的MPP數據庫包括:
與MPP方法類似,Hadoop還能夠在計算機集群中分配計算任務。但是,Hadoop是開源的,因此企業采用它更容易,也更便宜。大多數數據湖都使用Hadoop,因為它能夠廉價快速地處理大量結構化和非結構化數據,并且因為它非常適合以原生格式存儲數據,因此分析師可以應用他們需要的任何轉換。Hadoop在技術上不是一個數據庫,但它在許多功能區域都有重疊。
每家公司都管理著一個數據倉庫,以捕獲其業務歷史。但是,當涉及到通用分析時,經常使用數據倉庫,因為它們是唯一可用的工具。數據倉庫功能強大且有用,但需要在前期和持續的基礎上進行大量工作才能使用和維護。由于數據倉庫必須集中和標準化才能為整個組織中的許多用戶提供服務,因此它們始終包含對應存儲的內容以及如何對所有用戶不是最佳的假設。