日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據倉庫的定義,它有什么作用?

時間:2018-12-20來源:數據治理瀏覽數:7466

最簡單的數據倉庫是用于存儲和報告數據的系統。數據通常源自多個系統,然后將其移入數據倉庫以進行長期存儲和分析。該存儲的結構使得組織內的許多部門或部門的用戶可以根據他們的需要訪問和分析數據。


數據倉庫包含來自許多操作源的數據。它用于分析數據。

數據倉庫是分析工具,旨在支持跨多個部門的用戶的決策和報告。它們也是檔案,包含未在操作系統中維護的歷史數據。

數據倉庫致力于為整個組織創建單一,統一的真實系統。不幸的是,正如您可能想象的那樣,嘗試在這樣的系統中保持準確性和徹底性是非常困難的。

為什么使用數據倉庫?

因此,如果數據倉庫的構建和維護非常復雜,那么組織為什么要這么做呢?

數據倉庫可以提供:

  • ????????????所有數據的單一訪問點,而不是要求用戶單獨連接數十個甚至數百個系統
  • ????????????保證數據質量
  • ????????????他們存儲的數據的歷史記錄
  • ????????????出于安全原因,在日常操作系統和分析系統之間進行分離
  • ????????????圍繞數據的標準語義集,例如:命名約定的一致性,不同類型的產品,語言和貨幣的代碼等等


在結構化關系中存儲全面的數據意味著數據倉庫還可以提供各種復雜問題的答案,例如:

  • ????????????在過去十年中,我們的每個產品線每月帶來多少收入,按城市分類?
  • ????????????我們的其中一臺ATM的平均交易規模是多少,按時間和客戶資產總額分列?
  • ????????????在已開業至少三年的商店中,過去一年的員工營業額百分比是多少?這些員工每周工作多少小時?


數據倉庫架構

數據倉庫以多種不同的形式構建,試圖考慮并構建使用它們的組織的復雜性。

但基本架構非常一致:

首先,原始數據被格式化,有時稱為清理和規范化。您可以將此視為將源數據從源移動到倉庫的管道,確保數據被適當地命名和格式化,并與存儲的其余數據保持準確的關系。這通常稱為集成層,不一定被視為數據倉庫本身的一部分。

然后將格式化的數據存儲在數據倉庫中。訪問層允許工具和應用程序以適合其需要的格式檢索數據。

數據倉庫架構還有另一個方面,它管理稱為元數據的整個結構。元數據是有關數據的數據。維護數據倉庫的數據工程師和數據科學家收集有關數據源,命名約定,刷新計劃等的信息,并使用此信息來維護數據質量并確保數據倉庫滿足其預期目的。

關鍵概念

提取,轉換,加載(ETL)

ETL系統管理源數據系統和數據倉庫系統之間的數據移動(即:數據倉庫架構部分中提到的管道),以及從數據倉庫到數據集市的移動。首先必須從源中提取數據,然后根據下一層存儲的標準進行轉換,最后必須將格式化的數據正確加載到下一層。

數據倉庫與數據庫

嚴格地說,數據庫是任何結構化數據集合。Excel電子表格,Rolodex或地址簿都是非常簡單的數據庫示例。Excel,Oracle或MongoDB等軟件是一個數據庫管理系統(DBMS),允許用戶訪問和管理數據庫。人們通常將DBMS稱為數據庫。然后,數據倉庫是一種數據庫。它專門用于存儲的數據 - 來自多個來源的歷史數據 - 以及它所服務的目的分析。

數據倉庫與數據湖

數據庫和數據倉庫的關鍵屬性是它們包含結構化數據。存儲數據的方式 - 從可用的字段到日期格式,以及介于兩者之間的所有內容 - 事先達成一致,整個數據庫嚴格遵循此結構或模式。它們的相對一致性和穩定性意味著數據倉庫可以為組織中的多種類型的角色提供查詢。這個過程非常有條理,非常可預測,而且效率很高,但也很難做得很好。

圍繞數據湖的精確定義仍然形成共識。但是,一般來說,數據湖是另一種存儲數據的方法,但沒有嚴格的數據倉庫模式。與數據倉庫相比,查詢應用數據湖中的模式。這意味著將數據加載到數據湖中要容易得多,但構建查詢要復雜得多,這限制了數據湖對數據工程師和數據科學家等復雜角色的使用。與數據倉庫相比,數據湖通常需要更長的時間才能返回結果。大多數數據湖都是基于Hadoop構建的。

數據倉庫與數據集市

如果數據倉庫保存并集成來自整個組織的數據,則數據集市是數據的較小子集,專門用于使用給定的部門或部門。數據集市通常由單個部門構建和控制,使用中央數據倉庫以及內部操作系統和外部數據。數據集市通常僅包含一個主題領域,例如營銷或銷售。因為它們更小且更具體,所以它們通常更易于管理和維護,并且具有更靈活的結構。

OLAP多維數據集

OLAP系統通常包含大量數據,這會使運行特定查詢的速度變慢。為了加速和簡化查詢,可以將OLAP系統進一步細分為稱為多維數據集的子數據庫,這些子數據庫包含一組有限的維度,因此可以提供更快的查詢時間。

商業智能工具

商業智能軟件是數據倉庫之上的關鍵層,允許其中的信息用于制定業務決策。商業智能軟件具有許多不同類型的功能,但它通常包括用于構建和執行查詢的某種引擎,以及存儲和可視化結果以便合并到包含業務分析的文檔中的方法。

數據倉庫技術

在考慮使用哪些工具時,重要的是確保它們在可擴展性方面滿足您的要求(可以根據您的需求增長),訪問權限(用戶以及需要訪問倉庫和從哪些位置訪問的數量)以及集成(此系統是否與您的數據源和BI工具集成)。

關系數據庫

關系數據庫是存儲大多數業務數據的系統。他們已經存在了幾十年并且非常成熟。存在用于OLTP和OLAP用例的關系數據庫。他們非常了解并為管理和數據訪問提供了廣泛的互補技術生態系統。流行的關系數據庫包括:

  • ????????????IBM DB2。IBM將其核心關系數據庫DB2與其應用程序服務器,數據挖掘技術,用于多維數據集和BI的Cognos以及其他技術捆綁在一起。他們稱之為DB2 Warehouse。DB2最受IBM使用IBM硬件,軟件和服務的商店的歡迎。
  • ????????????Microsoft SQL Server。Microsoft已在許多版本中構建其核心關系數據庫的功能,以支持大型數據倉庫部署。他們還構建了與云產品和Hadoop的集成,為結構化和非結構化數據提供更全面的產品。Microsoft還擁有最好的管理工具和與其他Microsoft產品(包括Windows)的集成。SQL Server最受微軟商店歡迎,并且往往更具成本競爭力。
  • ????????????Oracle Exadata。與IBM一樣,Oracle也是硬件供應商。Exadata是一種基于核心Oracle數據庫的設備,其硬件和軟件已針對大規模,高性能系統進行了優化。Oracle是市場上最受歡迎的數據庫。Exadata非常昂貴。


MPP(大規模并行處理)分析數據庫

MPP數據庫是一種數據倉庫技術,專注于支持并行處理的硬件和軟件。也就是說,查詢處理被分解為跨多個服務器一起執行的許多較小的并行任務。這種方法可以大大加快查詢和攝取時間。但是,MPP數據庫可能很昂貴,因為最受歡迎的供應商都有閉源產品。

流行的MPP數據庫包括:

  • ????????????Teradata的。Teradata是黃金標準。它是使用最廣泛,最成熟的。與上面列出的關系供應商不同,Teradata一直專注于數據倉庫。它僅作為設備提供,而且非常昂貴。
  • ????????????IBM Netezza。Netezza是另一種數據倉庫設備,由于價格昂貴且易于使用而迅速增長。該軟件部分基于開源關系數據庫PostgreSQL。Netezza的一項重要創新是使用現場可編程門陣列(FPGA)來加速查詢處理。Netezza于2010年被IBM收購。
  • ????????????HP Vertica。Vertica是一個創新的面向列的MPP數據庫,來自麻省理工學院的研究。與當時的競爭產品不同,Vertica可作為支持多種硬件平臺的軟件提供,并且由于新穎的SQL執行引擎和強大的壓縮功能而提供了引人注目的性能。Vertica于2011年被惠普收購。
  • ????????????Pivotal Greenplum。Greenplum是一個基于PostgreSQL的MPP數據庫。因為它基于PostgreSQL,所以它具有更廣泛的互補工具生態系統。而且因為它是面向行的,所以與面向列的產品相比,它會產生不同的權衡。它于2010年被EMC收購,隨后于2015年由Pivotal開源。
  • ????????????SAP Sybase IQ。Sybase IQ是最早的面向列的數據庫之一,并于20世紀90年代末進入市場。它有著悠久的歷史記錄,特別是在以金融服務等以Sybase為中心的市場中。IQ因其強勁的表現而聞名,但被認為價格昂貴且難以管理和擴展。Sybase于2010年被SAP收購。


Hadoop的

與MPP方法類似,Hadoop還能夠在計算機集群中分配計算任務。但是,Hadoop是開源的,因此企業采用它更容易,也更便宜。大多數數據湖都使用Hadoop,因為它能夠廉價快速地處理大量結構化和非結構化數據,并且因為它非常適合以原生格式存儲數據,因此分析師可以應用他們需要的任何轉換。Hadoop在技術上不是一個數據庫,但它在許多功能區域都有重疊。

數據倉庫的替代品

每家公司都管理著一個數據倉庫,以捕獲其業務歷史。但是,當涉及到通用分析時,經常使用數據倉庫,因為它們是唯一可用的工具。數據倉庫功能強大且有用,但需要在前期和持續的基礎上進行大量工作才能使用和維護。由于數據倉庫必須集中和標準化才能為整個組織中的許多用戶提供服務,因此它們始終包含對應存儲的內容以及如何對所有用戶不是最佳的假設。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢