日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據倉庫的構建:分步指南

時間:2022-07-08來源:天生我才必有用瀏覽數:460

當創建未來數據倉庫的架構時,企業必須考慮多種因素,例如將連接到數據倉庫的數據源數量、每個數據源中的信息量及其性質和復雜性、企業的分析目標、現有技術環境等。

預計到 2025 年,全球數據量將增長到 180 澤字節,企業必須處理兩個主要問題——將數據存儲在何處以及如何使用數據。自 1980 年代以來一直存在并不斷擴展其功能,數據倉庫可以幫助企業應對這兩個挑戰。然而,根據獨立市場研究公司 Vanson Bourne 的研究,無論技術的成熟度以及數據倉庫通常由商業智能服務專家開發的現狀如何,失敗項目的百分比都會令人不安。

在本文中,我們將通過概述數據倉庫設計和數據倉庫開發步驟的兩種基本方法來深入探討數據倉庫實現的細節。我們還就如何為數據倉庫項目配備人員提供建議,并推薦用于創建可擴展解決方案的技術。

01 數據倉庫架構的 3 個核心組件

當創建未來數據倉庫的架構時,企業必須考慮多種因素,例如將連接到數據倉庫的數據源數量、每個數據源中的信息量及其性質和復雜性、企業的分析目標、現有技術環境等。但是,說每種架構在其類型中都是獨一無二的是錯誤的,因為實際上它們中的每一個都具有以下三個組件:

1、源系統——捕獲交易的操作數據庫、物聯網設備流傳感器數據、SaaS 應用程序、外部數據源等。

2、數據暫存區——臨時托管復制數據的區域和一組流程,可幫助您在加載到數據倉庫之前根據業務定義的規則對其進行清理和轉換。使用暫存區,您可以在 ETL 作業失敗時依賴原始數據的歷史記錄。通常,一旦 ETL 作業成功完成,暫存區的信息就會被刪除。但是,由于遺留原因,您仍可以將其保存一段時間,或存檔。如果所有數據轉換都發生在數據倉庫數據庫本身中,則可以省略此區域。

3、數據存儲——為特定部門或業務線創建的公司范圍內信息和數據集市(數據倉庫的子集)的數據庫。

除了這些元素,企業數據倉庫解決方案還包括數據治理元數據管理組件。擴展數據倉庫環境還可能包括OLAP多維數據集(存儲聚合數據以實現交互式查詢的多維數據結構)和數據訪問層(最終用戶訪問和操作存儲信息的工具和應用程序)。但是,這些元素更多地屬于 BI 工具包,因此我們不會在此探討它們。

02 構建數據倉庫的兩種方法

用于構建數據倉庫的兩種基本設計方法是 Inmon 的(自上而下)和 Kimball 的(自下而上)方法。 1、Inmon方法論 在 Inmon 的方法中,首先,企業信息的集中存儲庫是根據規范化數據模型設計的,其中原子數據存儲在表中,這些表在連接的幫助下按主題區域分組在一起。企業數據倉庫建成后,存儲在那里的數據用于構建數據集市。在您需要以下情況時,Inmon 的方法更可取:

獲得單一事實來源,同時確保數據的一致性、準確性和可靠性

快速開發數據集市,無需重復從原始來源提取數據、清理等。 但是,與 Kimball 的方法相比,此方法的主要限制之一是設置和實施更耗時且更耗費資源。2、Kimball?方法論 Kimball 的方法建議應該首先創建維度數據集市,然后如果需要,公司可以繼續創建邏輯企業數據倉庫。這種方法的倡導者指出,由于維度數據集市需要最少的規范化。因此,此類數據倉庫項目花費的時間和資源更少。另一方面,您可能會在表中發現重復數據,并且必須重復 ETL 活動,因為每個數據集市都是獨立創建的。盡管這兩種方法可能看起來相當不同,但它們可以很好地互補,這可以通過結合兩種設計方法原則的替代方法的出現來證明。03 數據倉庫構建的分步指南 通常的做法是通過全面的就緒評估來啟動數據倉庫計劃。在評估數據倉庫項目的準備情況時,請考慮以下因素: 強大的業務贊助商的可用性 - 有影響力的經理可以預見該計劃的潛力并幫助推廣它。? 業務動機——數據倉庫是否可以幫助解決一些關鍵的業務問題。? 整個公司當前的數據成熟度——換句話說,最終用戶是否意識到數據驅動決策的重要性、高數據質量等。 IT 專家和業務用戶的協作能力。

現有技術和數據環境的可行性。

在您評估了項目的準備情況并希望對它感到滿意之后,您需要開發一個用于項目規劃和管理的框架,然后最終進行數據倉庫開發,從定義您的業務需求開始。

1、業務需求定義

業務需求幾乎影響整個數據倉庫開發過程中的每一個決策——從應該提供哪些信息到應該多久訪問一次。因此,從采訪您的業務用戶開始定義:

公司的總體目標以及特定業務單位、部門等的目標。 用于衡量成功的方法和指標。 企業面臨的關鍵問題 。

公司目前執行的常規數據分析類型,包括用于此的數據、分析的頻率、它帶來了哪些潛在的改進等)。

在采訪業務用戶時,您還應該與您的關鍵 IT 專家(數據庫管理員、運營源系統專家等)進行有效的溝通,以確定當前可用的信息是否足以滿足以下業務需求:

關鍵操作系統? 數據更新頻率 歷史數據的可用性 設置了哪些流程來確保將信息傳遞給業務用戶 使用哪些工具來訪問和分析信息 通常會產生哪些類型的見解 如果對信息的臨時請求處理得很好,等等。?

2、數據倉庫概念化與技術選型

上一步的結果被用作定義未來解決方案范圍的基礎,因此應仔細分析您的業務和 IT 用戶的需求和期望并確定其優先級,以制定最佳數據倉庫功能集。

之后,您必須確定構建數據倉庫解決方案的架構方法,評估和選擇每個架構組件的最佳技術——暫存區、存儲區等。在制定技術堆棧時,請考慮以下因素:

您當前的技術環境 規劃的戰略技術方向 內部 IT 團隊成員的技術能力

具體數據安全要求等

此時,您還應該定義部署選項——本地、云或混合。部署選項的選擇取決于許多因素,例如數據量、數據性質、成本、安全要求、用戶數量及其位置以及系統可用性等。

3、數據倉庫環境設計

在設計數據倉庫之前和期間,您需要定義數據源并分析其中存儲的信息——可用的數據類型和結構、每天、每月生成的信息量等,以及其質量、敏感性、刷新率頻率。

下一步將是邏輯數據建模,或將公司數據排列成一系列稱為實體(現實世界對象)和屬性(定義這些對象的特征)的邏輯關系。實體關系建模用于各種建模技術,包括規范化模式(關系數據庫的一種設計方法)和星型模式(用于維度建模)。

接下來,將這些邏輯數據模型轉換為數據庫結構,例如將實體轉換為表,將屬性轉換為列,將關系轉換為外鍵約束等等。

數據建模完成后,第一步是設計數據暫存區,首先為數據倉庫提供高質量的聚合數據,并在所有后續數據加載過程中定義和控制源到目標的數據流.

設計步驟還包括創建數據訪問和使用策略、建立元數據目錄、業務詞匯表等。

4、數據倉庫開發上線

該步驟從定制和配置所選技術(DWH 平臺、數據轉換技術、數據安全軟件等)開始。然后,該公司開發 ETL 管道并引入數據安全性。

在引入所有主要組件之后,它們必須與現有數據基礎架構(數據源、BI 和分析軟件、數據湖等)以及彼此集成,以便之后可以遷移數據。

在最終匯總之前,您必須確保您的最終用戶能夠處理新技術環境,這意味著他們所有人都了解可用的信息、信息的含義、訪問方式以及使用的工具。針對標準用戶和高級用戶的定制培訓以及支持文檔將對此有所幫助。除此之外,您還需要:

測試數據倉庫性能、ETL等。 驗證數據質量(數據易讀性、完整性、安全性等) 確保用戶可以訪問數據倉庫等。?

5、售后支持和維護

在初始部署之后,您需要專注于您的業務用戶并提供持續的支持和教育。隨著時間的推移,必須衡量數據倉庫性能指標和用戶滿意度分數,因為它將幫助您確保數據倉庫的長期健康和增長。

04 數據倉庫項目的關鍵角色

1、項目經理

定義數據倉庫項目及其可交付成果的范圍。 概述項目計劃,包括預算估算、項目資源和時間表。? 管理日常數據倉庫項目任務和活動(資源協調、項目狀態跟蹤、項目進度和溝通瓶頸等)

2、業務分析師

識別業務用戶的需求并確保將其清楚地傳達給技術團隊。

進行采訪并記錄下來。

協助數據建模師和 DBA 進行數據建模、數據映射活動等。

3、數據建模師

執行詳細的數據分析。

設計數據倉庫的整體技術架構,尤其是每個組件(數據分段、數據存儲、數據模型等)。

監督架構開發和實施。

就技術堆棧提供建議。

記錄整體解決方案及其組成部分的范圍。

4、數據庫管理員 (DBA)

將邏輯模型轉換為物理表結構。

確保對數據庫的操作支持,調整數據庫性能以確保數據的可用性和完整性。

計劃數據備份/恢復計劃等。

5、ETL 開發人員

計劃、開發和設置提取、轉換和加載管道。

6、質量保證工程師

制定測試策略以確保數據倉庫的正常運行和數據準確性。

識別潛在錯誤并確保其得到解決。

在開發的 DWH 解決方案上運行測試。

除了這些關鍵角色之外,其他專業人員也可能參與該項目,例如解決方案架構師、技術支持專家、DevOps 工程師、數據管家、數據倉庫培訓師等。值得注意的是,有時個別工作人員可以扮演多個角色。

05 3種領先的數據倉庫技術

使用不恰當的技術是數據倉庫項目失敗的原因之一。除了您需要正確識別您的用例之外,您還需要從市場上眾多看似相似的選項中選擇最佳軟件。在這里,我們回顧了客戶滿意度得分很高并在各種市場研究報告中獲得高度評價的數據倉庫服務和平臺。雖然描述的功能并不詳盡:在起草它們的描述時,我們主要關注它們的數據集成能力、與分析和商業智能服務的內置連接、可靠性和數據安全性。

1、亞馬遜 Redshift

提供聯合查詢功能以及與 Amazon S3 的內置集成,以跨運營數據庫和數據湖查詢和分析任何類型、格式和大小的數據。 允許使用 AWS Data Pipeline、AWS Data Migration Services、AWS Glue 和 AWS Kinesis Firehose 在 AWS 服務內部和外部以流和批次的形式攝取和轉換數據。 提供與 AWS 分析服務(AWS Lake Formation、Amazon EMR、Amazon QuickSight、Amazon SageMaker 等)的原生集成。 提供內置的容錯和災難恢復能力(自動化集群快照、快照復制、持續集群監控和替換等)。 通過對表的精細權限、多因素用戶身份驗證、數據加密等來保護數據。 滿足 SOC1、SOC2、SOC3、PCI DSS 1 級、HIPAA、ISO 27001 等的合規性要求。 允許分離存儲和計算資源。?

2、谷歌BigQuery

通過 Cloud Fusion 提供與 150 多個數據源的原生數據集成

提供多云分析支持(由 Google BigQuery (Omni) 提供)以跨 AWS 和 Azure(即將推出)查詢數據,而無需復制數據。

與 Looker 和整個 Google Cloud Analytics 生態系統的原生集成。

冷熱數據以及存儲和計算資源分別收費。

默認情況下,在多個位置免費提供復制存儲。

提供對數據集、表、視圖、多因素用戶身份驗證、數據加密(默認)等的精細權限。

滿足 HIPAA、ISO 27001、PCI DSS、SOC1、SOC2 等的合規性要求。

3、Azure Synapse Analytics

通過 Azure 數據工廠為本地和云數據源提供 95 多個本機連接器。

通過 Azure Synapse Link 提供對本機 HTAP 的支持。

使用內置的 Apache Spark 和 Azure 流分析事件處理引擎支持大數據和流數據攝取和處理。

與 Power BI、Azure 機器學習、Azure 認知服務、Azure Data Lake Storage 等的本機集成。

允許單獨擴展存儲和計算。

提供內置的容錯和災難恢復功能(自動快照、異地備份等)。

默認數據安全功能(模式、表、視圖、單個列、過程等的細化權限,多因素用戶身份驗證、數據加密等)。

滿足 HIPAA、ISO 27001、PCI DSS、SOC1、SOC2 等的合規性要求。

06 確保DW項目成功的關鍵要素?

1、實施敏捷 DW?開發

數據倉庫開發項目耗費時間和資源,因此選擇一種敏捷方法,這意味著通過增量投資將項目分解為迭代,將幫助您盡早開始獲得 ROI,并最大限度地降低風險并避免大量的前期投資。

2、確保 IT 和業務之間的密切合作

數據倉庫的成功是 IT 和業務專家的共同努力,他們共同承擔從收集業務需求到數據倉庫部署和發布后支持的計劃責任。

3、關注最終用戶

為最終用戶提供可靠的支持文檔、培訓和自助數據訪問工具,確保數據倉庫的高采用率。

07 結論

巧妙構建的現代數據倉庫可以幫助您實現許多當前的數據管理和分析目標,包括分解數據孤島、實時分析、交互式報告和受保護的公司數據。而且,即使要使您的數據倉庫取得長期成功,您也需要大量投資,不要讓它嚇倒您。依靠具有扎實領域專業知識的值得信賴的 BI 供應商,切實的數據倉庫優勢很快就會顯現出來。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢