日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據倉庫中元數據的組成

時間:2021-11-12來源:知乎瀏覽數:738

元數據貫穿整個數據倉庫,根據情況可以分為三種:業務元數據、技術元數據和管理元數據。


1、業務元數據
業務元數據主要描述 ”數據”背后的業務含義,從業務角度描述業務領域的相關概念、關系——包括業務術語和業務規則。

主題定義:每段 ETL、表背后的歸屬業務主題。
業務描述:每段代碼實現的具體業務邏輯。
標準指標:類似于 BI 中的語義層、數倉中的一致性事實;將分析中的指標進行規范化。
標準維度:同標準指標,對分析的各維度定義實現規范化、標準化。
業務元數據,在實際業務中,需要不斷的進行維護且與業務方進行溝通確認。

2、技術元數據
指技術細節相關的概念、關系和規則,包括對數據結構、數據處理方面的描述。以及數據倉庫、ETL、前端展現等技術細節的信息。

數據倉庫中的技術元數據一般包含以下 4 大系統:數據源元數據、ETL元數據、數據倉庫元數據、BI 元數據。

(1)數據源元數據
例如:數據源的 IP、端口、數據庫類型;數據獲取的方式;數據存儲的結構;原數據各列的定義及 key 指對應的值。

(2)ETL元數據
根據 ETL 目的的不同,可以分為兩類:數據清洗元數據;數據處理元數據。
數據清洗元數據:數據清洗,主要目的是為了解決掉臟數據及規范數據格式。因此此處元數據主要為:各表各列的"正確"數據規則;默認數據類型的"正確"規則。
數據處理元數據:數據處理,例如常見的表輸入表輸出;非結構化數據結構化;特殊字段的拆分等。源數據到數倉、數據集市層的各類規則。比如內容、清理、數據刷新規則。

(3)數據倉庫元數據
數據倉庫結構的描述,包括倉庫模式、視圖、維、層次結構及數據集市的位置和內容;
業務系統、數據倉庫和數據集市的體系結構和模式等。

(4)BI 元數據
匯總用的算法、包括各類度量和維度定義算法。數據粒度、主題領域、聚集、匯總、預定義的查詢與報告。

3、管理元數據
管理領域相關,包括管理流程、人員組織、角色職責等。
也有很多觀點建議將管理元數據拆分融入業務元數據和技術元數據中。

04 如何建設數據倉庫元數據管理

任何系統的元數據管理建設都是十分艱難的,數據倉庫更是如此;但另一方面,這個建設過程又是非常重要的。我們暫以 CWM 標準作為數據倉庫的元數據標準參考,在實際建設中進行借鑒,這樣看起來更專業。

CWM (CommonWarehouseMetamodel公共倉庫元模型)是 OMG 組織在數據倉庫系統中定義了一套完整的元模型體系結構,用于數據倉庫構建和應用的元數據建模。公共倉庫元模型指定的接口,可用于啟用交換倉庫之間元數據倉庫和業務智能工具、倉庫平臺、應用的元數據建模和倉庫元數據存儲在分布式異構環境 CWM 元模型由一系列子元模型構成。
由于 CWM 制定時間是 2001 年,且過于細節深入,因此筆者認為其更適合作為開發參考而非開發標準。

由于元數據包含極廣,我們在建立元數據管理系統的時候,絕對不能盲目追求大而全、一步到位,要堅持目標驅動的原則,在實施的時候要采取增量式、漸進式的建設原則。具體的建設步驟如下:

在建設數據倉庫系統的初期,只需確定源系統的元數據構成和 數倉我們想要實現的元數據內容:比如,我們只想通過元數據來管理數據倉庫中數據的轉換過程,以及有關數據的抽取路線,以使數據倉庫開發和使用人員明白倉庫中數據的整個歷史過程。
確定源系統和元數據構成后,先將源系統的元數據整理并記錄,可以用文檔記錄;也可以存入關系型數據庫中。
隨著數據倉庫系統的建設,逐步將需要的元數據補充錄入——例如 DM 的語義層、ETL 的同步規則。
數據倉庫建設完成后,對元數據進行結構化、標準化儲存。
總之,建立元數據管理系統一定要堅持關注標準,又不被標準所束縛的原則,建立符合自身目標的元數據管理系統。
(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢