過去的10多年間,企業的IT系統經歷了數據量高速膨脹的時期,但大多數企業最初沒有對數據架構重視,導致企業海量的、分散在不同角落,企業無法從統一的業務視角去概覽整個企業內部的數據信息。由于企業中對企業數據缺少統一而有力的組織、制度、流程的管控,引起了“數據孤島”問題。
元數據是企業中用來描述數據的數據,元數據管理是企業數據治理的基礎。企業以元數據為抓手進行
數據治理,幫助企業更好地對數據資產進行管理,理清數據之間的關系,實現精準高效的分析和決策。那么作為企業的核心資產數據,如何進行管理是不同企業在進行全面
數字化轉型需要考慮的一個重要事情。
一、元數據的定義
元數據是關于數據的數據,是為了描述數據的相關信息而存在的數據。元數據不僅僅表示數據的類型、名稱、值等信息,它可以理解為是一組用來描述數據的信息組/數據組,該信息組/數據組中的一切數據、信息,都描述/反映了某個數據的某方面特征,則該信息組/數據組可稱為一個元數據。只要有一類事物,就可以定義一套元數據。例如:元數據可以為數據說明其元素或屬性(名稱、大小、數據類型等),或其結構(長度、字段、數據列),或其相關數據(位于何處、如何聯系、擁有者)。
在數據倉庫體系中,元數據代表了一種統計數據從元數據、數據倉庫到數據應用的全鏈路信息,記錄了統計數據從產生到展示的全部過程。可以說,有了元數據,開發人員便可以方便的找到統計數據背后的計算邏輯與過程,用于指導開發工作并追蹤數據問題,可以極大的提升工作的效率。
二、元數據和數據資產的關系
企業之所以對自身內部的數據資產總是混沌不清,其實是缺少一種有效的工具來進行數據資產的梳理和盤點。而元數據管理工具就是一種有有效的盤點工具或手段。元數據提供了數據的上下文描述信息,比如數據的所屬域、取值范圍、數據間的關系、業務規則,甚至是數據的來源。它可以告訴你,有用的數據在哪里,能提供一份數據結構定義和元素的詳細示意圖,數據來龍去脈、關系,使應用開發過程更有效,提供數據的參照性、引用性、血緣分析、影響分析、變化分析。在數據分析中,元數據可以幫助DW管理員和DW開發人員非常方便地找到他們所關心的數據。
三、如何利用元數據
1、數據地圖
數據地圖在整個數據體系中,承擔的是一種管理者的角色,通過圖形化的方式來展示數據信息,并標明數據計算中所必要的各種信息參數,不僅數據開發人員可以使用,對于產品和運營來說也是非常友好的。
2、數據血緣分析
數據血緣是元數據的重要應用,數據血緣能夠說明數據與數據之間的關系,比如說這張表是從某個系統抽取過來的,這個字段和那個字段有什么關系,包含了集群血緣關系、系統血緣關系、表級血緣關系和字段血緣關系,其指向數據的上游來源,向上游追根溯源。