一、元數據的定義
任何文件系統中的數據分為數據和
元數據。數據是指普通文件中的實際數據,而元數據是關于數據的數據,是為了描述數據的相關信息而存在的數據,通常由信息結構的描述組成。這些數據包括來自企業內外的物理數據的格式,技術和業務過程,數據的規則和約束以及企業所使用數據的結構。例如記錄數據的存儲位置、模型定義、生命周期、血緣關系、訪問權限、文件擁有者以及文件數據塊的分布信息等信息。
在大數據時代,元數據還應該包括對各種新數據類型的描述,如對位置、名字、用戶點擊次數、音頻、視頻、圖片、各種無線感知設備數據和各種監控設備數據等的描述等。
二、元數據的意義
1、幫助數據平臺制定數據統計的標準
例如計算指標如何統一、數據口徑如何統一、數據的上下游關聯數據是什么、數據之間的關系如何等信息,打通了上下游數據之間的關聯關系,就可以為數據質量及維護可視化奠定基礎。
2、幫助數據平臺了解自己本身的情況
例如我存儲的數據有多大、我有哪些數據、我的數據何時產出、如何找到我所需要的數據等信息,當我們拿到這些信息后,就可以做對應的運維報警等工作。
3、標準化的圖形展示
采用圖形化的方式來組織頁面邏輯,方便使用者所需要的關鍵信息。
4、快速的搜索定位
支持通過搜索引擎模糊查詢、精確查詢、字段查詢、表名查詢、備注查詢等方式來查找相關數據。
5、直接關聯分析工具
數據的信息直接存儲在平臺上,可以直接通過用報表插件來快速看到直觀的報表信息,提升開發的效率。
6、積累歷史數據信息
直接拉取歷史數據,不需要重復計算,極大的避免了重復開發。例如針對新用戶的統計,可以拉取歷史用戶信息,和每日用戶登錄日志進行關聯,用于生產每日新增用戶;
三、元數據平臺的結構
1、數據源層
企業的元數據來自多個方面,包括數據管理平臺中的元數據(數據倉庫、ODS、數據湖等)、業務系統中的元數據(ERP、CRM、SCM、OA等)、數據分析工具中的元數據(Cognos、Power BI等)、數據處理工具中的元數據(ETL工具的腳本元數據)以及各種半結構化數據源(Word、PDF、Excel等各種格式化電子文件)。
2、元數據采集層
元數據采集層主要通過對各類數據源的適配,實現元數據的統一采集,并將其存儲于符合CWM標準的中央元數據倉庫中。元數據平臺支持的各類數據源類型越多,說明元數據采集能力越強大。
3、元數據管理層
元數據管理層提供了對元數據的查詢、維護、管理功能,包括元數據查詢、元數據管理、
元數據變更管理、元數據版本管理、元數據適配器管理等。
4、元數據應用層
元數據應用層提供了元數據的瀏覽和分析功能,以指導企業數據資產管理的建設,支持數據質量的探查,促進企業數據標準的落地。功能包括元數據血統分析、企業數據地圖、元數據冷熱度分析、元數據影響分析、元數據模型查詢、元數據全鏈分析等。