數據是企業的重要信息資產,面對浩如煙海的數據,企業管理者以什么為抓手來管理數據呢?答案是“元數據”。
元數據管理作為
數據治理的基石,有具體的項目中該如何做呢?
元數據相關概念介紹
元數據是什么?簡單的來說:它是數據的數據。
有一個關于元數據的例子,元數據就像“戶口本”,戶口本中除了有姓名、出生日期、住址、民族等信息外,還有家庭的血緣關系,父子關系、兄弟關系等。這些信息就構成了對這個人的詳細描述,那這些信息就是描述這個人的元數據。
元數據從數據的角度可以分為三類:業務元數據、技術元數據和管理元數據。
業務元數據是從業務的視角去描述數據,讓不懂數據的人可以快速讀懂數據,例如:表名稱、表的血緣關系、表的字段說明、指標的統計口徑等多種業務描述;
技術元數據自然就是從技術的角度去描述數據,例如:表的sql、字段長度、字段類型等多種技術描述;
管理元數據是包含數據管理的信息在里面,例如:表的業務屬主、表的技術負責人。
元數據管理又是什么?它是對元數據的創建、存儲、整合、控制的一整套流程,能夠支持基于元數據的相關需求和應用。
那元數據管理的好處是什么?它能夠讓開發和業務人員快速的了解數據的上下游關系及本身的含義,精準定位需要查找的數據,減少數據研究的時間成本,提高效率。
如何進行元數據管理
通常一個數據治理項目的范圍會包含:組織建設、數據安全、數據開發、
數據質量、元數據管理、
數據價值等幾個模塊。當然基于每家公司的數據治理的目標不一樣,每家公司的數據治理實施關鍵路徑也會不一樣。元數據管理作為數據治理工作是重中之重,在數據治理項目中該如何做呢?
1、元數據范圍
首先確定元數據來源范圍,在實際的工作中,不是所有數據都是要做元數據管理,通常我們會選擇業務數據做元數據管理,非業務數據(例如:備份數據、系統日志等)是不會納入管理范圍內,主要還是因為元數據管理是提供業務和開發人員快速掌握業務數據。
確定規則后,就要結合公司的實際情況去梳理出哪些業務系統、哪些數據庫、哪些數據庫用戶、哪些表需要做元數據管理。當然也可以支持非結構化數據的元數據抽取,例如:word、pdf等。
2、元數據接入
元數據從哪接入,一般都是從源系統接入,假如公司已經存在數倉或者實時性要求不高,為了節約開發工作量,對于已有的元數據會從數倉接入,還未接入的會從源系統進行接入。
但這種方案也是存在風險,假如數倉的數據和源系統出現不一致,就會導致元數據出錯。現在大部分的元數據抽取都是采用配置自動化的方式進行。
3、元
數據標準
在梳理的過程中可能會出現有些數據庫或者有些數據定義不規范的情況,導致元數據管理無法進行下去。那接下來需要建立元數據的管理規范,去反推前端的源數據進行整改,主要是保證元數據的完整性和一致性。
針對不同的類型的公司要求,元數據會開放給不同的人群,所以要對元數據進行權限管理,規范里面就需定義權限的管理流程:元數據的權限分層、元數據權限申請流程、元數據的發布流程、元數據的審核流程等。
4、元數據維護
元數據維護主要是對已經發布的元數據進行維護管理,已經發布上線的元數據,如需調整、優化則必須重新走元數據發布流程,不準許對元數據進行直接修改。為了安全,元數據所有操作行為都要記錄到元數據操作日志里面。
可以對元數據創建目錄將不同的元數據掛在對應的目錄下,按照業務流程、業務主題域、開發流程設計對應的目錄,主要還是根據公司要求設計。
5、元數據查找、分析、報告
有單獨的頁面支持元數據的模糊或精準快速查找,通過輸入關鍵信息查找對應的元數據。有些公司將元數據作為數據資產的一類,因此需要產出元數據資產報告,從報告中能夠快速的了解元數據訪問熱度、數據價值、數據成本、數據分布等相關信息。
搭建
元數據管理平臺
工欲善其事,必先利其器。元數據管理可借助管理工具使管理工作變的相對快速和簡單一些,如元數據的采集、元
數據存儲、數據血統、數據地圖、元數據整合等都可以通過元數據工具來實現。

圖:元數據管理平臺架構
元數據系統整體分為接入層、存儲層、功能層和應用層。
接入層:適配不同元數據生產方,轉換成標準定義,輸出全種類實體、關系變更消息。
存儲層:基于元模型的實體、關系的存儲與查詢,支持統計與分析能力。
功能層:提供元模型管理、元
數據分析應用、元數據管理、元數據檢核等功能。
應用層:基于定板元數據提供單點、復雜查詢服務,基于分析引擎提供面向不同角色的元數據分析服務。
作為企業數據治理的基礎,元數據管理平臺從功能上主要包括:元
數據采集服務,元數據訪問服務、元數據管理服務和元數據分析服務。
1、元數據采集服務:能夠適應異構環境,支持從傳統關系型數據庫和大數據平臺中采集從數據產生系統到數據加工處理系統到
數據應用報表系統的全量元數據,包括過程中的數據實體(系統、庫、表、字段的描述)以及數據實體加工處理過程中的邏輯。

億信華辰睿治
數據治理平臺的元數據管理模塊內置多種采集適配器,支持多種存儲格式的元數據自動獲取,如:數據庫、
報表工具、ETL工具、文件系統等,對于無法完成自動獲取的元數據,提供了可自定義的元數據采集模版完成元數據的批量導入。
2、元數據訪問服務:元數據訪問服務是元數據管理軟件提供的元數據訪問的接口服務,一般支持REST或Webservice等接口協議。通過元數據訪問服務支持企業元數據的共享,是企業數據治理的基礎。
3、元數據管理服務:實現元數據的模型定義并存儲,在功能層包裝成各類元數據功能,最終對外提供應用及展現;提供元數據分類和建模、血緣關系和影響分析,方便數據的跟蹤和回溯。

億信華辰睿治數據治理平臺的元數據管理模塊提供各類元數據管理,包括:業務元數據、技術元數據和管理元數據,支持元數據的基本信息、屬性、依賴關系、組合關系的增刪改查操作。最新元數據和定版元數據隔離,在最新元數據中的改動不影響定版元數據的正常使用,同時每次發布都有版本留痕,支持各版本的對比分析。
4、元數據分析服務:元數據的應用一般包括數據地圖,數據的血緣、影響分析,全鏈分析等;

億信華辰睿治數據治理平臺的元數據管理模塊提供了豐富的元數據分析功能,包括血緣分析、影響分析、全鏈分析、關聯度分析、屬性值差異分析等,分析出元數據的來龍去脈,快速識別元數據的價值,掌握元數據變更可能造成的影響,以便更有效的評估變化帶來的風險,從而幫助用戶高效準確的對數據資產進行清理、維護與使用。
總體而言,利用億信華辰睿治數據治理工具構建元數據管理平臺,實現集中化管理、自動化管理、版本管理,可為后續數據治理工作打下基礎,基于統一的
企業級元數據管理,為數據標準、數據質量、數據認責、數據全生命周期的數據管控提供支持。企業信息化管理者以元數據為抓手進行數據治理,有助于更加有效的發掘和利用信息資產的價值,實現精準高效的分析和決策。
(部分內容來源網絡,如有侵權請聯系刪除)