數字化時代,不少企業開始
數字化轉型,開始收集整理數據,但在使用途中,通常會發生數據泄露,安全沒辦法得到保障;數字管理混亂,查找困難,無效失效數據偏多;數據流程復雜,流程不暢,無法有效賦能業務。
這些問題本質,都是
元數據管理不善引起的,這時候企業的數據不僅不能變成數字資產,反而變成數據負債。
這篇文章,我們就重點學習一下元數據管理,帶大家從0到1,了解元數據起源,概念,分類,元數據管理步驟,以及在
數據治理方面的應用體系。
01、什么是元數據?1.元數據起源
元數據,英文名叫meta,起源于1968年,用來表明更加抽象的事。元數據,在歷史上被稱為圖書館目錄信息。
公司的數據可以看作圖書館的書籍,我們管理公司數據類似于管理一個大的圖書館。
現實生活中,我們需要通過書籍分類區域,書名,簡介,作者,出版社,出版時間等信息,對書籍進行排序歸類;新增書籍,減少書籍,借書還書,均需要記錄,以保證書籍易查找,不會丟失。
同理,企業想要管理數據,則和我們管理圖書館類似,必須對數據進行分類,定義,創建數據處理流程,保障數據的安全隱私,監督數據流通等,這些問題都是屬于元數據管理的范疇。
2.元數據概念
那么何為元數據呢? 元數據,官方定義,是關于數據的組織,數據域及其關系的信息。簡單來說,元數據是對潛在信息的信息,是關于數據的更高層次抽象,是對數據的描述。
比如我們通過簡歷了解一個人,需要用姓名,性別,民族, 年齡,身份證號,職業等方向來描述一個人。姓名,性別,民族這些,就是描述一個人的元數據。如果沒有這些元數據,我們就無法了解區分這個人。
同理,對于數字18,我們可以理解為成交了18個單子?產品重量18公斤?產品運貨時間18天?還是部門有18個人?這個數值具體代表什么,含義不清楚。
我們發現,如果沒有數據的類型,名稱,數據關系這些元數據管理,那么數據無法被組織有效準確理解分析,
數據價值無法發揮,數據反而變成組織的數據負債。
所以,元數據,是發揮數據價值的前提,是數據治理的基石!
3 元數據管理不善常見問題
很多企業,因元數據管理不善,易發生以下3個問題:
(1)組織存在冗余的數據和數據管理流程
比如企業沒有對用戶數據進行更新分類刪減,導致很多無效用戶數據一直占用企業資源;沒有合理的數據管理流程,產品部想了解銷售數據,但數據流程繁瑣,導致組織效率降低。
(2)數據來龍去脈不清晰
當業務部門發現數據錯誤時,無法發現數據的源頭在哪里,數據流通引發的結果在哪里,無法快速解決問題。
(3)數據安全,數據隱私等問題發生頻繁
部門和個人訪問權限,訪問流程不清楚,追責機制不清晰,易導致公司機密信息泄露,引發數據安全問題。
02、元數據分類和管理目標1.元數據分類
根據元數據的來源渠道,我們通常把元數據分為3類,分別是業務元數據,操作元數據,技術元數據。
(1)業務元數據
業務元數據,指的是描述業務含義,業務規則等,讓人更好理解和使用的元數據,為后續的
數據分析和應用提供支撐。
常見的業務元數據有:
術語名稱,定義,縮寫,計算口徑
數據概念模型和邏輯模型
數據血緣和影響分析
數據的安全或敏感級別
業務規則引擎的規則,
數據質量檢測規則,數據挖掘算法
(2)技術元數據
技術元數據,指的是對數據結構化,方便數據庫對數據進行識別,存儲,傳輸和交換的元數據。
技術元數據,可以幫助開發人員明確
數據存儲和結構,為應用開發奠定基礎,也可以讓業務人員,快速了解數據的來龍去脈,支持數據血緣追溯和影響分析。
常見的技術元數據有:
物理數據庫名稱,列名稱,列屬性,備注,約束信息等
數據存儲類型,位置,數據存儲文件格式或數據壓縮類型等
數據訪問權限,組和角色
字段級血緣關系,ETL抽取加載轉換信息
調度依賴關系,進度和數據更新頻率
(3)操作元數據
操作元數據,是描述數據的操作管理屬性,它可以明確數據管理的部門,責任人,使用者,數據責任明晰,為數據安全管理奠定了基礎。
常見的操作元數據有:
數據所有者,使用者
數據訪問方式,訪問時間,訪問限制
數據訪問權限,組和角色
數據處理作業的結果,系統執行日志
數據備份,歸檔人,歸檔時間
2.元數據管理目標
通過對元數據進行分類,我們搭建出元數據管理體系,就可以處理企業組織海量數據,明確其位置,具體含義,流通方向,訪問記錄等,對數據有一個系統的管理。
企業建立
元數據管理系統,主要為實現以下3個目標:
(1)搭建業務術語知識體系,賦予數據意義,實現數據知識信息共享
元數據管理系統對各種數據,通過業務,技術,操作3個方面,進行分類和定義,賦予意義,讓使用者均看得懂。
(2)提高數據整合和溯源能力
元數據管理系統對所有的關鍵數據,進行系統整合和處理,用戶可以通過元數據管理系統對數據追本溯源,了解業務處理規則,數據流通情況等。
(3)建立數據質量稽核體系
元數據管理系統通過建立篩選,核實,管理,報警,監控的機制,為數據質量和安全保駕護航,企業再也不用擔心發生數據泄露,數據隱私等問題。
03、元數據管理5大步驟
我們已經知道了元數據既然這么重要,那么一個企業,應該如何從0到1搭建元數據管理體系呢?主要有5個步驟。

元數據管理步驟流程圖
1.定義元數據戰略
第一步,定義元數據戰略。企業需要啟動元數據戰略計劃,把關鍵利益相關方和部門都參與進來,評估現有的元數據資源和信息架構,對關鍵員工重點訪談,制定合理的戰略目標。
管理層要優化和確認未來愿景,開發可以滿足管理現階段的元數據環境長期目標的元數據架構,最后發布元數據戰略,制定階段目標,以及具體的實施路徑。
2.理解元數據需求
第二步,是理解元數據需求。元數據管理解決方案,需要由功能需求點滿足。
元數據具體功能需求點,有更新頻次,同步情況,歷史信息,訪問權限,存儲結構,繼承要求,運維要求,管理要求,質量要求和安全要求。企業根據實際情況,按照以下需求方向做,可搭建出一個數據管理體系。
3.定義元數據架構
第三步,定義元數據架構。元數據管理系統,需要對數據進行采集,流通,存儲和處理,對數據的處理需要數據架構支撐。
元數據架構,通常分為3類,包括集中式,分布式和混合式,不同技術框架滿足不同情境需求,企業根據自身情況因地制宜選擇。
(1)集中式架構
集中式架構,指的是有一個集中的元數據系統,可以接收來自各個渠道的元數據,集中加工處理給其他場景提供服務。類似于我們自己做飯,自己買菜,統一處理加工,能夠保證飯菜質量。
集中式架構優點是元數據統一管理,增強了數據統一性和一致性,提高了元數據質量,有利于元
數據標準化統一管理和應用。缺點是,系統需要保證自身存儲和其他元數據的一致性,需要處理大量數據,增加了流程處理復雜度和工作量。
(2)分布式架構
分布式架構,沒有自己的元數據存儲,使用的時候,直接查詢其他數據源的元數據。類似于我們自己不做飯,想吃什么,就去相應的飯店,雖然簡單方便,但無法保證飯店飯菜質量。
分布式架構的優點是,元數據總能保持最新且有效,查詢簡單;缺點則是統一性無法保證,各個數據源沒有經過整合和標準化,且查詢能力受限于元數據系統的可用性影響。
(3)混合式架構
混合式架構,是一種折中式方案,元數據從數據源進入存儲存儲庫,但存儲庫設計只考慮用戶新增加的,高度標準化以及手工獲取的元數據。
混合式數據架構只存儲經過特定處理的元數據,可以縮短系統處理流程,減少工作量,保證元數據的質量和一致性,同時也能保證元數據最新且有效狀態,查詢簡單。
這三類架構各有千秋,但為了更好發揮數據價值,就需要對元數據標準化、集中整合化、統一化管理,如果企業做功能較為完善的
數據資產管理平臺可采用集中式元數據架構。
4.創建和維護元數據
第四步,則是創建和維護元數據。數據系統,要從企業范圍內梳理和整合元數據,把技術元數據,與業務,流程和管理元
數據集成在一起,使元數據處理變得規范統一,方便理解和分析。
5.查詢,報告和分析元數據
第五步,是查詢,報告和分析元數據。元數據是一個寶貴的資產,可以用于商務智能
BI,商業決策方向。
元數據存儲庫,應具有前端應用程序,并支持查詢和獲取功能,從而滿足以上各類數據資產管理的需求。
04、元數據應用1.數據資產地圖
數據資產地圖,是按數據域對企業數據資源進行盤點和分類,由元數據字典自動生成的企業數據資產的全景地圖。
數據資產地圖可以告訴我們,企業有哪些數據,如何找到數據,可以用數據干什么。通常情況下,數據資產地圖,用可視化方式展示各類元數據和數據處理過程,滿足不同業務分析需求。
2.元數據血緣關系
元數據血緣關系,指的是不同數據之間的聯系。當我們發現一個下游的錯誤數據,可以通過血緣關系追本溯源,快速找到上游的數據來源,了解數據處理過程,找到數據錯誤的原因。
3.元數據影響度分析
元數據影響度分析,可以告訴我們數據去了哪里,經過哪些加工和處理,哪些應用,數據庫,或者部門使用了這個數據。
當數據出現問題的時候,可以迅速了解錯誤數據的傳播鏈條,產生了什么影響,快速解決錯誤數據導致的錯誤結果。
血緣關系,是數據遇到問題,向上找問題,在乎的是數據錯誤導致的原因;而影響度分析,是數據出現問題,快速找到錯誤數據影響的業務和部門,在乎的是數據錯誤的導致結果。
05、小結
元數據管理如此重要,是企業數據治理的前提,而管理元數據需要一個元數據平臺。億信華辰睿治產品,可以提供元
數據采集,訪問,管理,分析等全流程,已服務上千家政企用戶。

睿治產品后臺
億信華辰睿治
數據治理平臺的元數據管理模塊提供了豐富的元數據分析功能,包括血緣分析、影響分析、全鏈分析、關聯度分析、屬性值差異分析等,分析出元數據的來龍去脈,快速識別元數據的價值,掌握元數據變更可能造成的影響,以便更有效的評估變化帶來的風險,從而幫助用戶高效準確的對數據資產進行清理、維護與使用!
(部分內容來源網絡,如有侵權請聯系刪除)