- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2023-11-19來源:川穹瀏覽數:407次
“ 很多剛進入數據行業的從業者對于元數據經常會存在理解不了,或者不知道是什么的現象,本文簡單從什么是元數據,元數據的定義,元數據的作用,元數據管理的功能,以及元數據在數據治理中的意義進行介紹元數據”
元數據是指描述數據的數據,它包含有關數據的各種屬性和特征的信息。在DAMA(數據管理協會)中,元數據的定義是指一組結構化信息,用于描述和管理數據資源。它描述了數據本身(如數據庫、數據元素、數據模型),數據表示的概念(如業?務流程、應用系統、軟件代碼、技術基礎設施),數據與概念之間的聯系(關系)。元數據可以幫助?組織理解其自身的數據、系統和流程,同時幫助用戶評估數據質量,對數據庫與其他應用程序的管?理來說是不可或缺的。它有助于處理、維護、集成、保護和治理其他數據。通過準確、一致和完整的元數據管理,組織可以更好地管理和控制數據資產,提高數據的可信度和可用性,從而支持業務決策和創新??催@個定義,元數據是什么還是相對比較抽象,下面進行詳細的說明。?????
01—什么是元數據
前面已經結束了元數據的定義,下面我們以一個詳細的示例來說明什么是元數據。例如:一張人員信息Personnel Information,里面包含字段:ID、Name、EnglishName、Gender、Contact、Post. 那么我們在數據庫中看到的數據是這樣的。????????????????????????| ID | Name? | EnglishName | Gender | Contact | Post |
| 1 | 李**?? | Alice | 女?? | 1332342****??? | 技術經理 |
| 2 | 趙** | Bob? | 男 | 1332342**** | 工程師 |
| 3 | 何** | Alfred | 男? | 1353342**** | 工程師 |
對于這樣一張表,我們需要了解這張表的數據就一定需要了解這個表的元數據,那么元數據是什么了?元數據包含業務元數據、技術元數據(包含操作元數據)、管理元數據三種類型。下面詳細介紹元數據的三類元數據信息:????????????
一、業務元數據
業務元數據(Business Metadata)主要關注數據的內容和條件,另包括與數據治理相關的詳細信息。業務元數據包括主題域、概念、實體、屬性的非技術名稱和定義、屬性的數據類型和其他特征,如范圍描述、計算公式、算法和業務規則、有效的域值及其定義。業務元數據的示例包括:
1)?數據集、表和字段的定義和描述,例如表的描述、字段描述屬性。
2)?業務規則、轉換規則、計算公式和推導公式,例如指標字段的計算公式,轉換規則等。
3)?數據模型(概念模型、邏輯模型),在模型設計階段中的邏輯模型等。
4)?數據質量規則和檢核結果,例如對某個字段的質量檢查規則。
5)?數據標準,例如對某個字段的數據標準。
6)?數據的安全/隱私級別。
業務元數據主要描述的是數據業務屬性,主要跟概念模型、邏輯模型相關,這些屬性一般是定義的形勢存在的,單獨存儲在庫中,不會存儲在數據庫中,數據庫層級是物理模型,物理模型是屬于技術元數據的范圍。?????
二、技術元數據?技術元數據(Technical Metadata)提供有關數據的技術細節、存儲數據的系統以及在系統內和系統之間數據流轉過程的信息。
技術元數據示例包括:
1)?物理數據庫表名和字段名。
2)?字段屬性。
3)?數據庫對象的屬性。
4)?訪問權限。
5)?數據CRUD (增、刪、改、查)規則。
6)?物理數據模型,包括數據表名、鍵和索引。
7) ETL作業詳細信息。
8)?文件格式模式定義。
9)?數據溯源和數據血緣,包括上游和下游變更影響的信息。
10)?周期作業(內容更新)的調度計劃和依賴。
11)?恢復和備份規則。
12)?數據訪問的權限、組、角色。
操作元數據
操作元數據(Operational Metadata)描述了處理和訪問數據的細節,例如:
1)?批處理程序的作業執行日志。
2)?抽取歷史和結果。
3)?調度異常處理。
4)?審計、平衡、控制度量的結果。
5)?錯誤日志。
6)?報表和查詢的訪問模式、頻率和執行時間。
8)?備份、保留、創建日期、災備恢復預案。
10)?容量和使用模式。
11)?數據歸檔、保留規則和相關歸檔文件。
12)?清洗標準。
13)?數據共享規則和協議。
14)?技術人員的角色、職責和聯系信息。
三、管理元數據
管理元數據是指元數據屬性中的管理屬性,例如數據所屬權,數據所有者,數據擁有部門等屬性。表明數據管理權限等。
1)?利益相關方聯系信息(如數據所有者、數據管理專員)。
2)數據所有權屬性(如數據所有權部門、數據所有者)。?
那么針對上面那個例子,我們詳細列一下該表的業務元數據、技術元數據、管理元數據信息。??

02—非機構化數據的元數據
相對于結構化數據的管理,元數據在非結構化數據的管理中發揮著更為重要的作用。以圖書館中的書籍和雜志為例,元數據在目錄卡片中的主要用途是幫助用戶找到所需的材料,而無需關注其具體的格式。
非結構化數據的元數據包括以下內容:
描述元數據:例如目錄信息和同義關鍵詞。
結構元數據:例如標簽、字段結構以及特定的格式。
管理元數據:例如數據來源、更新計劃、訪問權限以及導航信息。
書目元數據:例如圖書館目錄條目(如名稱、格式、來源、版本、?接收日期等)
記錄元數據:例如保留策略。
保存元數據:例如存儲、歸檔條件和保存規則。
這些元數據的存在對于非結構化數據的有效管理至關重要。
非機構化數據的元數據主要應用對象是數據湖的數據,數據挖掘和數據科學家需要對數據探索的時候,需要通過元數據找到需要的數據,以及其他元數據定位到自己需要找到的數據,主要能通過元數據進行搜索和定位的能力。????
03—元數據的作用
元數據的作用在數據管理中的重要性毋庸置疑,主要體現在三個方面。???
一、數據的解讀和理解
元數據可以提供數據的背景信息和上下文,使用戶能夠更全面地理解數據的含義和用途。通過元數據,用戶可以知道數據來源、創建日期、所有者、數據類型等重要信息,從而更準確地使用數據并做出明智的決策。如果沒有元數據的,數據庫中存儲的數據最終存儲都是0和1,沒有元數據,存儲的數據沒有意義,容易成為數據沼澤。完善的元數據讓數據可以被解讀、被理解,進而才能被管理、被使用。

二、元數據目錄是提供數據管理的依據
通過收集和維護元數據,我們可以構建一個元數據目錄。在這個元數據目錄中,記錄了企業的數據及其詳細描述信息。元數據目錄是數據資產管理和數據共享的基石,也是校驗數據質量、制定數據安全策略和建立資產目錄的依據。同時,元數據的補充還包括數據安全等級和安全策略等重要信息。例如我們建立數據資產目錄是依據元數據建立的。???

例如我們建立服務市場和數據資產市場是依據元數據建立的。?

三、數據開發過程中排查問題的依據???
數據的技術元數據是大數據開發的基礎,沒有這些信息,大數據開發無法完成數據的任何工作。例如ETL 工作,需要了解表的結構,字段信息,需要從元數據中獲取信息,例如大數據開發中出現字段問題,需要追溯問題來源,需要用到數據血緣功能等。元數據對于數據分析和挖掘也至關重要。通過元數據,可以了解數據的結構、字段和關系,為數據分析和挖掘提供重要的指導和支持。同時,元數據還可以記錄數據處理和轉換的過程,使數據的可追溯性和可信度得到保證。?????

04—元數據的管理功能
元數據管理的功能主要包含:元模型管理功能、元數據采集,元數據維護、元數據列表、任務監控五個功能。
元模型管理功能,可以自定義選擇元數據采集的元數據項,不同公司可以根據當前使用需求,對元數據采集的任務項進行增刪修改,自定義可視化修改元模型。
元數據采集,根據定義的元數據模型,添加采集任務,需要采集哪些庫,哪些表的元數據信息呢,新建采集任務之后,由調度系統進行調度執行,更新元數據。
元數據維護,采集元數據有時候存在漏采,錯采等情形,提供維護頁面對采集的元數據進行修改。?????????
元數據列表,采集元數據以業務維度、技術維度、管理維度、安全維度展示,同時管理采集的元數據版本,可以對比不同版本發生的變更。??
任務監控,則是對創建的元數據采集任務進行監控,可以重新啟動,或者立即執行,了解采集任務的采集成功或者失敗情況。???
下一篇:數據血緣和數據地圖...