一、什么是元數(shù)據(jù)
任何文件系統(tǒng)中的數(shù)據(jù)分為數(shù)據(jù)和元數(shù)據(jù)。數(shù)據(jù)是指普通文件中的實際數(shù)據(jù),而元數(shù)據(jù)指用來描述一個文件的特征的系統(tǒng)數(shù)據(jù),諸如訪問權(quán)限、文件擁有者以及文件數(shù)據(jù)塊的分布信息等等。在集群文件系統(tǒng)中,分布信息包括文件在磁盤上的位置以及磁盤在集群中的位置。用戶需要操作一個文件必須首先得到它的元數(shù)據(jù),才能定位到文件的位置并且得到文件的內(nèi)容或相關(guān)屬性。元數(shù)據(jù)包括業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。
常見的技術(shù)元數(shù)據(jù)包括:存儲位置、數(shù)據(jù)模型、數(shù)據(jù)庫表、字段長度、字段類型、ETL腳本、SQL腳本、接口程序、數(shù)據(jù)關(guān)系等;
常見的管理元數(shù)據(jù)包括:數(shù)據(jù)所有者、數(shù)據(jù)質(zhì)量定責(zé)、數(shù)據(jù)安全等級等;
常見的業(yè)務(wù)元數(shù)據(jù)包括:業(yè)務(wù)定義、業(yè)務(wù)術(shù)語、業(yè)務(wù)規(guī)則、業(yè)務(wù)指標(biāo)等。
二、什么是元數(shù)據(jù)管理
元數(shù)據(jù)管理包括業(yè)務(wù)詞匯表的發(fā)展,數(shù)據(jù)元素和實體的定義,業(yè)務(wù)規(guī)則和算法以及數(shù)據(jù)特征。最基礎(chǔ)的管理是管理業(yè)務(wù)元數(shù)據(jù)的收集、組織和維持。對技術(shù)型元數(shù)據(jù)的應(yīng)用,對主數(shù)據(jù)管理和
數(shù)據(jù)治理項目的成功至關(guān)重要。簡單來說就是針對數(shù)據(jù)全生命周期的管理,例如數(shù)據(jù)的業(yè)務(wù)定義數(shù)據(jù)來源,數(shù)據(jù)技術(shù)定義(類型,值域,默認值,枚舉值等),數(shù)據(jù)血緣,數(shù)據(jù)進行了怎樣的ETL,在ETL過程中應(yīng)用了那些規(guī)則,數(shù)據(jù)質(zhì)量如何(包括但不限于真實性、完整性、有效性、合規(guī)性),數(shù)據(jù)被誰消費了,如何消費的,以及數(shù)據(jù)是何時銷毀或歸檔等等。當(dāng)企業(yè)內(nèi)容數(shù)據(jù)較少或者數(shù)據(jù)不要在同一個層面上匯總分析時,元數(shù)據(jù)管理用處有限。但是在大數(shù)據(jù)以及數(shù)據(jù)驅(qū)動創(chuàng)新的背景下,元數(shù)據(jù)管理就顯得非常重要了。
三、元數(shù)據(jù)管理價值
元數(shù)據(jù)管理平臺為用戶提供高質(zhì)量、準確、易于管理的數(shù)據(jù),它貫穿數(shù)據(jù)中心構(gòu)建、運行和維護的整個生命周期。同時,在數(shù)據(jù)中心構(gòu)建的整個過程中,數(shù)據(jù)源分析、ETL過程、數(shù)據(jù)庫結(jié)構(gòu)、數(shù)據(jù)模型、業(yè)務(wù)應(yīng)用主題的組織和前端展示等環(huán)節(jié),均需要通過相應(yīng)的元數(shù)據(jù)的進行支撐。
通過元數(shù)據(jù)管理,形成整個系統(tǒng)信息數(shù)據(jù)資的準確視圖,通過元數(shù)據(jù)的統(tǒng)一視圖,縮短數(shù)據(jù)清理周期、提高數(shù)據(jù)質(zhì)量以便能系統(tǒng)性地管理數(shù)據(jù)中心項目中來自各業(yè)務(wù)系統(tǒng)的海量數(shù)據(jù),梳理業(yè)務(wù)元數(shù)據(jù)之間的關(guān)系,建立信息數(shù)據(jù)標(biāo)準完善對這些數(shù)據(jù)的解釋、定義,形成企業(yè)范圍內(nèi)一致、統(tǒng)一的數(shù)據(jù)定義,并可以對這些數(shù)據(jù)來源、運作情況、變遷等進行跟蹤分析。
四、元數(shù)據(jù)管理方式
元數(shù)據(jù)管理有兩種方式。分布式管理和集中式管理。
分布式管理是指將元數(shù)據(jù)存放在系統(tǒng)的任意節(jié)點并且能動態(tài)的遷移。分布式元數(shù)據(jù)管理的好處是解決了集中式管理的單一失效點問題,而且性能不會隨著操作頻繁而出現(xiàn)瓶頸。其缺點是,實現(xiàn)復(fù)雜,一致性維護復(fù)雜,對性能有一定影響。
集中式管理是指在系統(tǒng)中有一個節(jié)點專門司職元數(shù)據(jù)管理,所有元數(shù)據(jù)都存儲在該節(jié)點的存儲設(shè)備上。所有客戶端對文件的請求前,都要先對該元數(shù)據(jù)管理器請求元數(shù)據(jù)。對元數(shù)據(jù)管理的職責(zé)也分布到各個不同的節(jié)點上。大多數(shù)集群文件系統(tǒng)都采用集中式的元數(shù)據(jù)管理。因為集中式管理實現(xiàn)簡單,一致性維護容易,在一定的操作頻繁度內(nèi)可以提供較滿意的性能。缺點是單一失效點問題,若該服務(wù)器失效,整個系統(tǒng)將無法正常工作。而且,當(dāng)對元數(shù)據(jù)的操作過于頻繁時,集中的元數(shù)據(jù)管理成為整個系統(tǒng)的性能。

五、關(guān)于億信華辰元數(shù)據(jù)管理平臺
億信華辰元數(shù)據(jù)管理平臺內(nèi)置多種采集適配器,支持多種存儲格式的元數(shù)據(jù)自動獲取,如:數(shù)據(jù)庫、報表工具、ETL工具、文件系統(tǒng)等,同時無法完成自動獲取的元數(shù)據(jù),提供了可自定義的元數(shù)據(jù)采集模版完成元數(shù)據(jù)的批量導(dǎo)入。同時,億信華辰元數(shù)據(jù)管理平臺提供各類元數(shù)據(jù)管理,包括:業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù),支持元數(shù)據(jù)的基本信息、屬性、依賴關(guān)系、組合關(guān)系的增刪改查操作。最新元數(shù)據(jù)和定版元數(shù)據(jù)隔離,在最新元數(shù)據(jù)中的改動不影響定版元數(shù)據(jù)的正常使用,同時每次發(fā)布都有版本留痕,支持各版本的對比分析。
點擊查看更多關(guān)于元數(shù)據(jù)管理內(nèi)容:
企業(yè)如何選擇元數(shù)據(jù)管理工具
如何理解元數(shù)據(jù)管理
數(shù)據(jù)治理的基礎(chǔ)領(lǐng)域