今天這篇文章將會詳細介紹描述數(shù)據(jù)的數(shù)據(jù):元數(shù)據(jù),并給出具體的落地實施方案。
一、元數(shù)據(jù)是什么

1、定義:
描述數(shù)據(jù)的數(shù)據(jù),本質(zhì)上還是數(shù)據(jù)。
2、解讀:
數(shù)據(jù)本身帶有的技術(shù)屬性與其在業(yè)務(wù)運行中的業(yè)務(wù)屬性,我們稱其為元數(shù)據(jù),例如:表數(shù)據(jù)量、占用空間、字段信息、業(yè)務(wù)描述、負責(zé)人、優(yōu)先級等。
3、作用:

元數(shù)據(jù)通過全局統(tǒng)一的數(shù)據(jù)描述信息及系統(tǒng)化管理,統(tǒng)一數(shù)據(jù)標準,促進數(shù)據(jù)集成和共享,打通企業(yè)內(nèi)部數(shù)據(jù)孤島,提升數(shù)據(jù)管理和應(yīng)用效率。
二、元數(shù)據(jù)的組成
元數(shù)據(jù)的邊界范圍及其劃分方式,尚未有統(tǒng)一標準。
以下內(nèi)容僅代表目前我方團隊總結(jié)的最佳實踐,求同存異,歡迎討論。
目前常見元數(shù)據(jù)分類包括:技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)、操作元數(shù)據(jù)、管理元數(shù)據(jù)、行為元數(shù)據(jù)、運營元數(shù)據(jù)、服務(wù)元數(shù)據(jù)。每個分類下面還有繁多的屬性,但是究其本質(zhì),我們可以將元數(shù)據(jù)根據(jù)屬性來源劃分為兩類:
1、數(shù)據(jù)本身的特定屬性,為技術(shù)元數(shù)據(jù)。
2、業(yè)務(wù)賦予的可變屬性,為業(yè)務(wù)元數(shù)據(jù)。
1、技術(shù)元數(shù)據(jù)
不可手動編輯,自動獲取
主要服務(wù)于開發(fā)人員,幫助明確數(shù)據(jù)存儲、結(jié)構(gòu)、權(quán)限等信息,為數(shù)據(jù)開發(fā)和系統(tǒng)集成奠定基礎(chǔ)。
服務(wù)于業(yè)務(wù)人員,通過數(shù)據(jù)血緣理清數(shù)據(jù)關(guān)系,定位業(yè)務(wù)流程,輔助業(yè)務(wù)開展。
技術(shù)屬性主要包括以下幾類信息:
1)基礎(chǔ)信息
表的schema信息以及字段信息等,包含以下字段:庫名稱、庫類型、表名稱、表數(shù)量、表注釋、表分區(qū)字段、表分區(qū)數(shù)量、字段名稱、字段類型、字段長度、字段注釋、字段默認值、主鍵信息、外鍵信息、索引信息等。
2)存儲信息
本地存儲中的文件信息,包含以下字段:
文件路徑、文件數(shù)量、文件大小、文件類型,壓縮格式等。
3)調(diào)度信息
離線與實時任務(wù)中的信息,包含以下字段:
任務(wù)名稱、任務(wù)類型、任務(wù)路徑、調(diào)度時間、調(diào)度SQL、調(diào)度邏輯等。
4)血緣信息
數(shù)據(jù)加工、流轉(zhuǎn)過程產(chǎn)生的數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,包含以下內(nèi)容:
數(shù)據(jù)節(jié)點、流出節(jié)點、中間節(jié)點、流入節(jié)點、節(jié)點屬性等。
2、業(yè)務(wù)元數(shù)據(jù)
業(yè)務(wù)賦予,手動登記
通過明確業(yè)務(wù)屬性,統(tǒng)一數(shù)據(jù)的業(yè)務(wù)含義,保持團隊認知一致,進而為數(shù)據(jù)分析和應(yīng)用更好的提供支撐。
業(yè)務(wù)元數(shù)據(jù)包括以下幾類信息:
1)業(yè)務(wù)信息業(yè)務(wù)描述、業(yè)務(wù)部門、業(yè)務(wù)系統(tǒng)、負責(zé)人等。
2)標準化信息
用于統(tǒng)一認知,消除歧義,包含以下字段:
指標名稱、指標層級、指標口徑、維度信息、計算方式、映射信息、轉(zhuǎn)換規(guī)則等。
3)數(shù)據(jù)質(zhì)量信息針對當前數(shù)據(jù)進行的質(zhì)量監(jiān)控內(nèi)容,包含以下字段:質(zhì)量監(jiān)控名稱、監(jiān)控內(nèi)容、監(jiān)控級別、監(jiān)控規(guī)則、告警方式等。
4)權(quán)限信息
訪問權(quán)限、角色權(quán)限、用戶權(quán)限、安全等級等。
5)服務(wù)信息 當前數(shù)據(jù)對外提供服務(wù)的方式,包含以下字段:服務(wù)方式(接口、報表、sdk等)、服務(wù)內(nèi)容、接口信息、負責(zé)人等
我方團隊并不認可將數(shù)據(jù)變更記錄、任務(wù)執(zhí)行日志等納入元數(shù)據(jù)的范圍。
元數(shù)據(jù)只應(yīng)包含屬性信息,不包含行為記錄。
三、我們?yōu)槭裁葱枰獢?shù)據(jù) 
1、數(shù)據(jù)定位模糊,理解困難
數(shù)據(jù)開發(fā)過程中,我們常常會迷失在底層海量數(shù)據(jù)中,無法快速定位目前所需數(shù)據(jù)。
定位到數(shù)據(jù)后,還需花費大量時間理解當前數(shù)據(jù),理解渠道包括但不限于:詢問同事、查看數(shù)據(jù)詳情、查詢數(shù)據(jù)權(quán)限、查看底層存儲、定位影響分析等。
綜上所述,在使用數(shù)據(jù)時,我們往往需要花費大量時間去定位并理解當前數(shù)據(jù)。
2、數(shù)據(jù)管理能力低下
數(shù)據(jù)管理能力是企業(yè)實現(xiàn)數(shù)據(jù)資產(chǎn)化的重要前提。業(yè)務(wù)快速發(fā)展,數(shù)據(jù)量成指數(shù)級遞增。與此同時卻沒有一個有效的管理手段,數(shù)據(jù)散落在各地,存儲成本與使用成本上升,導(dǎo)致企業(yè)數(shù)字化轉(zhuǎn)型、數(shù)據(jù)化運營無法順利開展。
3、數(shù)據(jù)孤島,各自為戰(zhàn),標準不一數(shù)據(jù)部門的職責(zé)之一是匯集各方數(shù)據(jù),進行集中管理。在此過程會發(fā)現(xiàn)各來源方的數(shù)據(jù)標準不一,規(guī)則混亂,且存在重復(fù)建設(shè)。部門間互相割裂,都有對數(shù)據(jù)獨到的理解與使用,此時數(shù)據(jù)孤島便產(chǎn)生了。出現(xiàn)此情況的原因在于部門間各自為戰(zhàn),缺少統(tǒng)一的元數(shù)據(jù)管理對數(shù)據(jù)標準,業(yè)務(wù)含義等進行同步,從而統(tǒng)一認知,避免數(shù)據(jù)孤島的出現(xiàn)。數(shù)據(jù)孤島也稱為數(shù)據(jù)煙囪,可無論是“煙囪”還是“孤島”,總要有“破局”的時候。
4、集成度低,東奔西跑
開發(fā)過程中,我們需要切換各個開發(fā)工具之間進行數(shù)據(jù)查看與操作。例如通過數(shù)據(jù)庫工具提交SQL操作,通過AirFlow進行任務(wù)調(diào)度,通過Kafka進行管道操作等。
在多個開發(fā)工具中定位與操作數(shù)據(jù),過程較為繁瑣。如果能夠打通多個平臺,將信息集中展示并且統(tǒng)一操作入口,可以使開發(fā)更高效。
5、數(shù)據(jù)依賴混亂大數(shù)據(jù)開發(fā)作為數(shù)據(jù)匯集與數(shù)據(jù)服務(wù)提供方,龐大的數(shù)據(jù)與混亂的數(shù)據(jù)依賴導(dǎo)致管理成本與使用成本飆升。

6、
數(shù)據(jù)治理推動困難

數(shù)據(jù)治理工作涉及范圍較廣,且是一個持續(xù)不斷的過程。需要多部門,全流程打通。而數(shù)據(jù)治理的開展,操作,過程把控,結(jié)果驗證,需要一個統(tǒng)一的元數(shù)據(jù)管理平臺進行輔助。
四、元數(shù)據(jù)可以做什么?
1、快速定位,理解數(shù)據(jù)
通過全文檢索以及分類篩選,快速定位目前所需數(shù)據(jù),并根據(jù)已有元數(shù)據(jù)信息進行理解。2、數(shù)據(jù)血緣,流程定位,追蹤溯源
數(shù)據(jù)血緣是在數(shù)據(jù)的加工、流轉(zhuǎn)過程產(chǎn)生的數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系。通過構(gòu)建數(shù)據(jù)血緣,進行數(shù)據(jù)關(guān)系探查,用于跟蹤數(shù)據(jù)流經(jīng)路徑,追蹤溯源。
3、統(tǒng)一管理,賦能業(yè)務(wù)
通過元數(shù)據(jù)管理平臺可以對數(shù)據(jù)進行為之有效的管理,賦能與數(shù)據(jù)開發(fā)與業(yè)務(wù)使用,加速企業(yè)數(shù)字化轉(zhuǎn)型。
4、打通孤島,對齊認知,統(tǒng)一標準
梳理并登記各業(yè)務(wù)部門的元數(shù)據(jù)信息,并進行同步。快速對齊各部門的數(shù)據(jù)認知,統(tǒng)一標準,消除歧義。避免數(shù)據(jù)重復(fù)建設(shè)的情況。
5、數(shù)據(jù)集成,快速開發(fā)
打通各類開發(fā)組件,并且通過元數(shù)據(jù)管理平臺,以數(shù)據(jù)視角觸發(fā)各種操作,例如表級調(diào)度,權(quán)限修改,schema信息修改,提交SQL任務(wù)等。
6、推動數(shù)據(jù)治理
通過元數(shù)據(jù)管理平臺,串聯(lián)數(shù)據(jù)鏈路中的開發(fā)人員、管理人員和業(yè)務(wù)人員,打通多部門,全流程。推動開展數(shù)據(jù)治理、把控過程、結(jié)果驗證。
五、元數(shù)據(jù)管理落地方式
目前業(yè)內(nèi)常見的元數(shù)據(jù)管理落地方式,主要有以下三種:
1、采用開源系統(tǒng):
Metacat、Datahub、Atlas等

采用開源系統(tǒng)最大的優(yōu)點是投入成本較低,但是缺點主要包括 :
1、適配性較差,開源方案無法完全匹配公司現(xiàn)有痛點。
2、二開成本高,需要根據(jù)開源版本進行定制化開發(fā)。
2、廠商收費平臺:
esensoft,DataPipeline等

此類數(shù)據(jù)平臺中會內(nèi)置元數(shù)據(jù)管理系統(tǒng),功能較為全面,使用方便。但是同樣也有以下缺點:
1、貴
2、需要ALL IN平臺,為保障數(shù)據(jù)血緣的使用,數(shù)據(jù)業(yè)務(wù)需要全部遷移到廠商平臺中。
3、自建
通過設(shè)計元模型、構(gòu)建采集器、后端、前端自建元數(shù)據(jù)管理系統(tǒng),此方案開發(fā)投入較大,但是有以下優(yōu)點 :
1、因地制宜,可根據(jù)核心痛點定制化開發(fā)元數(shù)據(jù)及數(shù)據(jù)血緣系統(tǒng)。
2、技術(shù)積累,對于開發(fā)人員來說,從0-1開發(fā)數(shù)據(jù)血緣系統(tǒng),可以更深刻的理解數(shù)據(jù)業(yè)務(wù)。
3、平臺解耦,獨立于數(shù)據(jù)平臺之外,數(shù)據(jù)血緣的開發(fā)不會對正常業(yè)務(wù)造成影響。
接下來我們講講如何自建元數(shù)據(jù)管理系統(tǒng)與落地實施。
六、元數(shù)據(jù)管理落地實施
0、挖掘痛點,推動實施
為什么要把挖掘痛點,推動實施這步放在首位,且步驟序號為0呢?
首先很多公司因為數(shù)據(jù)量少,團隊規(guī)模小,沒有體會到數(shù)據(jù)管理混亂帶來的困擾,也就沒有元數(shù)據(jù)管理的建設(shè)需求。其次因為公司沒有元數(shù)據(jù)建設(shè)經(jīng)驗,上級部門不重視等原因所以也無法進行元數(shù)據(jù)的落地實施。所以在元數(shù)據(jù)管理的建設(shè)之前,一定要深度挖掘當前數(shù)據(jù)開發(fā)與業(yè)務(wù)推進中的數(shù)據(jù)管理痛點,并且通過自身的專業(yè)能力推廣元數(shù)據(jù)管理的優(yōu)勢,進而推動落地實施。此步驟序號為0,意思就是我們自身能夠意識到元數(shù)據(jù)管理的重要性還遠遠不足,在實施層面還要引起上級重視,推動部門協(xié)作,切記不可閉門造車。
1、明確需求,確定邊界
進行元數(shù)據(jù)管理系統(tǒng)構(gòu)建之前,需要進行需求調(diào)研,明確系統(tǒng)主要功能,從而確定元數(shù)據(jù)模型的最細粒度,元數(shù)據(jù)采集的邊界范圍,系統(tǒng)的應(yīng)用方式等。根據(jù)本文第二章?元數(shù)據(jù)的組成 可以得出,元數(shù)據(jù)中屬性信息眾多,在開發(fā)時如果將所有屬性信息都進行獲取且登記,一方面開發(fā)成本較大,其次實施過程也較為繁瑣。所以前期需要明確需求,確定系統(tǒng)主要功能以及元數(shù)據(jù)采集的邊界,后續(xù)才可以根據(jù)業(yè)務(wù)痛點給出更加準確的解決方案,提高ROI(投入產(chǎn)出比)。
以我方團隊為例,在系統(tǒng)設(shè)計階段,我們在收集了目前痛點以及梳理現(xiàn)有系統(tǒng)以及組件后,明確了系統(tǒng)初期建設(shè)時的三個核心業(yè)務(wù):
數(shù)據(jù)定位、展示、快速理解。 數(shù)據(jù)血緣,流程定位,追蹤溯源 數(shù)據(jù)集成,快速開發(fā)
所以在初期開發(fā)時,我方團隊可以只針對以上業(yè)務(wù)進行元數(shù)據(jù)信息的采集與登記,后續(xù)根據(jù)迭代需求進行擴展。
2、元數(shù)據(jù)建模元數(shù)據(jù)本質(zhì)上也是數(shù)據(jù),開發(fā)時需要對其進行數(shù)據(jù)建模。元數(shù)據(jù)模型我們稱其為
元模型。一個統(tǒng)一的元模型可以規(guī)范元數(shù)據(jù)的范圍邊界,統(tǒng)一元數(shù)據(jù)格式與存儲方式。
目前數(shù)據(jù)領(lǐng)域存在多種類型的數(shù)據(jù)庫系統(tǒng),例如:
關(guān)系型數(shù)據(jù)庫:Mysql、Oracle
MapReduce數(shù)據(jù)庫:Hive
鍵-值模型數(shù)據(jù)庫:redis、Memcached
列族模型數(shù)據(jù)庫:Hbase
文檔模型數(shù)據(jù)庫:MongoDB
圖模型數(shù)據(jù)庫:Neo4j、Nebula
搜索引擎:Elasticsearch、Solr
MPP數(shù)據(jù)庫:Greenplum、Doris
各類數(shù)據(jù)庫都有其獨特的存儲模型與適用場景,但在元數(shù)據(jù)層面,所有數(shù)據(jù)都需要統(tǒng)一的元模型,無論數(shù)據(jù)庫是關(guān)系型的,還是非關(guān)系型的。在元數(shù)據(jù)層面它們都代表一個個數(shù)據(jù)實體。元數(shù)據(jù)建模一般采用
E-R模型,將元數(shù)據(jù)抽象為
"實體"(Entity)、"屬性"(Property)、"關(guān)系"(Relationship)
來表示元數(shù)據(jù)各屬性以及不同層級之間的關(guān)系。元數(shù)據(jù)信息的保存采用結(jié)構(gòu)化數(shù)據(jù)庫即可,目前我方團隊采用Mysql保存元數(shù)據(jù)信息。
數(shù)據(jù)血緣信息采用Neo4j圖數(shù)據(jù)庫存儲。
3、元數(shù)據(jù)采集
此處我認為是元數(shù)據(jù)管理系統(tǒng)的開發(fā)難點,也是最難推進的。
首先我們需要打通各數(shù)據(jù)組件采集技術(shù)元數(shù)據(jù),這是技術(shù)難點。
其次我們需要數(shù)據(jù)開發(fā)與使用人員配合進行業(yè)務(wù)元數(shù)據(jù)的登記,這是管理難點。
1) 自動化采集【技術(shù)元數(shù)據(jù)】
如果想要真正做一個數(shù)據(jù)集成度高的元數(shù)據(jù)管理系統(tǒng),在目前大數(shù)據(jù)繁多的組件下,我們需要打通的組件包括但不限于:
中間件:Kafka、RabbitMq、RockitMq等
數(shù)據(jù)庫:Hive、Kudu、Hbase、Mysql、Doris、Greenplum、ElasticSearch、PostgreSQL等、
調(diào)度系統(tǒng):DolphinScheduler、AirFlow、Oozie等、
底層存儲:HDFS、AWS S3 等
計算引擎:Flink、Spark、Impala等
BI報表:Tableau、Superset等

目前我方團隊已打通組件列表如下:
通過JDBC打通Impala獲取Hive與Kudu的庫表基礎(chǔ)信息
通過文件方式打通Tableau獲取中所有報表以及自定義SQL信息
通過SDK方式打通HDFS獲取存儲信息
通過API方式打通DolphinScheduler獲取當前表的調(diào)度信息以及抽取SQL
通過SDK方式打通Kafka獲取當前表的來源Topic相關(guān)信息
通過API方式獲取Spark任務(wù)的執(zhí)行信息和狀態(tài)
2) 手動登記【業(yè)務(wù)元數(shù)據(jù)】
由于企業(yè)缺乏統(tǒng)一的數(shù)據(jù)標準,數(shù)據(jù)孤島現(xiàn)象明顯,所以即使采集到技術(shù)元數(shù)據(jù),也只是方便開發(fā)人員進行開發(fā)與運維,無法做到真正的統(tǒng)一管理。
此時需要采用人工方式對現(xiàn)有數(shù)據(jù)進行梳理并登記業(yè)務(wù)元數(shù)據(jù),以實現(xiàn)統(tǒng)一管理。但是在登記過程中,往往會出現(xiàn)很多問題,例如數(shù)據(jù)標準不一致、業(yè)務(wù)含義不清晰、相關(guān)人員不配合等情況,上述問題主要由于企業(yè)忽視數(shù)據(jù)管理所導(dǎo)致。
所以在元數(shù)據(jù)管理落地之前,我們就需要挖掘目前數(shù)據(jù)管理的痛點,并且在公司內(nèi)部推動元數(shù)據(jù)管理的落地實施,這樣才能更好的推動數(shù)據(jù)的梳理與登記。
4、構(gòu)建數(shù)據(jù)血緣
數(shù)據(jù)血緣構(gòu)建詳情,參考以下文章:
【實戰(zhàn)講解】數(shù)據(jù)血緣落地實施

5、管理系統(tǒng)開發(fā)
元數(shù)據(jù)管理系統(tǒng)的功能應(yīng)包括但不限于以下幾點:
元數(shù)據(jù)概覽:展示當前系統(tǒng)納管的元數(shù)據(jù)概覽,可以從元數(shù)據(jù)來源組件或項目類別查看。
元數(shù)據(jù)檢索:通過全文檢索以及分類篩選的方式,快速定位目前所需的元數(shù)據(jù)信息。
元數(shù)據(jù)詳情展示:展示當前元數(shù)據(jù)詳情信息,包括技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù)。
元數(shù)據(jù)編輯:用于登記業(yè)務(wù)元數(shù)據(jù),并進行更新修改。
數(shù)據(jù)血緣展示操作:用于前端展示數(shù)據(jù)血緣信息,并點選操作。
元數(shù)據(jù)采集管理:用于管理元數(shù)據(jù)采集的組件連接信息?
6、元數(shù)據(jù)驅(qū)動
我們團隊目前落地元數(shù)據(jù)管理后,帶來的改進有以下幾點:
1) 數(shù)據(jù)集成開發(fā)
通過元數(shù)據(jù)打通調(diào)度系統(tǒng)、中間件、數(shù)據(jù)庫操作等,實現(xiàn)數(shù)據(jù)的集成式開發(fā),提高開發(fā)效率。
2) 元數(shù)據(jù)查詢、定位、展示
通過元數(shù)據(jù)管理系統(tǒng)定位數(shù)據(jù)并展示,大大提升數(shù)據(jù)共享能力,數(shù)據(jù)部門人來人往的現(xiàn)狀得到改善,咨詢數(shù)據(jù)的消息也大幅減少。
3) 推動數(shù)據(jù)與業(yè)務(wù)梳理
建設(shè)元數(shù)據(jù)的過程中,通過推動各部門間進行數(shù)據(jù)梳理,將原先混亂的數(shù)據(jù)及業(yè)務(wù)進行整體排查,減少冗余數(shù)據(jù),明確業(yè)務(wù)邏輯。
4) 輔助數(shù)據(jù)運維
通過對技術(shù)元數(shù)據(jù)中的數(shù)據(jù)總量進行排序篩選,對數(shù)據(jù)量極少的表進行下架整改,對數(shù)據(jù)量極多的表進行邏輯優(yōu)化。
通過對技術(shù)元數(shù)據(jù)中的表文件數(shù)量進行排序,對文件數(shù)量極多的數(shù)據(jù)表進行小文件合并。
通過對技術(shù)元數(shù)據(jù)中的表文件大小進行排序,對占用空間極多的表開啟壓縮。
5) 規(guī)范數(shù)據(jù)開發(fā)
公司內(nèi)部的開發(fā)規(guī)范例如庫表、字段的命名規(guī)范,字段類型規(guī)范等。
可以通過元數(shù)據(jù)對目前已有信息進行標準化校驗,用于規(guī)范數(shù)據(jù)開發(fā)。
6) 梳理數(shù)據(jù)依賴關(guān)系
通過數(shù)據(jù)血緣梳理數(shù)據(jù)依賴關(guān)系,流程定位,追蹤溯源。
7) 成果匯報、工作量統(tǒng)計
通過元數(shù)據(jù)信息的增減以及構(gòu)建可視化展示頁面,可以快速展示當前數(shù)據(jù)開發(fā)團隊的成果,統(tǒng)計工作量等。
七、元數(shù)據(jù)評價標準
在推動元數(shù)據(jù)管理落地過程中,經(jīng)常會有用戶詢問:元數(shù)據(jù)模型質(zhì)量如何?采集信息是否全面?能否解決他們的痛點?做出來是否好用?
于是我也在思考,市面上元數(shù)據(jù)管理系統(tǒng)那么多,我們自建的核心優(yōu)勢在哪里,元數(shù)據(jù)的優(yōu)劣從哪些層次進行評價,于是我方團隊量化出了以下三個元數(shù)據(jù)評價的技術(shù)指標:
以下指標關(guān)注元數(shù)據(jù),對于其管理系統(tǒng)的穩(wěn)定性,易用性等不進行關(guān)注。
1、準確率
定義: 假設(shè)一張表實際的數(shù)據(jù)屬性與元數(shù)據(jù)中采集的數(shù)據(jù)屬性相符,既不缺失也不多余,屬性值一致無誤,則認為這個表的元數(shù)據(jù)是準確的,元數(shù)據(jù)準確的數(shù)據(jù)量占全部元數(shù)據(jù)量的比例即為元數(shù)據(jù)準確率。
準確率是元數(shù)據(jù)中最核心的指標,元數(shù)據(jù)的屬性缺失或異常可能會造成數(shù)據(jù)不一致,從而導(dǎo)致業(yè)務(wù)開展順利進行,嚴重則會導(dǎo)致生產(chǎn)故障。
我們在實踐中通過兩種途徑,盡早發(fā)現(xiàn)有問題的血緣節(jié)點:
人工校驗: 通過構(gòu)造測試用例來驗證其他系統(tǒng)一樣,元數(shù)據(jù)的準確性問題也可以通過構(gòu)造用例來驗證。實際操作時,我們會從線上運行的任務(wù)中采樣出一部分元數(shù)據(jù),人工校驗是否正確。
用戶反饋: 全量元數(shù)據(jù)的準確性驗證是個漫長的過程,但是具體到某個用戶的某個業(yè)務(wù)場景,問題就簡化多了。實際操作中,我們會與一些業(yè)務(wù)方深入的合作,一起校驗元數(shù)據(jù)準確性,并修復(fù)問題。
2、覆蓋率
定義: 當有數(shù)據(jù)資產(chǎn)采集至元數(shù)據(jù)中時,則代表元數(shù)據(jù)覆蓋了當前數(shù)據(jù)資產(chǎn)。被元數(shù)據(jù)覆蓋到的數(shù)據(jù)資產(chǎn)占所有數(shù)據(jù)資產(chǎn)的比例即為元數(shù)據(jù)覆蓋率。
元數(shù)據(jù)覆蓋率是比較粗粒度的指標。作為準確率的補充,用戶通過覆蓋率可以知道當前已經(jīng)支持的數(shù)據(jù)資產(chǎn)類型,以及每種覆蓋的范圍。
在內(nèi)部,我們定義覆蓋率指標的目的有兩個,一是我方比較關(guān)注的數(shù)據(jù)資產(chǎn)集合,二是尋找當前業(yè)務(wù)流程中尚未覆蓋的數(shù)據(jù)資產(chǎn)集合,以便于后續(xù)優(yōu)化。
當血緣覆蓋率低時,元數(shù)據(jù)管理的應(yīng)用范圍一定是不全面的,通過關(guān)注元數(shù)據(jù)覆蓋率,我們可以知曉元數(shù)據(jù)管理的落地進度,推進有序落地。
3、時效性定義: 從數(shù)據(jù)資產(chǎn)新增和任務(wù)發(fā)生修改的時間節(jié)點,到最終新增或變更的血緣關(guān)系錄入到血緣系統(tǒng)的端到端延時。對于一些用戶場景來說,血緣的時效性并沒有特別重要,屬于加分項,但是有一些場景是強依賴。不同任務(wù)類型的時效性會有差異。例如:故障影響范圍告警以及恢復(fù),是對血緣實時性要求很高的場景之一。如果血緣系統(tǒng)只能定時更新T-1的狀態(tài),可能會導(dǎo)致嚴重業(yè)務(wù)事故。提升時效性的瓶頸,需要業(yè)務(wù)系統(tǒng)可以近實時的將任務(wù)相關(guān)的修改,以通知形式發(fā)送出來,并由血緣系統(tǒng)進行更新。
八、雜談?
1、元數(shù)據(jù)為何越來越火
從百度指數(shù)可以看到,元數(shù)據(jù)管理的關(guān)鍵詞近年來呈逐級上升的態(tài)勢,且從857數(shù)據(jù)社區(qū)內(nèi)的討論中,元數(shù)據(jù)出現(xiàn)的頻率與討論熱度也在眾多數(shù)據(jù)話題中名列前茅。我也在思考為何元數(shù)據(jù)在近幾年越來越火,且各大廠商都在積極推進落地。我的看法是:目前大數(shù)據(jù)行業(yè)的發(fā)展已進入到成熟階段,數(shù)據(jù)平臺成熟度、大數(shù)據(jù)開源組件數(shù)量、從業(yè)人員水平相比從前均有較大提升。同時由于海量數(shù)據(jù)的增長,企業(yè)應(yīng)用數(shù)據(jù)能力的痛點凸顯,數(shù)據(jù)管理能力低下,無法對目前已有的數(shù)據(jù)資源進行充分利用。在此背景下,元數(shù)據(jù)由于其出色的數(shù)據(jù)洞察能力與數(shù)據(jù)管理能力,被越來越多的企業(yè)重視。本篇文章目的就是幫助企業(yè)數(shù)據(jù)從業(yè)者理清元數(shù)據(jù)的來龍去脈,給出落地實施方案,從而推進數(shù)據(jù)行業(yè)更好更快發(fā)展。
2、元數(shù)據(jù)和主數(shù)據(jù)的區(qū)別元數(shù)據(jù)
元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),主要為數(shù)據(jù)的技術(shù)屬性以及業(yè)務(wù)屬性。
主數(shù)據(jù)
主數(shù)據(jù)指的是企業(yè)核心業(yè)務(wù)對象,且在企業(yè)系統(tǒng)內(nèi)部共享。從維度建模的角度來看,主數(shù)據(jù)一般存在企業(yè)的一致性維度表中,例如客戶維度表、商品維度表、地區(qū)維度表等。主數(shù)據(jù)具有4個主要特征:唯一性、有效性、穩(wěn)定性、共享性。區(qū)別與聯(lián)系
主數(shù)據(jù)其實就是維度數(shù)據(jù)
元數(shù)據(jù)可以用來管理主數(shù)據(jù)
3、對于數(shù)據(jù)從業(yè)者的建議
個人認為,元數(shù)據(jù)后續(xù)的發(fā)展與行業(yè)占比會呈現(xiàn)穩(wěn)步上升趨勢對于數(shù)據(jù)從業(yè)者來說,我們需要跳脫出開發(fā)者的視角,從全局角度去審視數(shù)據(jù)的發(fā)展,所以掌握元數(shù)據(jù)必不可少。我也希望通過這篇文章,幫助更多數(shù)據(jù)從業(yè)者掌握元數(shù)據(jù)技能,從而提升自身的數(shù)據(jù)管理能力,應(yīng)用能力,業(yè)務(wù)理解能力以及開發(fā)能力。
4、這篇文章的構(gòu)建歷程
起初是因為在建設(shè)數(shù)倉過程中,遇到數(shù)據(jù)管理的痛點,導(dǎo)致數(shù)倉推進效率降低,同時團隊leader也想通過元數(shù)據(jù)管理加速公司的數(shù)字化轉(zhuǎn)型,提高精細運營能力。其次是因為857社區(qū)內(nèi)部,也希望奇峰出一篇元數(shù)據(jù)的講解文章,目的是為了更好的和面試官battle(多么單純的目的啊)同時上月發(fā)布的數(shù)據(jù)血緣文章在行業(yè)獲得了一致好評,奇峰在文章中也承諾一周內(nèi)更新《元數(shù)據(jù)管理落地實施》,沒想到一拖就是20天,在大家的催更與自我驅(qū)動下,還是勉強完成了此篇文章。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)