元數(shù)據(jù)作為“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,蘊(yùn)含了大量企業(yè)的知識(shí),元數(shù)據(jù)管理的真實(shí)目的也是企業(yè)知識(shí)的管理,希望關(guān)于組織數(shù)據(jù)的方方面面信息都能集中保持和展示在一個(gè)平臺(tái)上,方便大家一致地了解和使用這些信息。
傳統(tǒng)的元數(shù)據(jù)收集依靠人工收集,元數(shù)據(jù)的完整性和準(zhǔn)確性一致是一個(gè)難題,設(shè)計(jì)態(tài)和實(shí)現(xiàn)態(tài)不一致,導(dǎo)致元數(shù)據(jù)平臺(tái)價(jià)值不高。“主動(dòng)”的元數(shù)據(jù)平臺(tái),通過元數(shù)據(jù)的自動(dòng)采集確保用戶看到的都是實(shí)現(xiàn)態(tài)的最準(zhǔn)確的元數(shù)據(jù)。當(dāng)然“主動(dòng)的”元數(shù)據(jù)平臺(tái)不僅僅是自動(dòng)采集元數(shù)據(jù)。本文總結(jié)“主動(dòng)”的元數(shù)據(jù)平臺(tái)應(yīng)具有五大特點(diǎn),對(duì)元數(shù)據(jù)管理平臺(tái)選型很有指導(dǎo)意義:
元數(shù)據(jù)湖
可編程智能機(jī)器人
嵌入式協(xié)作插件
數(shù)據(jù)流程自動(dòng)化
反向元數(shù)據(jù)
--------以下正文--------
主動(dòng)元數(shù)據(jù)平臺(tái)的剖析
主動(dòng)元數(shù)據(jù)是Gartner提及的最新類別分類,它也是當(dāng)今增強(qiáng)數(shù)據(jù)目錄的一次變革性飛躍。
Gartner取消了元數(shù)據(jù)管理解決方案魔力象限,取而代之的是主動(dòng)元數(shù)據(jù)市場(chǎng)指南,這一改變對(duì)元數(shù)據(jù)管理產(chǎn)生了巨大的影響。這會(huì)有什么不同嗎?由于這一變化,Gartner 將主動(dòng)元數(shù)據(jù)作為未來的一個(gè)新方向類別。
與出現(xiàn)在數(shù)據(jù)生態(tài)系統(tǒng)中的任何新類別一樣,這一通告伴隨著大量的支持聲、一些善意的懷疑聲以及大量的問題。
主動(dòng)元數(shù)據(jù)的準(zhǔn)確描述是什么?
主動(dòng)元數(shù)據(jù)與我們以前見過的增強(qiáng)數(shù)據(jù)目錄以及其他技術(shù)有什么不同?
主動(dòng)元數(shù)據(jù)平臺(tái)看起來是什么樣的?
我之前寫過篇什么是主動(dòng)的元數(shù)據(jù)平臺(tái)及其關(guān)鍵特征的文章。今天,我想從這個(gè)抽象的討論中更進(jìn)一步,同時(shí)描繪出一個(gè)主動(dòng)元數(shù)據(jù)平臺(tái)的樣子,剖析關(guān)鍵的組成部分,并給出一些主動(dòng)元數(shù)據(jù)的實(shí)際使用案例。
主動(dòng)元數(shù)據(jù)平臺(tái)是什么樣子的?

一種主動(dòng)元數(shù)據(jù)平臺(tái)的架構(gòu)(圖片來自Atlan)
在我看來,主動(dòng)元數(shù)據(jù)平臺(tái)有5個(gè)關(guān)鍵組成部分:
元數(shù)據(jù)湖:一個(gè)統(tǒng)一的存儲(chǔ)庫(kù),以原始和處理過的格式存儲(chǔ)各種元數(shù)據(jù),構(gòu)建在開放的API之上并由知識(shí)圖譜進(jìn)行驅(qū)動(dòng)。
可編程智能機(jī)器人:一個(gè)允許團(tuán)隊(duì)創(chuàng)建可定制的機(jī)器學(xué)習(xí)或數(shù)據(jù)科學(xué)算法來驅(qū)動(dòng)智能化的框架。
嵌入式協(xié)作插件:由共享元數(shù)據(jù)層統(tǒng)一提供的一個(gè)集合,將數(shù)據(jù)工具與每個(gè)數(shù)據(jù)團(tuán)隊(duì)的日常工作流程無縫集成。
數(shù)據(jù)流程自動(dòng)化:一種通過模仿人類的決策過程來管理數(shù)據(jù)生態(tài)系統(tǒng)的方式,提供構(gòu)建、部署和管理工作流程自動(dòng)化機(jī)器人。
反向元數(shù)據(jù):相比于獨(dú)立的數(shù)據(jù)目錄,可以通過編排使相關(guān)的元數(shù)據(jù)隨時(shí)隨地提供給需要的最終用戶。
1. 元數(shù)據(jù)湖:單一的元數(shù)據(jù)中央存儲(chǔ)
幾個(gè)季度前,我寫過一篇關(guān)于元數(shù)據(jù)湖的概念的文章:一個(gè)統(tǒng)一的存儲(chǔ)庫(kù),以原始和深度處理的各類形式存儲(chǔ)各種各樣的元數(shù)據(jù),可用來指導(dǎo)我們已知的場(chǎng)景和未知的場(chǎng)景。
主動(dòng)元數(shù)據(jù)建立在主動(dòng)查找、豐富、清點(diǎn)和使用所有元數(shù)據(jù)的前提下,使傳統(tǒng)“被動(dòng)”技術(shù)變成真正的行動(dòng)導(dǎo)向。
元數(shù)據(jù)湖作為任何主動(dòng)元數(shù)據(jù)平臺(tái)的基石,有兩個(gè)關(guān)鍵特征:
開放式API和接口:元數(shù)據(jù)湖通過開放式API需要具備易于訪問能力,而不僅僅是作為一個(gè)數(shù)據(jù)存儲(chǔ)。這使得在現(xiàn)代數(shù)據(jù)堆棧的每個(gè)階段都可以非常容易地利用單個(gè)元數(shù)據(jù)存儲(chǔ)來驅(qū)動(dòng)各種場(chǎng)景,例如發(fā)現(xiàn)、可觀察性和血緣關(guān)系。
由知識(shí)圖譜提供動(dòng)力:當(dāng)數(shù)據(jù)資產(chǎn)之間的所有連接都活躍起來時(shí),元數(shù)據(jù)的真正潛力就會(huì)被釋放。知識(shí)圖譜架構(gòu)是最有希望使元數(shù)據(jù)連接變得生動(dòng)的候選者--它已經(jīng)為世界上大型的互聯(lián)網(wǎng)公司提供助力,如谷歌、Facebook和Uber。
2. 可編程智能機(jī)器人
我們正在快速接近一個(gè)元數(shù)據(jù)本身正在成為大數(shù)據(jù)的世界,理解這些元數(shù)據(jù)是創(chuàng)建現(xiàn)代數(shù)據(jù)管理生態(tài)系統(tǒng)的關(guān)鍵。
元數(shù)據(jù)智能有可能影響數(shù)據(jù)生命周期的各個(gè)方面。它可以通過解析SQL查詢?nèi)罩荆詣?dòng)創(chuàng)建列級(jí)別血緣。它可以自動(dòng)識(shí)別PII(個(gè)人識(shí)別信息)數(shù)據(jù)以保護(hù)個(gè)人信息。它可以通過自動(dòng)檢測(cè)數(shù)據(jù)異常值和異常,捕捉到我們之前捕捉到不良數(shù)據(jù)。在過去幾年中,元數(shù)據(jù)在這方面出現(xiàn)了一些創(chuàng)新,“增強(qiáng)型”數(shù)據(jù)目錄變得越來越流行。
然而,在所有的炒作中,我相信如何把智能應(yīng)用于數(shù)據(jù)管理,到目前為止,有一點(diǎn)是錯(cuò)誤的---任何事情上沒有銀彈。
每個(gè)公司都是獨(dú)一無二的。每個(gè)行業(yè)都是獨(dú)一無二的。每個(gè)團(tuán)隊(duì)的數(shù)據(jù)都是獨(dú)一無二的。
在最近與一位數(shù)據(jù)負(fù)責(zé)人的通話中,他檢討其數(shù)據(jù)質(zhì)量異常檢測(cè)的工具:“有時(shí),這個(gè)工具會(huì)向我們發(fā)送有效的關(guān)于架構(gòu)變化和質(zhì)量問題的告警。而有的時(shí)候,它無法進(jìn)行有效的告警,這真的讓我們的數(shù)據(jù)工程團(tuán)隊(duì)感到沮喪。”
我并不是怪罪這個(gè)工具。事實(shí)上,每個(gè)機(jī)器學(xué)習(xí)算法的輸出都是輸入的訓(xùn)練數(shù)據(jù)的函數(shù)。沒有任何一種算法能夠?qū)崿F(xiàn)神奇地創(chuàng)建上下文、識(shí)別異常并實(shí)現(xiàn)智能數(shù)據(jù)管理的愿望--并且在每個(gè)行業(yè)、每個(gè)公司和每個(gè)場(chǎng)景中100%地取得成功。雖然我希望有,但世上沒有銀彈。
這就是為什么我相信,主動(dòng)元數(shù)據(jù)平臺(tái)智能化的未來不是一個(gè)能神奇地解決我們所有問題的單一算法。相反,它是一個(gè)允許團(tuán)隊(duì)創(chuàng)建可編程的智能機(jī)器人框架,可以輕松地根據(jù)不同的上下文和場(chǎng)景進(jìn)行定制。
以下是可編程智能機(jī)器人的幾個(gè)例子:
隨著安全和合規(guī)性要求成為主流,公司將不得不遵循更多的規(guī)則--例如針對(duì)醫(yī)療保健數(shù)據(jù)的HIPAA和針對(duì)銀行業(yè)務(wù)的BCBS 239等行業(yè)特定規(guī)則,或歐洲GDPR和加利福尼亞CCPA等特定區(qū)域規(guī)則。機(jī)器人可根據(jù)每家公司的法規(guī)來識(shí)別和標(biāo)記敏感列。
對(duì)數(shù)據(jù)集有特定命名習(xí)慣的公司可以創(chuàng)建機(jī)器人并根據(jù)預(yù)設(shè)規(guī)則自動(dòng)組織、分類和標(biāo)記它的數(shù)據(jù)生態(tài)系統(tǒng)。
公司可以采用開箱即用的可觀察性和數(shù)據(jù)質(zhì)量算法,并根據(jù)他們的數(shù)據(jù)生態(tài)系統(tǒng)和場(chǎng)景進(jìn)行定制。
可編程智能的用例是無窮無盡的,我對(duì)未來的發(fā)展感到非常興奮!
3. 嵌入式協(xié)作插件
如今,數(shù)據(jù)團(tuán)隊(duì)比以往任何時(shí)候都更加多樣化。他們由數(shù)據(jù)工程師、分析師、分析工程師、數(shù)據(jù)科學(xué)家、產(chǎn)品經(jīng)理、業(yè)務(wù)分析師、公民數(shù)據(jù)科學(xué)家等組成。
這些多樣化的數(shù)據(jù)團(tuán)隊(duì)使用同樣多樣化的數(shù)據(jù)工具,從 SQL、Looker 和 Jupyter 到 Python、Tableau、dbt 和 R。添加大量的協(xié)作工具(如 Slack、JIRA 和電子郵件),這讓數(shù)據(jù)專業(yè)人士的生活成了一場(chǎng)噩夢(mèng)。
由于數(shù)據(jù)團(tuán)隊(duì)的基礎(chǔ)多樣性,數(shù)據(jù)工具需要被設(shè)計(jì)成與每個(gè)團(tuán)隊(duì)的日常工作流程無縫融合。
這正是嵌入式協(xié)作的想法變得活躍起來的原因。嵌入?yún)f(xié)作不是從一個(gè)工具跳到另一個(gè)工具,而是無論數(shù)據(jù)團(tuán)隊(duì)成員生活在什么地方,工作都能正常進(jìn)行并減少摩擦和上下文切換。

嵌入?yún)f(xié)作可能是什么樣子的(圖片來自Atlan)
以下是嵌入式協(xié)作的幾個(gè)例子:
如果你可以通過獲得鏈接時(shí)請(qǐng)求訪問數(shù)據(jù)資產(chǎn),就像谷歌文檔一樣,所有者可以在Slack上獲得請(qǐng)求,并立即批準(zhǔn)或拒絕它,那會(huì)怎么樣?
如果在檢查數(shù)據(jù)資產(chǎn)并需要報(bào)告問題時(shí),你可以觸發(fā)一個(gè)與工程團(tuán)隊(duì)的JIRA工作流程完美結(jié)合的支持請(qǐng)求,那會(huì)怎么樣?
主動(dòng)元數(shù)據(jù)平臺(tái)中的操作層將使嵌入式協(xié)作最終活躍起來。我將此層視為現(xiàn)代數(shù)據(jù)堆棧的Zapier--由共享元數(shù)據(jù)層統(tǒng)一,并允許團(tuán)隊(duì)為自己獨(dú)特的工作流程定制應(yīng)用程序。
4. 數(shù)據(jù)處理自動(dòng)化
幾年前,一種名為機(jī)器人過程自動(dòng)化(RPA)的新工具類別席卷了企業(yè)界。從UiPath來看,RPA是“一種軟件技術(shù),可以輕松構(gòu)建、部署和管理軟件機(jī)器人,模擬與數(shù)字系統(tǒng)和軟件交互的人類行為”。
隨著數(shù)據(jù)編織、數(shù)據(jù)網(wǎng)格和DataOps等概念成為我們思考數(shù)據(jù)平臺(tái)的主流方式,它們將引發(fā)對(duì)數(shù)據(jù)流程自動(dòng)化(DPA)的需求--這是一種使構(gòu)建、部署和管理工作流自動(dòng)化簡(jiǎn)單化的機(jī)器人,它將模擬人類決策過程或行動(dòng)來管理數(shù)據(jù)生態(tài)系統(tǒng)。
你是否曾因周一早上的儀表盤加載速度而感到沮喪?或者更糟糕的是,在月末被AWS的高額賬單嚇到?
有了主動(dòng)元數(shù)據(jù)平臺(tái),不難想象這兩種情況都不會(huì)再發(fā)生。一個(gè)真正的主動(dòng)元數(shù)據(jù)平臺(tái)可以向相鄰的數(shù)據(jù)管理工具推薦參數(shù)化指令,用于資源分配和作業(yè)管理等操作。
例如:通過利用各種來源的元數(shù)據(jù)--比如頂級(jí)BI儀表盤以及BI工具的峰值使用時(shí)間、數(shù)據(jù)管道工具的歷史數(shù)據(jù)管道運(yùn)行統(tǒng)計(jì)數(shù)據(jù),以及倉(cāng)庫(kù)的計(jì)算性能--你可以想象一個(gè)場(chǎng)景,在這個(gè)場(chǎng)景中,主動(dòng)元數(shù)據(jù)平臺(tái)不僅推薦用于擴(kuò)展Snowflake倉(cāng)庫(kù)的參數(shù),也會(huì)實(shí)際上利用DPA來分配倉(cāng)庫(kù)資源。
5. 反向元數(shù)據(jù)
我相信過去幾年最偉大的事情之一是真正的“現(xiàn)代數(shù)據(jù)棧”公司和創(chuàng)業(yè)者的崛起,他們相信驚人的用戶體驗(yàn)勝過一切。
雖然舊時(shí)代都是關(guān)于“價(jià)值捕獲”,但新一代創(chuàng)業(yè)者專注于“價(jià)值創(chuàng)造”-- 最終用戶體驗(yàn)是第一位的。現(xiàn)代數(shù)據(jù)棧公司越來越有興趣真正地相互合作,以整合其產(chǎn)品路線圖,創(chuàng)造更好的用戶體驗(yàn)。
主動(dòng)元數(shù)據(jù)是真正解鎖這些合作關(guān)系的關(guān)鍵,而我認(rèn)為“反向元數(shù)據(jù)”將改變游戲。
反向元數(shù)據(jù)可以讓最終用戶隨時(shí)隨地都能使用相關(guān)的元數(shù)據(jù),以幫助他們更好地完成工作。
例如:在Atlan,我們與Looker的反向元數(shù)據(jù)集成直接在Looker中顯示“上下文”(比如誰擁有儀表板、度量定義和文檔等等)。

Looker中的反向元數(shù)據(jù)?(GIF來自Atlan)
主動(dòng)元數(shù)據(jù)平臺(tái)可以幫助在現(xiàn)代數(shù)據(jù)堆棧中編排有用的元數(shù)據(jù),使堆棧中的所有各種工具更加有用--無需關(guān)注于每個(gè)工具之間的自定義集成。
總結(jié)
在我看來,Gartner報(bào)告中最具預(yù)言性的一句話是:“獨(dú)立的元數(shù)據(jù)管理平臺(tái)將從增強(qiáng)的數(shù)據(jù)目錄轉(zhuǎn)向元數(shù)據(jù)‘隨處可見’的編排平臺(tái)。”
我們對(duì)主動(dòng)元數(shù)據(jù)的研究才剛剛開始,我們共同努力找出它在當(dāng)今和未來的數(shù)據(jù)生態(tài)系統(tǒng)中可能扮演的角色。我希望這篇文章能給未來帶來一些啟示,讓它從抽象變成更真實(shí)的東西。?
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)