近日,有幸受邀參與全球Data Architect Summit 2022,?Data Fabric 和 Data Mesh作為當(dāng)前行業(yè)的熱點(diǎn),在會(huì)上引起了廣泛的討論。借此機(jī)會(huì)談?wù)剬?duì)這兩個(gè)熱門數(shù)據(jù)架構(gòu)的看法。
首先,從傳統(tǒng)Data Hub?(?中央強(qiáng)管控模式)到Data Fabric與Data Mesh這兩種新型數(shù)據(jù)架構(gòu)發(fā)生了哪些變革?
Data?Hub通過(guò)中央強(qiáng)管控schema-on-wirte,適用于大部分RDBMS為后臺(tái)的系統(tǒng)。
Data Fabric通過(guò)中央?yún)f(xié)作,對(duì)于采用NewSQL數(shù)據(jù)庫(kù)schemaless無(wú)法進(jìn)行強(qiáng)管控,以schema-on-read的模式針對(duì)Active Metadata進(jìn)行管理。
Data Mesh分而治之,按業(yè)務(wù)領(lǐng)域拆分,基于業(yè)務(wù)領(lǐng)域的數(shù)據(jù)產(chǎn)品和元數(shù)據(jù)進(jìn)行領(lǐng)域間的交互。

由上圖可以看出,Data Fabric與Data Mesh是截然不同的。Data Fabric仍然是基于中心化,以智能化的Active Metadata為核心來(lái)支撐復(fù)雜的數(shù)據(jù)治理。而Data Mesh是將數(shù)據(jù)治理拆分到各業(yè)務(wù)領(lǐng)域,分而治之,分別產(chǎn)出業(yè)務(wù)領(lǐng)域的數(shù)據(jù)產(chǎn)品。
Data Fabric
近幾年,F(xiàn)orrester和Gartner均對(duì)Data Fabric密切關(guān)注。由下圖可見,Data Fabric核心是Active Metadata, 即通過(guò)增強(qiáng)學(xué)習(xí)和知識(shí)圖譜建立Active Metadata支撐
數(shù)據(jù)集成與
數(shù)據(jù)分析。

這里的“主動(dòng)元數(shù)據(jù)”是相對(duì)傳統(tǒng)的“被動(dòng)元數(shù)據(jù)”有意差異化的,傳統(tǒng)元數(shù)據(jù)被采集之后、通過(guò)簡(jiǎn)單地搜索和查詢場(chǎng)景來(lái)支撐使用。但元數(shù)據(jù)自身是可以再次進(jìn)行深度挖掘。例如,基于關(guān)聯(lián)度線索做出有價(jià)值的推薦,提高數(shù)據(jù)可信度,進(jìn)一步支撐數(shù)據(jù)開發(fā)和數(shù)據(jù)編排。所以,數(shù)據(jù)編排智能化與數(shù)據(jù)虛擬化也是Data Fabric的重要組成部分。
Data Fabric數(shù)據(jù)架構(gòu)方法論由一系列工具組合來(lái)落地,由專業(yè)的人用專業(yè)的工具來(lái)解決特定場(chǎng)景的問題,包括:
1. 定位可信數(shù)據(jù)的數(shù)據(jù)資產(chǎn)目錄
2. 基于知識(shí)圖譜激活元數(shù)據(jù)
3. 基于機(jī)器學(xué)習(xí)形成Active Metadata以指導(dǎo)和簡(jiǎn)化數(shù)據(jù)集成
4. 動(dòng)態(tài)數(shù)據(jù)集成(這里包括數(shù)據(jù)虛擬化技術(shù))
5. 自動(dòng)數(shù)據(jù)加工編排
落地工具
Datablau DDC數(shù)據(jù)資產(chǎn)目錄管理平臺(tái),早在2020發(fā)布的V5.0就已經(jīng)具備了基于知識(shí)圖譜的數(shù)據(jù)資產(chǎn)管理模塊,通過(guò)知識(shí)圖譜進(jìn)行增強(qiáng)學(xué)習(xí),提升數(shù)據(jù)資產(chǎn)關(guān)聯(lián)度和可信度。同時(shí),基于知識(shí)圖譜智能推薦數(shù)據(jù)資產(chǎn)標(biāo)簽和數(shù)據(jù)安全分類分級(jí)。

Data?Mesh
Data?Mesh由Thoughtworks的技術(shù)顧問?Zhamak Dehghani?于一年多前提出,從DDD領(lǐng)域驅(qū)動(dòng)設(shè)計(jì)(用于開發(fā)微服務(wù))、DevOps(自動(dòng)化和自助服務(wù)基礎(chǔ)設(shè)施)中汲取靈感,并將其應(yīng)用于數(shù)據(jù)世界。鑒于Data Mesh是咨詢公司提出來(lái)的,所以更多是一種思想和方法論。Data Mesh強(qiáng)調(diào)打破數(shù)據(jù)湖的模式,不建議先匯集再治理,而是縮小每個(gè)業(yè)務(wù)領(lǐng)域的業(yè)務(wù)運(yùn)營(yíng)和分析之間的差距,重新調(diào)整數(shù)據(jù)的產(chǎn)生方式和消費(fèi)方式,來(lái)設(shè)計(jì)更可靠的數(shù)據(jù)平臺(tái)。Data Mesh是以數(shù)據(jù)產(chǎn)品為單元,每個(gè)數(shù)據(jù)產(chǎn)品定義為公司已經(jīng)治理好的數(shù)據(jù)源,每個(gè)數(shù)據(jù)產(chǎn)品具有專門的所有權(quán)、生命周期管理和服務(wù)水平協(xié)議。通過(guò)設(shè)計(jì)、治理、開發(fā)將數(shù)據(jù)產(chǎn)品呈現(xiàn)給組織的其他成員,供其他團(tuán)隊(duì)使用,從而為在整個(gè)組織中共享數(shù)據(jù)提供值得信賴的來(lái)源。可以簡(jiǎn)單理解為治理好、管控好的數(shù)據(jù)集。


Data?Fabric與Data?Mesh的差異比較
實(shí)際上,不同的公司基于自身的數(shù)據(jù)特征(數(shù)據(jù)量、數(shù)據(jù)敏捷度、數(shù)據(jù)類型等)、安全策略、技術(shù)儲(chǔ)備、性能要求、資金成本等, 對(duì)于Data Fabric或Data Mesh會(huì)有不同的落地方案。
總之,Data Mesh更多地是關(guān)注于人和過(guò)程而不是技術(shù)架構(gòu),而Data Fabric是一種技術(shù)架構(gòu)方法,它以一種智能的方式來(lái)應(yīng)對(duì)數(shù)據(jù)和元數(shù)據(jù)的復(fù)雜性。

下面從更細(xì)的維度,對(duì)Data Fabric與Data Mesh進(jìn)行詳細(xì)分析。?可以看到Data Mesh更強(qiáng)調(diào)基于業(yè)務(wù)領(lǐng)域。?而Data Fabric試圖依賴中心化的數(shù)據(jù)湖與數(shù)據(jù)資產(chǎn)目錄。

下面是引入Data Mesh前后的架構(gòu)圖,可以看到基于業(yè)務(wù)領(lǐng)域進(jìn)行數(shù)據(jù)治理,開放分享治理好的數(shù)據(jù)產(chǎn)品,數(shù)據(jù)產(chǎn)品用來(lái)補(bǔ)充和支撐各種
數(shù)據(jù)應(yīng)用場(chǎng)景。



總結(jié)
在我看來(lái),華為今天數(shù)據(jù)管理的形態(tài)與Data Mesh有異曲同工之處。業(yè)務(wù)部門驅(qū)動(dòng),流程IT作為賦能部門,以項(xiàng)目制幫助業(yè)務(wù)線構(gòu)建數(shù)據(jù)底座,也有不少數(shù)據(jù)能力強(qiáng)的業(yè)務(wù)部門直接就“自給自足”。最終構(gòu)建了一個(gè)個(gè)Data Domain & Data Product(業(yè)務(wù)領(lǐng)域數(shù)據(jù)產(chǎn)品),以業(yè)務(wù)線為單位從源端進(jìn)行數(shù)據(jù)治理。對(duì)于國(guó)內(nèi)大多數(shù)企業(yè)來(lái)講,距離走上Data Mesh這條路還很長(zhǎng)。業(yè)務(wù)部門對(duì)數(shù)據(jù)重要性的認(rèn)知,對(duì)
數(shù)據(jù)價(jià)值的認(rèn)識(shí),及對(duì)保護(hù)企業(yè)數(shù)據(jù)資產(chǎn)的意識(shí)還很薄弱,更缺乏治理和挖掘
數(shù)據(jù)資產(chǎn)價(jià)值的緊迫感。當(dāng)前仍然停留在IT部門和數(shù)據(jù)傳統(tǒng)部門建系統(tǒng)的階段,業(yè)務(wù)部門還是被動(dòng)配合,遠(yuǎn)不具備自己構(gòu)建業(yè)務(wù)領(lǐng)域數(shù)據(jù)產(chǎn)品的動(dòng)力和能力。
而Data Fabric更貼合國(guó)內(nèi)當(dāng)前階段的建設(shè)思路:基于強(qiáng)管控、大集中的模式,不斷優(yōu)化元數(shù)據(jù)的上下文內(nèi)容和關(guān)聯(lián)關(guān)系,加速數(shù)據(jù)開發(fā)過(guò)程。國(guó)內(nèi)對(duì)數(shù)據(jù)資產(chǎn)目錄認(rèn)知仍然是“被動(dòng)元數(shù)據(jù)”,而且偏重管理視角,卻很少?gòu)奶嵘龜?shù)據(jù)的使用效率和
數(shù)據(jù)質(zhì)量的角度去考慮數(shù)據(jù)資產(chǎn)目錄的能力。從數(shù)據(jù)資源目錄到數(shù)據(jù)資產(chǎn)目錄,從“被動(dòng)元數(shù)據(jù)”到“主動(dòng)元數(shù)據(jù)”還有巨大的提升空間。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)