Data Fabric 和 Data Mesh 是新興的數(shù)據(jù)管理概念,旨在解決組織變革以及在混合多云生態(tài)系統(tǒng)中理解、管理和使用企業(yè)數(shù)據(jù)的復(fù)雜性。這兩個數(shù)據(jù)架構(gòu)概念是互補(bǔ)的。但究竟什么是數(shù)據(jù)編織和數(shù)據(jù)網(wǎng)格,如何使用這些數(shù)據(jù)管理解決方案來利用企業(yè)數(shù)據(jù)來做出更好的決策?

一 什么是數(shù)據(jù)編織
Gartner 將數(shù)據(jù)編織定義為“一種設(shè)計概念,用作數(shù)據(jù)和連接過程的集成層。數(shù)據(jù)編制利用對現(xiàn)有的、可發(fā)現(xiàn)的和推斷的元數(shù)據(jù)的持續(xù)分析來支持跨所有環(huán)境(包括混合和多云平臺)的集成和可重用數(shù)據(jù)集的設(shè)計、部署和利用。”
數(shù)據(jù)編織架構(gòu)方法可以簡化組織中的數(shù)據(jù)訪問,并促進(jìn)大規(guī)模的自助數(shù)據(jù)消費。這種方法打破了數(shù)據(jù)孤島,為塑造數(shù)據(jù)治理、數(shù)據(jù)集成、單一事實視圖和可信賴的人工智能實施以及其他常見行業(yè)用例提供了新的機(jī)會。換句話說,數(shù)據(jù)訪問、數(shù)據(jù)集成和數(shù)據(jù)保護(hù)的障礙被最小化,為最終用戶提供最大的靈活性。

使用這種方法,組織不必將所有數(shù)據(jù)移動到一個位置或數(shù)據(jù)存儲,也不必采用完全分散的方法。相反,數(shù)據(jù)編織架構(gòu)意味著需要在邏輯上或物理上分散的內(nèi)容與需要集中的內(nèi)容之間取得平衡。由于這種平衡,可以參與數(shù)據(jù)編織生態(tài)系統(tǒng)的專用數(shù)據(jù)存儲的數(shù)量沒有限制。這意味著將獲得一個全局?jǐn)?shù)據(jù)目錄,該目錄用作抽象層、單一事實來源和具有注入治理的單點數(shù)據(jù)訪問。
二 數(shù)據(jù)編織的六個核心功能
1.知識目錄:此抽象層為360度客戶視圖提供對數(shù)據(jù)的通用業(yè)務(wù)理解,從而實現(xiàn)透明度和協(xié)作。知識目錄充當(dāng)一個圖書館,其中包含有關(guān)數(shù)據(jù)的見解。為了幫助了解數(shù)據(jù),該目錄包含業(yè)務(wù)詞匯表、分類法、數(shù)據(jù)資產(chǎn)(數(shù)據(jù)產(chǎn)品)以及相關(guān)信息,例如質(zhì)量得分、與每個數(shù)據(jù)元素關(guān)聯(lián)的業(yè)務(wù)術(shù)語、數(shù)據(jù)所有者、活動信息、相關(guān)資產(chǎn)等。
2.自動數(shù)據(jù)豐富:要創(chuàng)建知識目錄,需要自動數(shù)據(jù)管理服務(wù)。這些服務(wù)包括自動發(fā)現(xiàn)和分類數(shù)據(jù)、檢測敏感信息、分析數(shù)據(jù)質(zhì)量、將業(yè)務(wù)術(shù)語鏈接到技術(shù)元數(shù)據(jù)以及將數(shù)據(jù)發(fā)布到知識目錄的能力。為了處理企業(yè)內(nèi)部如此龐大的數(shù)據(jù)量,自動化數(shù)據(jù)豐富需要由機(jī)器學(xué)習(xí)驅(qū)動的智能服務(wù)。
3.自助服務(wù)管理數(shù)據(jù)訪問:這些服務(wù)使用戶能夠輕松地查找、理解、操作和使用具有關(guān)鍵管理功能的數(shù)據(jù),例如數(shù)據(jù)分析、數(shù)據(jù)預(yù)覽、向數(shù)據(jù)集添加標(biāo)簽和注釋、在項目中協(xié)作以及使用 SQL 接口在任何地方訪問數(shù)據(jù)或 API。

4.智能集成:數(shù)據(jù)集成功能對于提取、攝取、流式傳輸、虛擬化和轉(zhuǎn)換數(shù)據(jù)至關(guān)重要,無論數(shù)據(jù)位于何處。使用旨在同時最大化性能和最小化存儲和訪問成本的數(shù)據(jù)策略,智能集成有助于確保數(shù)據(jù)隱私。保護(hù)應(yīng)用于每個數(shù)據(jù)管道。
5.數(shù)據(jù)治理、安全性和合規(guī)性:使用數(shù)據(jù)編制,可以通過統(tǒng)一且集中的方式來創(chuàng)建策略和規(guī)則。通過元數(shù)據(jù)(例如數(shù)據(jù)分類、業(yè)務(wù)術(shù)語、用戶組、角色等)自動將這些策略和規(guī)則鏈接到各種數(shù)據(jù)資產(chǎn)的能力很容易獲得。這些政策和規(guī)則,包括數(shù)據(jù)訪問控制、數(shù)據(jù)隱私、數(shù)據(jù)保護(hù)和數(shù)據(jù)質(zhì)量,然后可以在數(shù)據(jù)訪問或數(shù)據(jù)移動期間在所有數(shù)據(jù)中大規(guī)模應(yīng)用和強(qiáng)制執(zhí)行。
6.統(tǒng)一生命周期:端到端生命周期,使用 MLOps 和 AI 在統(tǒng)一體驗中組合、構(gòu)建、測試、部署、編排、審查和管理數(shù)據(jù)編制的各個方面,例如數(shù)據(jù)管道。
Data Fabric 架構(gòu)的這六項關(guān)鍵功能使數(shù)據(jù)消費者能夠更加信任和自信地使用數(shù)據(jù)。無論數(shù)據(jù)是什么,或駐留在何處——無論是在傳統(tǒng)數(shù)據(jù)中心還是混合云環(huán)境中,在傳統(tǒng)數(shù)據(jù)庫或 Hadoop、對象存儲或其他地方——Data Fabric 架構(gòu)都為數(shù)據(jù)訪問和使用提供了一種簡單且集成的方法,為用戶提供自助服務(wù)并使企業(yè)能夠使用數(shù)據(jù)來最大化其價值鏈。
三 什么是數(shù)據(jù)網(wǎng)格
根據(jù) Forrester 的說法,“數(shù)據(jù)網(wǎng)格是一種分散的社會技術(shù)方法,用于在復(fù)雜和大規(guī)模的環(huán)境中共享、訪問和管理分析數(shù)據(jù)——在組織內(nèi)部或跨組織使用。”
Data Mesh的主要目標(biāo)是超越利用數(shù)據(jù)倉庫和數(shù)據(jù)湖的傳統(tǒng)集中式數(shù)據(jù)管理方法。Data Mesh 通過賦予數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費者訪問和管理數(shù)據(jù)的能力來強(qiáng)調(diào)組織敏捷性的理念,而無需將任務(wù)委托給數(shù)據(jù)湖或數(shù)據(jù)倉庫團(tuán)隊。Data Mesh 的分散方法將數(shù)據(jù)所有權(quán)分配給特定領(lǐng)域的組,這些組將數(shù)據(jù)作為產(chǎn)品提供服務(wù)、擁有和管理。
Data Mesh 的實施提高了希望在不確定的經(jīng)濟(jì)環(huán)境中蓬勃發(fā)展的組織的組織敏捷性。所有組織都需要能夠以低成本、高回報的方式應(yīng)對環(huán)境變化。引入新的數(shù)據(jù)源、需要遵守不斷變化的監(jiān)管要求或滿足新的分析要求都是促使組織數(shù)據(jù)管理活動發(fā)生變化的驅(qū)動因素。當(dāng)前的數(shù)據(jù)管理方法通常基于操作和分析系統(tǒng)之間復(fù)雜且高度集成的 ETL,這些系統(tǒng)努力及時改變以在面對這些驅(qū)動因素時及時支持業(yè)務(wù)需求。Data Mesh 的目的是針對數(shù)據(jù)提供一種更具彈性的方法,以有效地響應(yīng)這些變化。
四 數(shù)據(jù)網(wǎng)格的四個基本原則
是由Zhamak Dehghani在2019 年創(chuàng)造的,基于四個基本原則:
領(lǐng)域所有權(quán)原則要求領(lǐng)域團(tuán)隊對其數(shù)據(jù)負(fù)責(zé)。根據(jù)這一原則,分析數(shù)據(jù)應(yīng)該圍繞域組成,類似于與系統(tǒng)的有界上下文對齊的團(tuán)隊邊界。遵循領(lǐng)域驅(qū)動的分布式架構(gòu),分析和操作數(shù)據(jù)所有權(quán)從中央數(shù)據(jù)團(tuán)隊轉(zhuǎn)移到領(lǐng)域團(tuán)隊。
數(shù)據(jù)作為產(chǎn)品原則將產(chǎn)品思維哲學(xué)投射到分析數(shù)據(jù)上。這個原則意味著域外的數(shù)據(jù)有消費者。領(lǐng)域團(tuán)隊負(fù)責(zé)通過提供高質(zhì)量的數(shù)據(jù)來滿足其他領(lǐng)域的需求。基本上,域數(shù)據(jù)應(yīng)該被視為任何其他公共 API。
自助數(shù)據(jù)基礎(chǔ)設(shè)施平臺背后的想法是將平臺思維應(yīng)用于數(shù)據(jù)基礎(chǔ)設(shè)施。一個專門的數(shù)據(jù)平臺團(tuán)隊提供與領(lǐng)域無關(guān)的功能、工具和系統(tǒng)來為所有領(lǐng)域構(gòu)建、執(zhí)行和維護(hù)可互操作的數(shù)據(jù)產(chǎn)品。借助其平臺,數(shù)據(jù)平臺團(tuán)隊使領(lǐng)域團(tuán)隊能夠無縫地使用和創(chuàng)建數(shù)據(jù)產(chǎn)品。
聯(lián)邦治理原則通過標(biāo)準(zhǔn)化實現(xiàn)所有數(shù)據(jù)產(chǎn)品的互操作性,由治理組通過整個數(shù)據(jù)網(wǎng)格來推動。聯(lián)邦治理的主要目標(biāo)是創(chuàng)建一個遵守組織規(guī)則和行業(yè)規(guī)則的數(shù)據(jù)生態(tài)系統(tǒng)。

數(shù)據(jù)網(wǎng)格架構(gòu)是一種將業(yè)務(wù)領(lǐng)域或功能的數(shù)據(jù)源與數(shù)據(jù)所有者對齊的方法。通過數(shù)據(jù)所有權(quán)去中心化,數(shù)據(jù)所有者可以為他們各自的領(lǐng)域創(chuàng)建數(shù)據(jù)產(chǎn)品,這意味著數(shù)據(jù)消費者,包括數(shù)據(jù)科學(xué)家和業(yè)務(wù)用戶,可以使用這些數(shù)據(jù)產(chǎn)品的組合來進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)科學(xué)。
數(shù)據(jù)網(wǎng)格方法的價值在于,與依賴數(shù)據(jù)工程師清理和集成下游數(shù)據(jù)產(chǎn)品相比,它將數(shù)據(jù)產(chǎn)品的創(chuàng)建轉(zhuǎn)移給最了解業(yè)務(wù)領(lǐng)域的上游主題專家。

此外,數(shù)據(jù)網(wǎng)格通過啟用發(fā)布-訂閱模型和利用 API 加速數(shù)據(jù)產(chǎn)品的重用,這使數(shù)據(jù)消費者更容易獲得他們需要的數(shù)據(jù)產(chǎn)品,包括可靠的更新。
五 數(shù)據(jù)編織與數(shù)據(jù)網(wǎng)格的關(guān)系
數(shù)據(jù)編織和數(shù)據(jù)網(wǎng)格可以共存。事實上,數(shù)據(jù)編織可以通過三種方式實現(xiàn)數(shù)據(jù)網(wǎng)格:
1.為數(shù)據(jù)所有者提供數(shù)據(jù)產(chǎn)品創(chuàng)建功能,例如對數(shù)據(jù)資產(chǎn)進(jìn)行編目、將資產(chǎn)轉(zhuǎn)化為產(chǎn)品以及遵循聯(lián)合治理策略
2.使數(shù)據(jù)所有者和數(shù)據(jù)消費者能夠以各種方式使用數(shù)據(jù)產(chǎn)品,例如將數(shù)據(jù)產(chǎn)品發(fā)布到目錄、搜索和查找數(shù)據(jù)產(chǎn)品以及利用數(shù)據(jù)虛擬化或使用 API 查詢或可視化數(shù)據(jù)產(chǎn)品。
3.通過學(xué)習(xí)模式作為數(shù)據(jù)產(chǎn)品創(chuàng)建過程的一部分或作為監(jiān)控數(shù)據(jù)產(chǎn)品過程的一部分,使用來自數(shù)據(jù)編織元數(shù)據(jù)的見解來自動化任務(wù)
在數(shù)據(jù)管理方面,數(shù)據(jù)編織通過自動執(zhí)行創(chuàng)建數(shù)據(jù)產(chǎn)品和管理數(shù)據(jù)產(chǎn)品生命周期所需的許多任務(wù),提供了實施和充分利用數(shù)據(jù)網(wǎng)格所需的功能。通過使用數(shù)據(jù)編織基礎(chǔ)的靈活性,您可以實施數(shù)據(jù)網(wǎng)格,繼續(xù)利用以用例為中心的數(shù)據(jù)架構(gòu),無論數(shù)據(jù)駐留在本地還是云端。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)