日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

死磕了老半天,終于讀懂了數(shù)據(jù)編織(Data Fabric)

時間:2022-08-25來源:墨有余溫瀏覽數(shù):2214

比如數(shù)據(jù)編織希望解決分布式數(shù)據(jù)源出現(xiàn)導致的數(shù)據(jù)孤島問題,但實際上大多數(shù)公司沒有那么多的分布式數(shù)據(jù)源,數(shù)據(jù)孤島問題主要還是企業(yè)的管理問題,利用數(shù)據(jù)編織去解決數(shù)據(jù)孤島問題,是純粹的技術(shù)思維,很難解決當前大多數(shù)公司的實際數(shù)據(jù)孤島問題,大家還是先老老實實去做數(shù)據(jù)治理吧。

Gartner發(fā)布的2022年重要戰(zhàn)略技術(shù)趨勢,Data Fabric(數(shù)據(jù)編織)赫然在列,這個概念現(xiàn)在挺火的,國內(nèi)國外甚至有了相關(guān)產(chǎn)品,但數(shù)據(jù)編織這個概念并不是那么好理解。

假如要跟老板解釋這個新概念,我是完全沒信心的,雖然Gartner也做了解釋,但過于抽象,各種概念亂飛,什么主動元數(shù)據(jù),活動元數(shù)據(jù),知識圖譜等等,各個廠家也是你方唱罷我登場,都在基于自己的產(chǎn)品能力詮釋著對數(shù)據(jù)編織的理解,讓更多的人看得云里霧里。

我們首先看看業(yè)界是如何定義數(shù)據(jù)編織的,然后給出我的通俗易懂版本。

1)Gartner

Gartner將Data Fabric定義為包含數(shù)據(jù)和連接的集成層,通過對現(xiàn)有的、可發(fā)現(xiàn)和可推斷的元數(shù)據(jù)資產(chǎn)進行持續(xù)分析,來支持數(shù)據(jù)系統(tǒng)跨平臺的設計、部署和使用,從而實現(xiàn)靈活的的數(shù)據(jù)交付,其能力架構(gòu)如下:

2)Forrester

Forrester提出了Big Data Fabric的概念,Big Data Fabric的最佳之處在于它能夠通過利用動態(tài)集成、分布式和多云架構(gòu)、圖形引擎、分布式和持久內(nèi)存等方面的能力來快速交付應用,其專注于自動化流程集成、轉(zhuǎn)換、準備、管理、安全、治理和編排,以快速啟用分析和洞察力,實現(xiàn)業(yè)務成功。其能力架構(gòu)如下:

3)

認為Data Fabric的核心是一個數(shù)據(jù)管理平臺,通過包括發(fā)現(xiàn)、治理、管理和編排在內(nèi)的、全面的集成數(shù)據(jù)管理功能 ,實現(xiàn)“在正確的時間,從任意位置,將正確的數(shù)據(jù)與正確的人連接起來,從而全面釋放數(shù)據(jù)價值,加速企業(yè)的數(shù)字化轉(zhuǎn)型”的目標。Cloud Pak for Data 是開發(fā)的具有數(shù)據(jù)管理、監(jiān)管和分析功能的Data Fabric平臺,如下圖。

4)Talend

Talend認為Data Fabric是結(jié)合了AI能力的自動化數(shù)據(jù)集成平臺。Talend的Data Fabric平臺是由其數(shù)據(jù)集成平臺發(fā)展而來,囊括了諸如大數(shù)據(jù)、機器學習、數(shù)據(jù)治理和 數(shù)據(jù)API等產(chǎn)品,將數(shù)據(jù)集成、數(shù)據(jù)治理以及數(shù)據(jù)運營統(tǒng)一在一個平臺中,該平臺架構(gòu)示意圖如下所示:

5)Denodo

Denodo在Data Fabric的能力定義上,更多的是追從了Forrester的能力定義,包括了數(shù)據(jù)攝取、處理和持久化、編排、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)管理和智能以及數(shù)據(jù)訪問等6類能力,不再贅述,但需要指出的是,其在數(shù)據(jù)發(fā)現(xiàn)能力上特別強調(diào)了數(shù)據(jù)虛擬化的能力,認為其是數(shù)據(jù)發(fā)現(xiàn)的關(guān)鍵能力。另外也強調(diào)了數(shù)據(jù)訪問能力的重要性,直接將數(shù)據(jù)提供給數(shù)據(jù)分析工程師或者基于系統(tǒng)、工具或者可視化方式提供。denodo平臺具體的能力架構(gòu)圖如下:

以上亂花漸欲迷人眼的定義和產(chǎn)品一定會把大多數(shù)人帶進溝里,下面,我就來談談自己對于數(shù)據(jù)編織的本質(zhì)理解,費曼說,只有能通俗易懂的向別人解釋清楚概念,才說明你真懂了,希望我的解釋能讓你滿意,否則,就是我的問題。

1、數(shù)據(jù)編織的背景

(1)數(shù)據(jù)是企業(yè)數(shù)字化轉(zhuǎn)型不可或缺的元素,隨著數(shù)字化的持續(xù)推進,數(shù)據(jù)源以及數(shù)據(jù)量不斷增加,數(shù)據(jù)和應用孤島的數(shù)量在過去幾年中激增。

(2)業(yè)務數(shù)據(jù)格式由原來的結(jié)構(gòu)化數(shù)據(jù)為主,逐步改變?yōu)橛苫旌稀⒍鄻雍筒粩嘧兓臄?shù)據(jù)主導(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等),業(yè)務對于實時或事件驅(qū)動的數(shù)據(jù)共享等需求不斷增長。

(3)企業(yè)上云成為一大趨勢,混合數(shù)據(jù)環(huán)境下企業(yè)該如何跨平臺、跨環(huán)境,以實時的速度收集、訪問、管理、共享數(shù)據(jù),從不斷變化、高度關(guān)聯(lián)、卻又四處分散的數(shù)據(jù)中獲得可執(zhí)行洞見面臨巨大的挑戰(zhàn)。

(4)企業(yè)數(shù)據(jù)的管理和運營投入度不夠,缺少體系化的數(shù)據(jù)領域建設,從而產(chǎn)生了大量的暗數(shù)據(jù)。

面對上述數(shù)據(jù)管理難題,企業(yè)必須使用一種新型的數(shù)據(jù)結(jié)構(gòu)來應對企業(yè)數(shù)據(jù)資產(chǎn)日益加劇的多樣化、分布式、規(guī)模、復雜性等問題。在這樣的背景下,一種新興的數(shù)據(jù)管理和處理方法——數(shù)據(jù)編織(Data Fabric)誕生了。

Gartner認為數(shù)據(jù)編織是一種跨平臺的數(shù)據(jù)整合方式,它不僅可以集成所有業(yè)務用戶的信息,還具有靈活且彈性的特點,使得人們可以隨時隨地使用任何數(shù)據(jù),Gartner稱,數(shù)據(jù)編織預計可縮短30%的集成設計時間、30%的部署時間和70%的維護時間。

2、數(shù)據(jù)編織的定義

數(shù)據(jù)編織是一種數(shù)據(jù)架構(gòu)思想(而非一組特定的工具),其通過提供一種統(tǒng)一的方法來管理異構(gòu)數(shù)據(jù)工具鏈,其能夠?qū)⒖尚艛?shù)據(jù)從所有相關(guān)數(shù)據(jù)源、以靈活且業(yè)務可理解的方式交付給所有相關(guān)數(shù)據(jù)消費者,從而提供比傳統(tǒng)數(shù)據(jù)管理更多的價值。

數(shù)據(jù)編織這個名字取得挺貼切的,我們可以望文生義的去理解數(shù)據(jù)編織這個定義,如下圖所示,把數(shù)據(jù)編織想象成一張?zhí)摂M的網(wǎng),網(wǎng)上的每個節(jié)點就是一個 IT系統(tǒng)或者數(shù)據(jù)源。人的大腦里有成萬上億個神經(jīng)元,他們連接在一起,以非常快的速度處理和傳遞信息。現(xiàn)代醫(yī)學還無法解釋這些信息是如何傳遞的,只能說是以一種虛擬的方式來連接。這里數(shù)據(jù)編織也一樣,這張網(wǎng)并不能理解為一種點對點的連接,而是一種虛擬的連接,可以使數(shù)據(jù)在網(wǎng)上迅速流動并統(tǒng)一對外提供服務。

有人會問數(shù)據(jù)編織跟數(shù)據(jù)集成有什么區(qū)別,這是個好問題,數(shù)據(jù)集成是融合異構(gòu)存儲集合的數(shù)據(jù)并構(gòu)造統(tǒng)一數(shù)據(jù)視圖的過程,包括了數(shù)據(jù)合并、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗等,其專注于復制、移動數(shù)據(jù),如ETL加工、數(shù)據(jù)同步等。

數(shù)據(jù)編織是一種架構(gòu)思想,跟數(shù)據(jù)集成本來是無法直接比較的,但由于數(shù)據(jù)虛擬化是實現(xiàn)數(shù)據(jù)編織架構(gòu)中的關(guān)鍵技術(shù)之一,因此可以比較下數(shù)據(jù)虛擬化和數(shù)據(jù)集成的區(qū)別,數(shù)據(jù)虛擬化可以在不移動數(shù)據(jù)的情況下從源頭訪問數(shù)據(jù),通過更快、更準確的查詢幫助縮短實現(xiàn)業(yè)務價值的時間,具體包括跨平臺敏捷集成、統(tǒng)一語義、低代碼創(chuàng)建數(shù)據(jù)API(支持SQL、REST、OData和GraphQL等技術(shù))、智能緩存加速等功能,數(shù)據(jù)虛擬化跟數(shù)據(jù)集成還是有本質(zhì)區(qū)別的,假如沒有虛擬化能力,數(shù)據(jù)是很難編織起來的,當然,數(shù)據(jù)編織遠遠超越了數(shù)據(jù)虛擬化的范疇,這個后面會解釋。

可能還有人會問數(shù)據(jù)編織跟數(shù)據(jù)湖有什么區(qū)別,其實數(shù)據(jù)湖只是數(shù)據(jù)編織的異構(gòu)數(shù)據(jù)源之一(數(shù)據(jù)源可以是數(shù)據(jù)倉庫、數(shù)據(jù)湖,也可以是業(yè)務數(shù)據(jù)庫等其他數(shù)據(jù)存儲),數(shù)據(jù)編織將應用程序與數(shù)據(jù)湖(或者數(shù)據(jù)倉庫等)進行連接,通過統(tǒng)一的數(shù)據(jù)管理框架支持在分布式的環(huán)境中進行數(shù)據(jù)消費。

3、數(shù)據(jù)編織的實現(xiàn)

要達到數(shù)據(jù)編織的目的,需要具備以下五個能力:

第一、數(shù)據(jù)編織可以連接各種數(shù)據(jù)源。

數(shù)據(jù)源的類型可以是數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、BI、應用系統(tǒng)或者文檔等等,這些資源可能存在于企業(yè)內(nèi)部,例如企業(yè)的ERP系統(tǒng)、CRM系統(tǒng)或人力資源系統(tǒng) 。還可以連接到非結(jié)構(gòu)化數(shù)據(jù)源,例如,支持 PDF 和屏幕截圖等文件提交系統(tǒng),支持物聯(lián)網(wǎng)傳感器的接入,數(shù)據(jù)編織還可以從公共可用數(shù)據(jù)(如社交媒體)等外部系統(tǒng)中提取數(shù)據(jù)。

第二、數(shù)據(jù)編織需要有靈活的數(shù)據(jù)目錄。

首先數(shù)據(jù)編織最好能自動的識別和獲取元數(shù)據(jù),比如數(shù)據(jù)庫中的schema。

其次,能夠基于ML/AI能力對數(shù)據(jù)的語義進行分析,打上數(shù)據(jù)的標簽,從而加深對數(shù)據(jù)的業(yè)務理解,比如針對文檔進行語主題分析給出分類,又比如針對關(guān)鍵字段的數(shù)據(jù)進行分析給出枚舉的說明,再比如通過字段的上下文智能判斷敏感級別。

最后,基于元數(shù)據(jù)構(gòu)建知識圖譜,即將碎片化的元數(shù)據(jù)有機的組織起來(比如建立關(guān)系和對象), 讓數(shù)據(jù)目錄更加容易被人和機器理解和處理,并為搜索、挖掘、分析等提供便利,為后續(xù)AI的實現(xiàn)提供知識庫的基礎。

下圖是知識圖譜的一個示例,你可以認為節(jié)點“數(shù)學家”是數(shù)據(jù)湖A的某個文檔的主題,然后“數(shù)學家”和“圖靈”是數(shù)據(jù)湖B的某個文檔的主題,通過知識圖譜就可以把A和B的相關(guān)文檔連接起來,通過知識圖譜讓我們對于數(shù)據(jù)之間的關(guān)系有了更清晰直觀的認識。

第三、基于知識圖譜實現(xiàn)設計和分析智能

知識圖譜有兩大作用。

第一,可以快速的進行數(shù)據(jù)集成設計,比如實現(xiàn)源端連接配置、源端表和字段等信息的快速檢索和自動填充,使其更加直觀和易于解釋。

第二、可以進行數(shù)據(jù)的智能推薦,比如基于數(shù)據(jù)的歷史使用情況進行推薦,也就是把正確的數(shù)據(jù),在正確的時間里,給到正確的人。

知識圖譜在商業(yè)推薦領域應用的已經(jīng)比較廣泛,把它移植到數(shù)據(jù)連接領域就成了新鮮玩意,我們以前的數(shù)據(jù)集成設計主要是“人找數(shù)據(jù)”,而數(shù)據(jù)編織設計的核心是“數(shù)據(jù)找人”,以前對這句話不太能理解,現(xiàn)在終于明白它在講什么。

第四、實現(xiàn)數(shù)據(jù)的動態(tài)集成和自動編排

有了前面的基礎,數(shù)據(jù)的動態(tài)集成就成了可能,動態(tài)數(shù)據(jù)集成技術(shù)包括本體技術(shù)和網(wǎng)格技術(shù)。

網(wǎng)格技術(shù)原理比較簡單,就是能夠支撐各種數(shù)據(jù)源之間的數(shù)據(jù)交換、共享和協(xié)同計算,能夠進行跨數(shù)據(jù)源的數(shù)據(jù)集成,比如用一個SQL直接跨數(shù)據(jù)源進行數(shù)據(jù)融合計算,現(xiàn)在有人在提NOETL,估計就是指這個吧。

本體技術(shù)比較復雜,這里舉一個例子[1]就明白了:

以車管所數(shù)據(jù)為例,通過車管所的數(shù)據(jù)可以建立一種人-車-罰單的本體模型,人與車之間為擁有關(guān)系;人與罰單之間通過“闖紅燈”事件相連接,而罰單本身則以文檔的形式展現(xiàn)。完成本體模型后,就實現(xiàn)了基于元數(shù)據(jù)的知識圖譜,如下圖所示:

接下來,就需要將真實的數(shù)據(jù)映射到本體模型上。同時,要在字段級別上對多源異構(gòu)數(shù)據(jù)進行歸一化。還以車管數(shù)據(jù)為例,具體過程如下圖所示,可以看出,通過本體映射將車管所3張表的數(shù)據(jù)映射到了 7個本體上(2個實體、3個關(guān)系、1個事件和1個文檔),并將車主名稱和姓名進行了統(tǒng)一,將日期的不同表示方式進行了歸一化。

通過以上建模過程,在應用側(cè)就建立了一個多源數(shù)據(jù)的統(tǒng)一的邏輯視圖,即從分析人員的角度對所有數(shù)據(jù)構(gòu)建成了一個圖模型,分析人員無需關(guān)注底層數(shù)據(jù)源差異和存儲細節(jié),只需關(guān)注如何在此圖模型上進行集成設計即可,任何數(shù)據(jù)要集成進來,先進行以上過程,在元數(shù)據(jù)層面進行拉通、融合。

這個集成具有動態(tài)的特點,核心邏輯就在于采用元數(shù)據(jù)與存儲分離查詢的方案,來賦予知識圖譜“動態(tài)”特性,比如當表字段發(fā)生變更時,直接更改與元數(shù)據(jù)的映射關(guān)系就可以了,在應用端不需要重新導入數(shù)據(jù)。

動態(tài)數(shù)據(jù)集成兼容各種數(shù)據(jù)集成方式,包括但不限于 ETL、流式傳輸、復制、消息傳遞和數(shù)據(jù)虛擬化或數(shù)據(jù)微服務等。同時,支持通過 API 支持與內(nèi)部和外部利益相關(guān)者共享數(shù)據(jù)。

由于數(shù)據(jù)集成的工作量非常大,因此數(shù)據(jù)自動化編排變得非常重要,因為數(shù)據(jù)編排可以簡化和優(yōu)化數(shù)據(jù)集成的流程,能夠自動執(zhí)行工作流的不同步驟,比如將數(shù)據(jù)采集、清洗及轉(zhuǎn)換任務進行串接和自動執(zhí)行,現(xiàn)在大多數(shù)ETL軟件都具備可視化的編排能力。

第五、面向消費者提供自助能力

數(shù)據(jù)編織面向所有類型的數(shù)據(jù)用戶,提供數(shù)據(jù)和服務,包括:數(shù)據(jù)科學家、數(shù)據(jù)分析師、數(shù)據(jù)集成專家、數(shù)據(jù)工程師等,既能夠面向?qū)I(yè)的IT 用戶的復雜集成需求處理,也可以支持業(yè)務人員的自助式數(shù)據(jù)準備和分析。

說完了以上內(nèi)容,相信你馬上能看懂Gartner放出的下面這張數(shù)據(jù)編排英文架構(gòu)圖,但當我第一次看到時,可是有點云里霧里,因為充斥了太多的概念和關(guān)系,無論是數(shù)據(jù)目錄、知識圖譜、激活元數(shù)據(jù)、主動元數(shù)據(jù),AI/ML、動態(tài)數(shù)據(jù)集成還是自動數(shù)據(jù)編排等等。

應該來講,數(shù)據(jù)編織有很多不錯的設計思想,讀懂了以后,你會發(fā)現(xiàn)這些思想既陌生又熟悉,陌生是因為新的名詞,熟悉是里面其實沒有什么新東西,比如我們正在做的一鍵入湖,就是一種基于元數(shù)據(jù)來進行自動化集成設計的實踐,這就是一種數(shù)據(jù)編織,可惜我們不會造詞。Gartner編排了很多概念在一起讓大家覺得這是一個新體系,當然這的確也是一種組合創(chuàng)新。

但說實話,數(shù)據(jù)編織離我們大多數(shù)公司還是有點遠。

比如數(shù)據(jù)編織希望解決分布式數(shù)據(jù)源出現(xiàn)導致的數(shù)據(jù)孤島問題,但實際上大多數(shù)公司沒有那么多的分布式數(shù)據(jù)源,數(shù)據(jù)孤島問題主要還是企業(yè)的管理問題,利用數(shù)據(jù)編織去解決數(shù)據(jù)孤島問題,是純粹的技術(shù)思維,很難解決當前大多數(shù)公司的實際數(shù)據(jù)孤島問題,大家還是先老老實實去做數(shù)據(jù)治理吧。

又比如說數(shù)據(jù)編織的基礎是元數(shù)據(jù),但元數(shù)據(jù)的缺失恰恰是現(xiàn)在大多企業(yè)最大的痛點,這極大限制了數(shù)據(jù)編織的價值,一鍵入湖其實我們10年前就想做了,但為什么現(xiàn)在才能做出來,因為那個時候源端不愿意提供全量元數(shù)據(jù)或者提供不出來或者提供的質(zhì)量太差,這是由企業(yè)的基礎數(shù)據(jù)管理水平?jīng)Q定的,而缺失了元數(shù)據(jù)的數(shù)據(jù)編織就成了空中樓閣。

數(shù)據(jù)編織有點像當年的數(shù)據(jù)中臺,炒作了數(shù)據(jù)中臺這個概念后讓數(shù)據(jù)倉庫有了更好的演進,但數(shù)據(jù)編織估計更難一點,因為很難讓老板理解。

如果老板問我這個概念,也許我會這么解釋數(shù)據(jù)編織,即“基于知識圖譜的分布式數(shù)據(jù)智能集成、編排和自助數(shù)據(jù)服務”,然后逐個解釋清楚知識圖譜、分布式、集成、編排、智能及自助等概念,這里故意不提元數(shù)據(jù),大家都懂的,但我其實還是沒啥信心的。

(部分內(nèi)容來源網(wǎng)絡,如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢