日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業(yè)數據治理實施部署指南。同時,在IDC發(fā)布的《中國數據治理市場份額》報告中,連續(xù)四年蟬聯(lián)數據治理解決方案市場份額第一。

死磕了老半天,終于讀懂了數據編織

時間:2024-08-15來源:薏米姐姐瀏覽數:476

Gartner發(fā)布的2022年重要戰(zhàn)略技術趨勢,Data Fabric(數據編織)赫然在列,這個概念現(xiàn)在挺火的,國內國外甚至有了相關產品,但數據編織這個概念并不是那么好理解。

假如要跟老板解釋這個新概念,我是完全沒信心的,雖然Gartner也做了解釋,但過于抽象,各種概念亂飛,什么主動元數據,活動元數據,知識圖譜等等,各個廠家也是你方唱罷我登場,都在基于自己的產品能力詮釋著對數據編織的理解,讓更多的人看得云里霧里。


我們首先看看業(yè)界是如何定義數據編織的,然后給出我的通俗易懂版本。

1)Gartner

Gartner將Data Fabric定義為包含數據和連接的集成層,通過對現(xiàn)有的、可發(fā)現(xiàn)和可推斷的元數據資產進行持續(xù)分析,來支持數據系統(tǒng)跨平臺的設計、部署和使用,從而實現(xiàn)靈活的的數據交付,其能力架構如下:

2)Forrester

Forrester提出了Big Data Fabric的概念,Big Data Fabric的最佳之處在于它能夠通過利用動態(tài)集成、分布式和多云架構、圖形引擎、分布式和持久內存等方面的能力來快速交付應用,其專注于自動化流程集成、轉換、準備、管理、安全、治理和編排,以快速啟用分析和洞察力,實現(xiàn)業(yè)務成功。其能力架構如下:

3)IBM

IBM認為Data Fabric的核心是一個數據管理平臺,通過包括發(fā)現(xiàn)、治理、管理和編排在內的、全面的集成數據管理功能 ,實現(xiàn)“在正確的時間,從任意位置,將正確的數據與正確的人連接起來,從而全面釋放數據價值,加速企業(yè)的數字化轉型”的目標。Cloud Pak for Data 是IBM開發(fā)的具有數據管理、監(jiān)管和分析功能的Data Fabric平臺,如下圖。

4)Talend

Talend認為Data Fabric是結合了AI能力的自動化數據集成平臺。Talend的Data Fabric平臺是由其數據集成平臺發(fā)展而來,囊括了諸如大數據、機器學習、數據治理和 數據API等產品,將數據集成、數據治理以及數據運營統(tǒng)一在一個平臺中,該平臺架構示意圖如下所示:

5)Denodo

Denodo在Data Fabric的能力定義上,更多的是追從了Forrester的能力定義,包括了數據攝取、處理和持久化、編排、數據發(fā)現(xiàn)、數據管理和智能以及數據訪問等6類能力,不再贅述,但需要指出的是,其在數據發(fā)現(xiàn)能力上特別強調了數據虛擬化的能力,認為其是數據發(fā)現(xiàn)的關鍵能力。另外也強調了數據訪問能力的重要性,直接將數據提供給數據分析工程師或者基于系統(tǒng)、工具或者可視化方式提供。denodo平臺具體的能力架構圖如下:

以上亂花漸欲迷人眼的定義和產品一定會把大多數人帶進溝里,下面,我就來談談自己對于數據編織的本質理解,費曼說,只有能通俗易懂的向別人解釋清楚概念,才說明你真懂了,希望我的解釋能讓你滿意,否則,就是我的問題。

1、數據編織的背景

(1)數據是企業(yè)數字化轉型不可或缺的元素,隨著數字化的持續(xù)推進,數據源以及數據量不斷增加,數據和應用孤島的數量在過去幾年中激增。

(2)業(yè)務數據格式由原來的結構化數據為主,逐步改變?yōu)橛苫旌稀⒍鄻雍筒粩嘧兓臄祿鲗ВńY構化、半結構化、非結構化等),業(yè)務對于實時或事件驅動的數據共享等需求不斷增長。

(3)企業(yè)上云成為一大趨勢,混合數據環(huán)境下企業(yè)該如何跨平臺、跨環(huán)境,以實時的速度收集、訪問、管理、共享數據,從不斷變化、高度關聯(lián)、卻又四處分散的數據中獲得可執(zhí)行洞見面臨巨大的挑戰(zhàn)。

(4)企業(yè)數據的管理和運營投入度不夠,缺少體系化的數據領域建設,從而產生了大量的暗數據。

面對上述數據管理難題,企業(yè)必須使用一種新型的數據結構來應對企業(yè)數據資產日益加劇的多樣化、分布式、規(guī)模、復雜性等問題。在這樣的背景下,一種新興的數據管理和處理方法——數據編織(Data Fabric)誕生了。

Gartner認為數據編織是一種跨平臺的數據整合方式,它不僅可以集成所有業(yè)務用戶的信息,還具有靈活且彈性的特點,使得人們可以隨時隨地使用任何數據,Gartner稱,數據編織預計可縮短30%的集成設計時間、30%的部署時間和70%的維護時間。


2、數據編織的定義

數據編織是一種數據架構思想(而非一組特定的工具),其通過提供一種統(tǒng)一的方法來管理異構數據工具鏈,其能夠將可信數據從所有相關數據源、以靈活且業(yè)務可理解的方式交付給所有相關數據消費者,從而提供比傳統(tǒng)數據管理更多的價值。

數據編織這個名字取得挺貼切的,我們可以望文生義的去理解數據編織這個定義,如下圖所示,把數據編織想象成一張?zhí)摂M的網,網上的每個節(jié)點就是一個 IT系統(tǒng)或者數據源。人的大腦里有成萬上億個神經元,他們連接在一起,以非常快的速度處理和傳遞信息。現(xiàn)代醫(yī)學還無法解釋這些信息是如何傳遞的,只能說是以一種虛擬的方式來連接。這里數據編織也一樣,這張網并不能理解為一種點對點的連接,而是一種虛擬的連接,可以使數據在網上迅速流動并統(tǒng)一對外提供服務。

有人會問數據編織跟數據集成有什么區(qū)別,這是個好問題,數據集成是融合異構存儲集合的數據并構造統(tǒng)一數據視圖的過程,包括了數據合并、數據轉換、數據清洗等,其專注于復制、移動數據,如ETL加工、數據同步等。

數據編織是一種架構思想,跟數據集成本來是無法直接比較的,但由于數據虛擬化是實現(xiàn)數據編織架構中的關鍵技術之一,因此可以比較下數據虛擬化和數據集成的區(qū)別,數據虛擬化可以在不移動數據的情況下從源頭訪問數據,通過更快、更準確的查詢幫助縮短實現(xiàn)業(yè)務價值的時間,具體包括跨平臺敏捷集成、統(tǒng)一語義、低代碼創(chuàng)建數據API(支持SQL、REST、OData和GraphQL等技術)、智能緩存加速等功能,數據虛擬化跟數據集成還是有本質區(qū)別的,假如沒有虛擬化能力,數據是很難編織起來的,當然,數據編織遠遠超越了數據虛擬化的范疇,這個后面會解釋。


可能還有人會問數據編織跟數據湖有什么區(qū)別,其實數據湖只是數據編織的異構數據源之一(數據源可以是數據倉庫、數據湖,也可以是業(yè)務數據庫等其他數據存儲),數據編織將應用程序與數據湖(或者數據倉庫等)進行連接,通過統(tǒng)一的數據管理框架支持在分布式的環(huán)境中進行數據消費。


3、數據編織的實現(xiàn)

要達到數據編織的目的,需要具備以下五個能力:

第一、數據編織可以連接各種數據源。

數據源的類型可以是數據庫、數據倉庫、數據湖、BI、應用系統(tǒng)或者文檔等等,這些資源可能存在于企業(yè)內部,例如企業(yè)的ERP系統(tǒng)、CRM系統(tǒng)或人力資源系統(tǒng) 。還可以連接到非結構化數據源,例如,支持 PDF 和屏幕截圖等文件提交系統(tǒng),支持物聯(lián)網傳感器的接入,數據編織還可以從公共可用數據(如社交媒體)等外部系統(tǒng)中提取數據。

第二、數據編織需要有靈活的數據目錄。

首先數據編織最好能自動的識別和獲取元數據,比如數據庫中的schema。

其次,能夠基于ML/AI能力對數據的語義進行分析,打上數據的標簽,從而加深對數據的業(yè)務理解,比如針對文檔進行語主題分析給出分類,又比如針對關鍵字段的數據進行分析給出枚舉的說明,再比如通過字段的上下文智能判斷敏感級別。

最后,基于元數據構建知識圖譜,即將碎片化的元數據有機的組織起來(比如建立關系和對象), 讓數據目錄更加容易被人和機器理解和處理,并為搜索、挖掘、分析等提供便利,為后續(xù)AI的實現(xiàn)提供知識庫的基礎。

下圖是知識圖譜的一個示例,你可以認為節(jié)點“數學家”是數據湖A的某個文檔的主題,然后“數學家”和“圖靈”是數據湖B的某個文檔的主題,通過知識圖譜就可以把A和B的相關文檔連接起來,通過知識圖譜讓我們對于數據之間的關系有了更清晰直觀的認識。

第三、基于知識圖譜實現(xiàn)設計和分析智能

知識圖譜有兩大作用。

第一,可以快速的進行數據集成設計,比如實現(xiàn)源端連接配置、源端表和字段等信息的快速檢索和自動填充,使其更加直觀和易于解釋。

第二、可以進行數據的智能推薦,比如基于數據的歷史使用情況進行推薦,也就是把正確的數據,在正確的時間里,給到正確的人。

知識圖譜在商業(yè)推薦領域應用的已經比較廣泛,把它移植到數據連接領域就成了新鮮玩意,我們以前的數據集成設計主要是“人找數據”,而數據編織設計的核心是“數據找人”,以前對這句話不太能理解,現(xiàn)在終于明白它在講什么。


第四、實現(xiàn)數據的動態(tài)集成和自動編排

有了前面的基礎,數據的動態(tài)集成就成了可能,動態(tài)數據集成技術包括本體技術和網格技術。

網格技術原理比較簡單,就是能夠支撐各種數據源之間的數據交換、共享和協(xié)同計算,能夠進行跨數據源的數據集成,比如用一個SQL直接跨數據源進行數據融合計算,現(xiàn)在有人在提NOETL,估計就是指這個吧。

本體技術比較復雜,這里舉一個例子[1]就明白了:

以車管所數據為例,通過車管所的數據可以建立一種人-車-罰單的本體模型,人與車之間為擁有關系;人與罰單之間通過“闖紅燈”事件相連接,而罰單本身則以文檔的形式展現(xiàn)。完成本體模型后,就實現(xiàn)了基于元數據的知識圖譜,如下圖所示:

接下來,就需要將真實的數據映射到本體模型上。同時,要在字段級別上對多源異構數據進行歸一化。還以車管數據為例,具體過程如下圖所示,可以看出,通過本體映射將車管所3張表的數據映射到了 7個本體上(2個實體、3個關系、1個事件和1個文檔),并將車主名稱和姓名進行了統(tǒng)一,將日期的不同表示方式進行了歸一化。

通過以上建模過程,在應用側就建立了一個多源數據的統(tǒng)一的邏輯視圖,即從分析人員的角度對所有數據構建成了一個圖模型,分析人員無需關注底層數據源差異和存儲細節(jié),只需關注如何在此圖模型上進行集成設計即可,任何數據要集成進來,先進行以上過程,在元數據層面進行拉通、融合。


這個集成具有動態(tài)的特點,核心邏輯就在于采用元數據與存儲分離查詢的方案,來賦予知識圖譜“動態(tài)”特性,比如當表字段發(fā)生變更時,直接更改與元數據的映射關系就可以了,在應用端不需要重新導入數據。

動態(tài)數據集成兼容各種數據集成方式,包括但不限于 ETL、流式傳輸、復制、消息傳遞和數據虛擬化或數據微服務等。同時,支持通過 API 支持與內部和外部利益相關者共享數據。

由于數據集成的工作量非常大,因此數據自動化編排變得非常重要,因為數據編排可以簡化和優(yōu)化數據集成的流程,能夠自動執(zhí)行工作流的不同步驟,比如將數據采集、清洗及轉換任務進行串接和自動執(zhí)行,現(xiàn)在大多數ETL軟件都具備可視化的編排能力。


第五、面向消費者提供自助能力

數據編織面向所有類型的數據用戶,提供數據和服務,包括:數據科學家、數據分析師、數據集成專家、數據工程師等,既能夠面向專業(yè)的IT 用戶的復雜集成需求處理,也可以支持業(yè)務人員的自助式數據準備和分析。

說完了以上內容,相信你馬上能看懂Gartner放出的下面這張數據編排英文架構圖,但當我第一次看到時,可是有點云里霧里,因為充斥了太多的概念和關系,無論是數據目錄、知識圖譜、激活元數據、主動元數據,AI/ML、動態(tài)數據集成還是自動數據編排等等。

應該來講,數據編織有很多不錯的設計思想,讀懂了以后,你會發(fā)現(xiàn)這些思想既陌生又熟悉,陌生是因為新的名詞,熟悉是里面其實沒有什么新東西,比如我們正在做的一鍵入湖,就是一種基于元數據來進行自動化集成設計的實踐,這就是一種數據編織,可惜我們不會造詞。Gartner編排了很多概念在一起讓大家覺得這是一個新體系,當然這的確也是一種組合創(chuàng)新。

但說實話,數據編織離我們大多數公司還是有點遠。


比如數據編織希望解決分布式數據源出現(xiàn)導致的數據孤島問題,但實際上大多數公司沒有那么多的分布式數據源,數據孤島問題主要還是企業(yè)的管理問題,利用數據編織去解決數據孤島問題,是純粹的技術思維,很難解決當前大多數公司的實際數據孤島問題,大家還是先老老實實去做數據治理吧。


又比如說數據編織的基礎是元數據,但元數據的缺失恰恰是現(xiàn)在大多企業(yè)最大的痛點,這極大限制了數據編織的價值,一鍵入湖其實我們10年前就想做了,但為什么現(xiàn)在才能做出來,因為那個時候源端不愿意提供全量元數據或者提供不出來或者提供的質量太差,這是由企業(yè)的基礎數據管理水平決定的,而缺失了元數據的數據編織就成了空中樓閣。

數據編織有點像當年的數據中臺,炒作了數據中臺這個概念后讓數據倉庫有了更好的演進,但數據編織估計更難一點,因為很難讓老板理解。

如果老板問我這個概念,也許我會這么解釋數據編織,即“基于知識圖譜的分布式數據智能集成、編排和自助數據服務”,然后逐個解釋清楚知識圖譜、分布式、集成、編排、智能及自助等概念,這里故意不提元數據,大家都懂的,但我其實還是沒啥信心的。

(部分內容來源網絡,如有侵權請聯(lián)系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢