日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

什么是數據編織,與數據中臺、數據湖、數據治理、DataOps有何關系

時間:2023-07-11來源:小億瀏覽數:963

數據領域的新概念真是層出不窮呀~數據中臺的火剛熄滅,又看到人家說“數據治理的下一站是DataOps”,“數據編織是數據中臺的一下站”。作為一個好學的的數據人,讓得看看“數據編織”又是個什么鬼,到底是一場概念的炒作,還是真正的技術革新?死磕這些概念,看看到底有什么不同。
文章有點長,先上精簡版結論!
1.數據編織是是一種數據架構理念,而非一組特定的工具;
2.數據湖只是數據編織的異構數據源之一;
3.數據編織和數據中臺不是一個概念,數據編織也不是數據中臺的高級版;
4.數據編織是自動化、智能化數據治理的一個理想解決方案,是傳統數據治理的重要補充;
5.DataOps是將數據編織真正落地一個重要的推動者。

01、數據編織

其實數據編織不是一個特別新的詞,Gartner在2022年的重要戰略技術趨勢報告里面,第三次把“數據編織”列為十大技術趨勢之一。

當下,數據是企業數字化轉型重要驅動因素,而企業的數據環境日趨復雜:內部數據/外部數據,實時數據/批處理數據,結構化數據/半結構化數據/非結構化數據,本地數據/云端數據,單機數據/分布式數據……,在更高程度數字化要求下,企業必須使用一種新型的數據結構來應對企業數據資產日益加劇的多樣化、分布式、規模、復雜性等問題。在這樣的背景下,一種新興的數據管理和處理方法——數據編織(Data Fabric)誕生了。

首先看看業界是如何定義數據編織的,Gartner將Data Fabric定義為“包含數據和連接的集成層,通過對現有的、可發現和可推斷的元數據資產進行持續分析,來支持數據系統跨平臺的設計、部署和使用,從而實現靈活的的數據交付”。

△圖片來源:gartner

Gartner認為數據編織是一種跨平臺的數據整合方式,它不僅可以集合所有業務用戶的信息,還具有靈活且彈性,的特點,使得人們可以隨時隨地使用任何數據。下圖是Gartner給出的數據編織的典型結構,自下而上分為5個層次:

△圖片來源:gartner

數據源層:數據編織可以連接各種數據源。這些資源可能存在于企業內部,例如企業的ERP系統、CRM系統或人力資源系統 。還可以連接到非結構化數據源,例如,支持 PDF 和屏幕截圖等文件提交系統,支持物聯網傳感器的接入。數據編織還可以從公共可用數據(如社交媒體)等外部系統中提取數據。

數據目錄層:與傳統人工編目不同,數據編織強調采用新技術,例如:語義知識圖、主動元數據管理和嵌入式機器學習 (ML),自動識別元數據,持續分析關鍵指標和統計數據的可用元數據,然后構建圖譜模型,形成基于元數據的獨特和業務相關關系,以易于理解的圖譜方式描述元數據。

知識圖譜層:數據編織必須構建和管理知識圖譜。知識圖譜的語義層使用 AI/ML 算法簡化數據集成設計,使其更加直觀和易于解釋,使數字化領導者的分析變得容易。 基于知識圖譜的數據應用,將合適的數據在合適的時機自動化推送給數據集成專家和數據工程師,讓他們能夠輕松訪問數據并進行數據共享和使用。

數據集成層:數據編織提供自動編織、動態集成的能力,兼容各種數據集成方式,包括但不限于 ETL、流式傳輸、復制、消息傳遞和數據虛擬化或數據微服務等。同時,支持通過 API 支持與內部和外部利益相關者共享數據。

數據消費層:數據編織面向所有類型的數據用戶,提供數據和服務,包括:數據科學家、數據分析師、數據集成專家、數據工程師等,既能夠面向專業的IT 用戶的復雜集成需求處理,也可以支持業務人員的自助式數據準備和分析。
作為一種新興的數據管理和處理方法,數據編織改進了數據倉庫和數據湖的概念,引入了一個新的架構(網絡狀),使整個企業能夠統一利用數據。數據編織使用基于網絡的架構而不是點對點的連接來處理數據,實現了從數據源層面到分析、洞察力生成、協調和應用的一體化數據結構。

結論:數據編織是一種數據架構理念(而非一組特定的工具),其通過提供一種統一的方法來管理異構數據工具鏈,其能夠將可信數據從所有相關數據源、以靈活且業務可理解的方式交付給所有相關數據消費者,從而提供比傳統數據管理更多的價值。

02、數據中臺

乍一看數據編織有點很眼熟,有種“似曾相識”的趕腳,是不是與我們的“數據中臺”的概念有點像?在主流的數據中臺概念中,也強調支持各種數據源(結構化的、半結構化的、非結構化的),提供數據目錄、數據標簽、數據分析等服務,提供數據資產的動態化管理,支持為不同數據用戶提供數據服務,解決企業的數據孤島,讓數據用起來。這些特點都與數據編織很相似,只不過數據編織更強調人工智能和知識圖譜的應用。因此,也有專家提出“數據編織是數據中臺的下一站!”。

數據中臺并不是全新的技術和產品,更多是由一些技術組件組合而形成的一個綜合性的數據應用解決方案,例如:基于數據湖的數據存儲服務、基于各種數據管理組件的數據治理服務,基于大數據平臺的數據計算和處理服務,以及提供面向應用的數據標簽、數據目錄、數據分析、模型算法服務等。

結論:數據中臺是一個綜合性的數據應用解決方案,指的是將組織內各個業務部門的數據整合到一個統一的平臺中,以提供數據共享和協作。數據中臺旨在構建一個數據驅動的組織,通過整合數據資源,實現數據的可視化、分析和應用。

03、數據治理

數據治理如今是一個很常見的概念,按照DAMA的定義,數據治理即對數據資產管理行使權力、控制和共享決策(規劃、監測和執行)的系列活動。大家都知道,數據治理是對數據管理的管理,它是基于內部數據標準、策略和規則,管理企業數據的可用性、完整性和安全性,從而將數據轉化為企業資產。

數據治理涵蓋了數據管理的各種主題,例如:數據戰略、數據架構、數據建模、數據存儲和操作、數據安全、數據質量、元數據、數據集成和互操作性、文檔和內容、參考數據和主數據、數據倉庫和商業智能等。

△DAMA數據治理車輪圖

從目前來看,數據治理的發展趨勢,有很多方面已經很明確了,比如數據治理與AI的結合、數據安全與數據治理的深度融合、數據價值呈現成為數據治理的關注焦點。

結論:數據治理是一套策略、流程和技術,用于確保數據的合規性、質量和安全性。數據治理涉及數據的定義、分類、標準化、數據主人的定義和責任分配、數據訪問控制等方面。數據治理的目標是確保數據可信度和可用性,促進數據驅動決策和業務價值的實現。

04、DataOps

近幾年,DataOps數據開發治理一體化在業界非常受歡迎。部分數字化轉型較早、數據資源條件優厚的企業,借鑒傳統DevOps的理念,將原本分散的數據治理、管理、開發和應用等環節打通,形成一個無縫銜接的大閉環,去破解企業在數據應用中的難題。

我們一般理解,DataOps的目標是為了使數據資源和數據應用的開發變得更加有序和可控,實現組件和能力重用以及過程自動化,實現面向用戶的自助式數據分析。DataOps在數據開發運營體系化方面,可以作為數據中臺建設必須參考的一個方法論。DataOps 強調的是數據應用的開發和運維效率,就像DevOps 一樣,DataOps 希望通過提供一整套工具和方法論,來讓數據應用的開發和管理更加高效。

DataOps 的工作主要有五個方向:

第一個是任務調度。主要包括云原生調度、容器的調度,這跟 DevOps 是一樣的。

第二個是數據安全。數據安全以前基本不在 DataOps 的考慮范圍,也不在數據開發的范圍內,但現在數據安全很重要。

第三個就是數據管理和數據門戶。大家可能會說原數據管理不都好多年了,但以前的原數據管理主要是針對關系型數據庫,關系型數據庫對原數據的管理相對容易,只要到數據庫里把原數據爬出來就可以。但現在有流數據、非結構化數據,還有 TaiDB 等,各種各樣的原數據怎么樣去管理?血緣管理更復雜了。之前是幾個 SQL 之間的血緣管理,現在關系到各種各樣的查詢、各種各樣的系統、數據門戶跟 MapDatas 是一樣的。

第四是數據檢測的可視化。DevOps 里有很多可監測到的指標,數據層面也一樣。用多少資源、花多少時間、創造了多少價值,之前都是一個黑盒子,但 DataOps 的整個數據都是端到端的,相關指標可觀測、可管理。

第五就是集成開發。所有的工具必須是可集成的,不可能做一個工具負責血緣管理,再做一個工具負責調度。

結論:DataOps是一種工程方法論和一套實踐方法,旨在快速、可靠、可重復、持續地交付生產就緒數據以及運營就緒分析和數據科學模型。DataOps 通過支持數據版本控制、數據轉換、數據血緣和分析模型的工程學科來增強和推進數據治理。DataOps能服務于業務部門、大數據部門,提供敏態數據開發支撐,優化數據生產者和數據消費者協作效率。

05、各種概念對比

數據編織 VS 數據中臺

明確的說,數據編織和數據中臺不是一個概念,是不同的技術陣營營造的出來的概念,數據編織也不是數據中臺的高級版。
數據中臺是由相關技術組件組成的一個綜合性的解決方案,重點是提供面向應用的數據標簽、數據目錄、數據分析、模型算法服務等各類數據服務。而數據編織更側重實現異構融合多樣的數據資產服務,強調自動化的集成和智能數據編排。

數據中臺是一個“讓數據用起來”的方法論,不僅包含數據管理和使用的相關技術組件,還包括與之相適應的企業組織機構、管理制度和流程、運營機制和考核辦法等。而數據編織一開始就強調新技術的應用,例如:機器學習、人工智能、知識圖譜等,且構建和管理知識圖譜是其核心支持從數據源級別到分析、洞察力生成、編排和應用程序的集成數據層(結構),數據編織的技術色彩更濃一些。

數據編織 VS 數據集成

數據集成是融合異構存儲集合的數據并構造統一數據視圖的過程,包括了數據合并、數據轉換、數據清洗等,其專注于復制、移動數據,如ETL加工、數據同步等。

數據編織是一種架構思想,跟數據集成本來是無法直接比較的,但由于數據虛擬化是實現數據編織架構中的關鍵技術之一,因此可以比較下數據虛擬化和數據集成的區別,數據虛擬化可以在不移動數據的情況下從源頭訪問數據,通過更快、更準確的查詢幫助縮短實現業務價值的時間,具體包括跨平臺敏捷集成、統一語義、低代碼創建數據API(支持SQL、REST、OData和GraphQL等技術)、智能緩存加速等功能,數據虛擬化跟數據集成還是有本質區別的,假如沒有虛擬化能力,數據是很難編織起來的,當然,數據編織遠遠超越了數據虛擬化的范疇。

數據編織 VS 數據湖

數據湖只是數據編織的異構數據源之一(數據源可以是數據倉庫、數據湖,也可以是業務數據庫等其他數據存儲),數據編織將應用程序與數據湖(或者數據倉庫等)進行連接,通過統一的數據管理框架支持在分布式的環境中進行數據消費。

數據編織 VS 數據治理

在傳統的數據治理體系中是沒有包含數據編織的,但數據編織是一種數據管理的全新架構,是自動化、智能化數據治理的一個理想解決方案,從數據架構層面增強了企業數據管理的能力,是傳統數據治理的重要補充。

數據編織 VS DataOps

數據編織和DataOps肯定不是相同的概念,但DataOps是將數據編織真正落地一個重要的推動者。DataOps 的數據流程模型、工具和數據洞察與用戶數據需求之間存在密切的聯系,該模型與數據編織的架構具有共生關系,DataOps 數據流程模型和思維模式是數據編織落地的核心關鍵。

總的來說,這些概念之間存在一定的關聯和重疊。數據編織可以看作是數據中臺和DataOps的結合,它關注數據整合和數據流程的靈活性和效率。數據治理則是數據編織和數據中臺的基礎,通過確保數據質量和合規性,為數據編織和數據中臺提供可信的基礎。DataOps可以在數據編織和數據中臺中發揮重要作用,通過自動化和持續交付的方式加速數據處理和數據產品的交付。因此,這些概念通常是相互關聯和相互支持的,共同構建一個數據驅動的組織。
(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢