- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2023-08-24來源:念念不忘瀏覽數:493次
01、數據編織產生的背景
首先我們來看一下在數據領域正在發生著哪些趨勢性的變化。
1、數據成為核心生產要素,成為數字化轉型不可或缺的重要元素。隨著政策的加持,大家對數據要素重要性的認知也越來越充分,企業數據總量不斷增加,但是數據孤島的情況沒從根本上得以解決,反而有變本加厲的趨勢。
2、數據結構從結構化向多元化方向進一步演進。數據的內涵和外延都進一步發展,從單純的結構化數據為主,向包含結構化、半結構化和非結構化數據在內的混合模式轉移,數據采集、使用、管理的難度進一步加大。
3、從單純關注數據應用到關注數據能力體系化建設。數據域的建設正在從單純的以數據應用為核心,向體系化的數據服務能力建設轉型,開始意識到數據管理和運營的不足,開始嘗試數據服務能力平臺化和體系化,開始探索改變數據治理“一亂一治”的被動局面。
4、數據運行環境呈現跨平臺和融合化的趨勢。隨著企業上云開展和多云架構的廣泛采納,數據運行環境正在加速融入統一的云化基礎設施中,數據采集、存儲和分析正在從離線轉向實時,對目前異構、泛在、智能的算力平臺提出了更高的要求。
以上這些趨勢性的變化,都是在實際生產中遇到的數據管理的難題和痛點,企業需要一種新的數據架構理念來應對在數據資產化進程中產生的復雜性、分布式、多元化等因素,于是數據編織出現了。
02、數據編織(Data Fabric)
首先看看業界是如何定義數據編織的,Gartner將數據編織定義為“包含數據和連接的集成層,通過對現有的、可發現和可推斷的元數據資產進行持續分析,來支持數據系統跨平臺的設計、部署和使用,從而實現靈活的的數據交付”。
Gartner認為數據編織是一種跨平臺的數據整合方式,它不僅可以集合所有業務用戶的信息,還具有靈活且彈性,的特點,使得人們可以隨時隨地使用任何數據。
下圖是Gartner給出的數據編織的典型結構:

數據源層:數據編織可以連接各種數據源。這些資源可能存在于企業內部,例如企業的ERP系統、CRM系統、MES系統、PLM系統、CAPP系統等?。還可以連接到非結構化數據源,例如,支持 PDF 和屏幕截圖等文件提交系統,支持物聯網傳感器的接入等。數據編織還可以從公共可用數據渠道提取數據,比如社交媒體等。數據目錄層:與傳統人工編目不同,數據編織強調采用新技術,例如:語義知識圖、主動元數據管理和嵌入式機器學習 (ML),自動識別元數據,持續分析關鍵指標和統計數據的可用元數據,然后構建圖譜模型,形成基于元數據的獨特和業務相關關系,以易于理解的圖譜方式描述元數據。知識圖譜層:數據編織必須構建和管理知識圖譜。知識圖譜的語義層使用 AI/ML 算法簡化數據集成設計,使其更加直觀和易于解釋,使數字化領導者的分析變得容易。?基于知識圖譜的數據應用,將合適的數據在合適的時機自動化推送給數據集成專家和數據工程師,讓他們能夠輕松訪問數據并進行數據共享和使用。數據集成層:數據編織提供自動編織、動態集成的能力,兼容各種數據集成方式,包括但不限于 ETL、流式傳輸、復制、消息傳遞和數據虛擬化或數據微服務等。同時,支持通過 API 支持與內部和外部利益相關者共享數據。數據消費層:數據編織面向所有類型的數據用戶,提供數據和服務,包括:數據科學家、數據分析師、數據工程師等,既能夠面向專業的IT 用戶的復雜集成需求處理,也可以支持業務人員的自助式數據準備和分析。
數據編織使用基于網絡的架構而不是點對點的連接來處理數據,實現了從數據源層面到分析、洞察力生成、協調和應用的一體化數據結構。
結論:數據編織是一種數據架構理念(而非一組特定的工具),其通過提供一種統一的方法來管理異構數據工具鏈,其能夠將可信數據從所有相關數據源、以靈活且業務可理解的方式交付給所有相關數據消費者,從而提供比傳統數據管理更多的價值。
03、數據中臺
在主流的數據中臺概念中,也強調支持各種數據源(結構化的/半結構化的/非結構化的),提供數據目錄、數據標簽、數據分析等服務,提供數據資產的動態化管理,支持為不同數據用戶提供數據服務,解決企業的數據孤島,讓數據用起來。這些特點都與數據編織很相似,只不過數據編織更強調人工智能和知識圖譜的應用。數據中臺并不是全新的技術和產品,更多是由一些技術組件組合而形成的一個綜合性的數據應用解決方案,例如:基于數據湖的數據存儲服務、基于各種數據管理組件的數據治理服務,基于大數據平臺的數據計算和處理服務,以及提供面向應用的數據標簽、數據目錄、數據分析服務等。結論:數據中臺是一個綜合性的數據應用解決方案,指的是將組織內各個業務部門的數據整合到一個統一的平臺中,以提供數據共享和協作。數據中臺旨在構建一個數據驅動的組織,通過整合數據資源,實現數據的可視化、分析和應用。數據治理與數據中臺架構(滿分資料)
04、數據治理
數據治理如今是一個很常見的概念,按照DAMA的定義,數據治理即對數據資產管理行使權力、控制和共享決策(規劃、監測和執行)的系列活動。大家都知道,數據治理是對數據管理的管理,它是基于內部數據標準、策略和規則,管理企業數據的可用性、完整性和安全性,從而將數據資源轉化為數據資產。數據治理涵蓋了數據管理的各種主題,例如:數據戰略、數據架構、數據建模、數據存儲和操作等。
從目前來看,數據治理的發展趨勢,有很多方面已經很明確了,比如數據治理與AI的結合、數據安全與數據治理的深度融合、數據價值呈現成為數據治理的關注焦點。結論:數據治理是一套策略、流程和技術,用于確保數據的合規性、質量和安全性。數據治理涉及數據的定義、分類、標準化、數據主人的定義和責任分配、數據訪問控制等方面。數據治理的目標是確保數據可信度和可用性,促進數據驅動決策和業務價值的實現。園區大數據治理解決方案[107頁PPT]
05、DataOps
DataOps的目標是為了使數據資源和數據應用的開發變得更加有序和可控,實現組件和能力重用以及過程自動化,實現面向用戶的自助式數據分析。DataOps 強調的是數據應用的開發和運維效率,就像DevOps 一樣,DataOps 希望通過提供一整套工具和方法論,來讓數據應用的開發和管理更加高效。
結論:DataOps是一種工程方法論和一套實踐方法,旨在快速、可靠、可重復、持續地交付生產就緒數據以及運營就緒分析和數據科學模型。DataOps 通過支持數據版本控制、數據轉換、數據血緣和分析模型的工程學科來增強和推進數據治理。DataOps提供敏態數據開發支撐,優化數據生產者和數據消費者協作效率。
06、各種概念對比
1、數據編織 VS 數據中臺
數據中臺是由相關技術組件組成的一個綜合性的解決方案,重點是提供面向應用的數據標簽、數據目錄、數據分析、模型算法服務等各類數據服務。而數據編織更側重實現異構融合多樣的數據資產服務,強調自動化的集成和智能數據編排。數據中臺是一個“讓數據用起來”的方法論,不僅包含數據管理和使用的相關技術組件,還包括與之相適應的企業組織機構、管理制度和流程、運營機制和考核辦法等。而數據編織一開始就強調新技術的應用,例如:機器學習、人工智能、知識圖譜等,且構建和管理知識圖譜是其核心支持從數據源級別到分析、洞察力生成、編排和應用程序的集成數據層(結構),數據編織的技術色彩更濃一些。
2、數據編織 VS 數據集成
數據集成是融合異構存儲集合的數據并構造統一數據視圖的過程,包括了數據合并、數據轉換、數據清洗等,其專注于復制、移動數據,如ETL加工、數據同步等。數據編織是一種架構思想,跟數據集成本來是無法直接比較的,但由于數據虛擬化是實現數據編織架構中的關鍵技術之一,因此可以比較下數據虛擬化和數據集成的區別,數據虛擬化可以在不移動數據的情況下從源頭訪問數據,通過更快、更準確的查詢幫助縮短實現業務價值的時間,具體包括跨平臺敏捷集成、統一語義、低代碼創建數據API、智能緩存加速等功能,數據虛擬化跟數據集成還是有本質區別的,假如沒有虛擬化能力,數據是很難編織起來的,當然,數據編織遠遠超越了數據虛擬化的范疇。
3、數據編織 VS 數據湖
數據湖只是數據編織的異構數據源之一(數據源可以是數據倉庫、數據湖,也可以是業務數據庫等其他數據存儲),數據編織將應用程序與數據湖(或者數據倉庫等)進行連接,通過統一的數據管理框架支持在分布式的環境中進行數據消費。
4、數據編織 VS 數據治理
在傳統的數據治理體系中是沒有包含數據編織的,但數據編織是一種數據管理的全新架構,是自動化、智能化數據治理的一個理想解決方案,從數據架構層面增強了企業數據管理的能力,是傳統數據治理的重要補充。
5、數據編織 VS DataOps
DataOps是將數據編織真正落地一個重要的推動者。DataOps 的數據流程模型、工具和數據洞察與用戶數據需求之間存在密切的聯系,該模型與數據編織的架構具有共生關系,DataOps 數據流程模型和思維模式是數據編織落地的核心關鍵。總的來說,這些概念之間存在一定的關聯和重疊。數據編織可以看作是數據中臺和DataOps的結合,它關注數據整合和數據流程的靈活性和效率。數據治理則是數據編織和數據中臺的基礎,通過確保數據質量和合規性,為數據編織和數據中臺提供可信的基礎。DataOps可以在數據編織和數據中臺中發揮重要作用,通過自動化和持續交付的方式加速數據處理和數據產品的交付。因此,這些概念通常是相互關聯和相互支持的,共同構建一個數據驅動的組織。
07、數據編織將如何發展
Data Fabric是近兩年在國外備受追捧的概念,而在國內剛剛起步。之前IT技術從概念到落地大概需要10年左右的時間,近些年這個時間已經大大縮短。可以預見的是,Data Fabric在國內也將被越來越多的企業用于解決數據資產多樣性、分散性、規模化和復雜性不斷增加以及數據使用人群和應用場景爆發式增長帶來的一系列問題。
這個過程中,依然有一些可以預見的問題,需要我們去重視。
1、回歸數據資源化和服務化的本源
數據編織在落地過程中,還是要回歸數據資產化和服務化這一初衷,不要把多元數據的動態管理演變成了打造另外一個數據湖。除了資產化和服務化,更要關注平臺化,要注意數據集成,動態的數據集成。強調組件之間的互操作性,通過API和SDK實現集成層、無縫數據傳輸以及自動數據洞察的獲取。
2、依托統一的異構泛在的智能基礎設施
數據編織千萬不能走煙囪式IT建設的老路,必須面向企業復雜的數據環境提供集成整合能力,克服異構泛在的云化基礎設施帶來的挑戰。依托數據編織,根據不斷變化的技術和業務需求,自由地從一系列混合 IT 基礎架構資源中運行關鍵的數據業務。
3、關注與物聯網和邊緣計算的深度融合
邊緣計算專為支持物聯網實施而構建,它是將與數據相關的關鍵任務從集中式應用程序轉移到一個單獨的邊緣層,該邊緣層是分布式的,但與數據編織緊密相連。通過使數據編織適配邊緣計算,企業可以從其物聯網設備中獲得更多數據價值。
數據編織的初衷是實現泛在的數據資產化和自動編排,這其中物聯網和端側數據是必須要充分考慮的重要場景,從目前趨勢來看,部分關鍵數據任務一定會從集中式的算力中心下沉到邊緣計算節點。數據編織必須實現與邊緣計算的深度融合,以便實現更范圍的數據資產化,獲取更大的數據價值。
寫在最后的話
從國內的行業現狀來看,國內還沒有真正意義上的成熟的Data Fabric。究其原因,是跟國內廠商在數據領域的布局有關,國內數據廠商大多分布在數據庫和數據分析等領域,在數據整合和治理領域相對薄弱。在國外的實踐來看,Data Fabric比較活躍的是從事數據整合和數據虛擬化的公司。
總的來說,Data Fabric作為一個新興的概念,還需進一步的成熟和完善,但是窗口期不會太久。