- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-01-13來源:烏茜瀏覽數:519次
作為數據行業的一名從業者,不僅要關注當前數據技術發展,還要關注數據技術未來發展趨勢。
為什么?哎,這個社會內卷太厲害,牛人一大堆,稍有不小心,懈怠,沒有核心競爭力,就會失業,丟飯碗,但仍然還要面對各種貸款,各種壓力。
2022年初再回顧2021年的時候,發現數據技術界有個名詞非常的火熱-[data fabric],這不是在中國,而是在國外,國內呢,數據中臺火的一塌糊涂。
到處都在談數據中臺,面試的時候,制定計劃會議的時候,搞數據戰略的時候,圓桌論壇上,到處都在談。今天本文就不會再說這個話題了,來聊聊data fabric。
今天從以下四個方面來聊一聊:

互聯網世界,每隔10年,就會出? 現一個風口。15年前是數據倉庫,5年前的大數據和數據湖,國內幾天數據湖才熱起來。今天有一個名叫Data Fabric的數據架構浮出水面,開始引發人們的廣泛關注。我們先來看看,當前的數據架構和十多年前有什么不同。在數據倉庫時代,企業的數據量還不算大,一般幾十個TB, 數據倉庫的建設一般采用中心化的方式,將各個應用系統的數據,從各個系統抽取出來,清洗轉換后,加載到數據倉庫里。由于架構相對簡單,各種數據模型比較直觀,相關的數據集成的工具軟件及元數據管理的重要性并不突出,很多人選擇了忽視這一部分。而到了大數據時代,由于非結構化數據的導入,數據量大了,企業擁有上PB的數據如家常便飯一樣。但數據架構還是集中式,工具軟件及元數據還是沒有被廣泛地應用,并且還不成熟。今天已經到了一個云的時代,大家都在搞云原生。在企業內部,有各種業務系統,數據倉庫(Data Warehouse)和很多針對各個部門的數據集市(Data Mart),大數據平臺( Big Data Platform)和數據湖(Data Lake)往往也是不可缺少。除了本地私有云平臺,往往很多應用也會放到公有云平臺之上,構建混合云,包括豬豬現在公司也是混合云的方式。在這樣一個混合云,且分布式的數據架構中,如果我們為了獲取數據,還要把數據搬移復制,集中到某一個地方去,其成本將會非常之大。因此,是否有辦法既不需要搬動數據,允許數據還是保留在各個應用系統里,又能讓數數據科學家們和使用者,在需要的時候能夠非常方便快捷地獲取這些數據呢?于是,一個名為Data Fabric 的數據架構因此而誕生了。
Forrester是這樣說的:“Data Fabric是以一種智能和安全的并且是自服務的方式,動態地協調分布式的數據源,跨數據平臺地提供集成和可信賴的數據,支持廣泛的不同應用的分析和使用場景”。Gartner是這樣說的:Gartner defines data fabric as a design concept that serves as an integrated layer (fabric) of data and connecting processes. A data fabric utilizes continuous analytics over existing, discoverable and inferenced metadata assets to support the design, deployment and utilization of integrated and reusable data across all environments, including hybrid and multi-cloud platforms.Gartner 將數據結構定義為一種設計概念,它充當數據和連接過程的集成層(結構)。數據結構利用對現有、可發現和推斷的元數據資產的持續分析,以支持跨所有環境(包括混合云和多云平臺)設計、部署和利用集成和可重用數據。?Data Fabric 利用人和機器的能力來訪問數據或在適當的情況下支持其整合。它不斷地識別和連接來自不同應用程序的數據,以發現可用數據之間獨特的、與業務相關的關系。洞察力支持重新設計的決策,通過快速訪問和理解提供比傳統數據管理實踐更多的價值。
??
看到這里,大家有沒有發現很難表述清楚,在和別人反復溝通和討論,有人這樣說:“使需要用數據的人,隨時能夠知道到他要的數據在哪里,數據質量如何,他可以如何方便地獲取他需要的數據。Data Fabric 的主要作用:把正確的數據,在正確的時間,傳送給正確的人。通過 Data Fabric , 對的人可以從對的地點,在對的時間,獲取對的數據。
data fabric架構:

Gartner: An ideal, complete data fabric design with its many components.Data Fabric 可以同時給業務和技術團隊帶來明確的價值。從業務層面來看,由于企業能更容易地獲得高質量的數據,從而能更快和更精確地獲得企業數據洞察。數據科學家和業務人員能夠花更多時間在數據分析上,而不是去尋找和準備數據,可以給數據使用者提供完美的自我服務的數據消費體驗。優質和全面的數據,可以避免由于數據訪問的限制而造成的數據分析偏差,從而可以提升企業數據的合規性和安全性。從技術層面來說,由于較少的數據復制的次數和數量,從而減少了數據集成的工作,方便維護數據質量和標準,也減少了硬件架構和存儲的開銷。?由于減少了數據復制和大大優化了數據流程,加快并簡化了數據處理過程,從而通過實施自動化的整體數據策略,減少了數據訪問管理的工作。

要實現上述的Data Fabric 的目標,至少需要四個方面的基本能力:1.能夠在數據之間建立虛擬鏈接,簡化數據訪問的模式,從而減少數據復制的數量。2. 需要建立一個企業的數據目錄,并需要利用AI技術,自動化地實現基于語義和知識的分析,理解數據及其業務含義,并建立知識圖譜, 從而使數據目錄變得智能化和自動化。能夠讓需要數據的用戶,隨時了解他所需要的數據在哪里、數據質量如何等。3. 建立自動化的數據平臺,并且允許用戶通過自服務的方式,訪問并獲取數據。4. 通過提供整體的自動化策略,確保數據安全,增加數據的隱私和權限保護,并提高數據的質量。
Data Fabric 目前是一個IT熱點,眾多國際著名的 IT公司包括IBM、informatica和 Telend等,均推出了針對 Data Fabric 的解決方案。其中,IBM 公司的Cloud Pak for Data針對上述Data Fabric 必須具備的四個基本能力,都能給予很好的支持。IBM早在十多年前,就已經推出了有關數據虛擬化的方案Data Virtualization, 目前這個方案的功能日趨豐富。IBM的數據目錄Watson Knowledge Catalog是業界最強大的智能數據目錄解決方案,其中大量使用了IBM企業級 AI和機器學習的技術,使數據目錄智能化和自動化,并具有知識圖譜的能力,方便業務用戶使用。IBM數據目錄方案內嵌了數據安全和數據隱私保護的功能,確保在數據共享的過程中能符合GDPR的數據隱私保護要求。同時,IBM作為一個老牌的專業數據集成的供應商,其數據復制和數據集成的自服務能力也日趨完善。IBM Cloud Pak for Data 應該是目前業界應對 Data Fabric 功能最為完善的數據平臺。

Data Fabric 這個概念在國際上已經熱起來了,但目前國內的IT用戶知道的人還不多。20年前數據倉庫在國外興起后,用了6到8年才傳到中國。10年前大數據的概念在國外興起后,不到三年就被中國用戶廣泛接受。目前這個 Data Fabric 概念,中國可以用多快的速度接受并加以應用呢?我們拭目以待!