日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

億信ABI

一站式數據分析平臺

ABI(ALL in one BI)是億信華辰歷經19年匠心打造的國產化BI工具,技術自主可控。它打通從數據接入、到數據建模與處理、再到數據分析與挖掘整個數據應用全鏈路,可滿足企業經營中各類復雜的分析需求,幫助企業實現高效數字化轉型。

億信ABI

一站式數據分析平臺

億信華辰深耕商業智能十多年,
打造一體化的填報、處理、可視化平臺。

解析湖倉一體的支撐技術及實踐路徑

時間:2023-08-14來源:億信華辰瀏覽數:701

自2021年“湖倉一體”首次寫入Gartner數據管理領域成熟度模型報告以來,隨著企業數字化轉型的不斷深入,“湖倉一體”作為新型的技術受到了前所未有的關注,越來越多的企業視“湖倉一體” 為數字化轉型的重要基礎設施。

01、數據平臺的發展歷程

需求催生技術革新,在存儲海量數據需求的推動下,數據平臺架構持續演進,經過數十年的發展,主要經歷了數據庫、數據倉庫、數據湖三個階段。湖倉一體是數據平臺發展的重要趨勢。

第一階段:數據庫
誕生于20世紀60年代,主要用于OLTP場景。代表產品: Oracle、SQL Server、Mysql等

第二階段:數據倉庫
20世紀90年代代數據倉庫理論被提出,主要用OLAP場景分析。傳統數倉有Clickhouse、Greenplum等,云數倉有AWS redshift、Snowflake等。

第三階段:數據湖
2010年數據湖概念被提出,隨著三大開源數據湖技術的成熟,數據湖產品加速落地。代表產品有亞馬遜-S3、LakeForation,阿里云-數據湖構建DLF、數據開發治理Dataworks、對象存儲OSS、開源大數據平臺EMR等。

02、數據湖、數據倉庫特性分析

數據倉庫主要用于解決單個關系型數據庫架構,無法支撐龐大數據量的數據存儲問題,很好地解決了TB到PB級別的數據處理問題,但是由于數據倉庫仍以結構化數據為主,無法解決業務增長帶來的半結構化、非結構化數據的存儲、處理問題,且其整個建設過程需要遵循一系列規范,比如標準化的數據集成模式和存儲格式、統一的數據倉庫分層分域模型以及指標體系建設等,帶來了數據倉庫建設存儲成本高、維護開發難度大、擴展能力受限制等問題。?

數據湖的出現很好解決了數據倉庫建設存在的一系列問題,將數據管理的流程簡化為數據入湖和數據分析兩個階段。數據湖支持各種 類型數據的統一存儲。數據分析則以讀取型(schema on read)形式,極大提升分析效率。然而數據湖對多樣類型數據的支持以及靈活高效的 分析方式,帶來了數據治理難的問題,比如因為缺乏治理導致數據質量下降、數據不可用等,很容易退化形成數據沼澤。?

結論:數據倉庫和數據湖是兩套相對獨立的體系,各有優劣勢,無法相互替代。

△數據湖與數據倉庫對比表

03、湖+倉混合業務架構

為滿足存儲多種數據類型、多場景分析等業務訴求,企業采用混合部署模式,數據湖、數據倉庫、關系型數據庫等多種架構并存,其中數據湖和數據倉庫通過ETL進行數據交換。

數據湖和數據倉庫是兩套獨立的體系,其中數據湖基于 Hadoop 技術生態 (HDFS、Spark、Flink 等技術)來實現,主要用于支撐多源異構的數 據存儲,執行批處理、流處理等工作負載。數據倉庫主要基于 MPP 或 者關系型數據庫來實現,主要支撐結構化數據在 OLAP 場景下的 BI 分析和查詢需求。

△湖+倉混合架構圖

“數據湖+數據倉庫”混合架構滿足了結構化、半結構化、非結構化數據高效處理需求,解決了傳統數據倉庫在海量數據下加載慢、數據查詢效率低、難以融合多種異構數據源進行分析的問題,但也存在明顯的四大弊端。一是數據冗余,增加存儲成本。二是兩個系統間額外的 ETL(抽取、轉化、加載)流程導致時效性差。三是數據一致性保障低,增加數據校驗成本。四是混合架構復雜,開發運維難度大、成本高。

04、湖倉一體實踐路徑

“數據湖+數據倉庫”混合架構是技術向業務妥協的一個產物,并不是真正意義的湖倉一體平臺。2020年Databrics提出“湖倉一休”概念。湖倉一體是指融合數據湖與數據倉庫的優勢,形成一體化、開放 式數據處理平臺的技術。通過湖倉一體技術,可使得數據處理平臺底 層支持多數據類型統一存儲,實現數據在數據湖、數據倉庫之間無縫 調度和管理,并使得上層通過統一接口進行訪問查詢和分析。具備的能力包括:

多模存儲:多樣數據統一存儲
架構統一:統一資源調度、存儲管理、計算引擎、查詢接口
性能優越:數據加工鏈路縮短資源復用性增加、時效性提高
場景多元:多樣化業務場景和極致用戶體驗

△湖倉一體架構技術架構圖?

總體來看,湖倉一體通過引入數據倉庫治理能力,既可以很好地解決數據湖建設的數據治理難問題,也能更好地挖掘數據湖中的數據價值,將高效建倉和靈活建湖兩大優勢融合在一起,提升了數據管理效率和靈活性。

企業需求的驅動下,數據湖與數據倉庫在原本的范式之上向其限制范用擴展,逐漸形成了“湖上建倉”與“倉外掛湖”兩種湖倉一體實現路徑。湖上建倉和倉外掛湖雖然出發點不同,但最終湖倉一體的目標標一致。

△兩種實現路徑對比表

湖上建倉
定義:是指基于云存儲或第三方對象存儲的云數據湖架構,或者基于開源 Hadoop 生態體系并以 DeltaLake、Hudi、Iceberg 三大開 源數據湖作為數據存儲中間層實現多源異構數據的統一存儲,以統一調用接口方式調用計算引擎,最終實現上下結構的湖倉一體架構。
原理:以數據湖為基石,在數據湖中引入數據倉庫的數據治理能力,實現數據湖到湖倉一體的進化。
實現方案:基于云存儲或第三方對象存儲的云數據湖架構,基于開源Hadoop生態體系擴展。

倉外掛湖
定義:是指以 MPP 數據庫為基礎,使用可插拔架構,通過開放接口對接外部存儲實現統一存儲,在存儲底層共享一份數據,計算、 存儲完全分離,實現從強管理到兼容開放存儲和多引擎。
原理:以MPP數據庫為核心,使用可插拔架構,通過開放接口對接外部存儲實現統一存儲。
實現方案:基于云原生MPP數據庫構建。


05、億信華辰湖倉一體解決方案

湖倉一體的核心是實現數據湖和數據倉庫中的數據、元數據的無縫打通,并可自由流動。億信華辰結合多年的BI和數倉實施經驗,綜合傳統數據倉庫和現代數據湖兩種技術特點,推出了倉湖一體解決方案。該建設方案涵蓋數據存儲、數據集成、數據交換、數據共享等多個方面,綜合數據湖、數據倉庫兩種技術演進方向,為企業用戶提供云原生倉湖一體解決方案,構建企業數字化新基座。

△技術架構

億信華辰倉湖一體數據中心定位于為企業提供易于部署、開發、運維的數據底座平臺,平臺提供的能力包括:數據的統一分類存儲,數據采集加工的流程自動化,可視化的數據開發,提供多樣化的數據共享訪問標準接口等等。建設內容包括數據采集、數據處理、數據建模、數據交換四大方面。

湖倉一體行業正處在發展初期,總的來看湖倉一體并不是一個純技術攻關工作,而是技術逐步融合、整合的過程,其本質是異構數據平臺走向一體化的過渡階段。億信華辰基于客戶需求和技術演進趨勢持續創新,為企業客戶提供倉湖一體解決方案,致力于構建企業數據資源共享池,讓企業業務的創新更敏捷,業務洞察更準確,加速釋放數據價值。
(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢