日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

湖倉一體架構:數字化的終局之選!

時間:2023-04-27來源:一點小情緒瀏覽數:701

隨著數據在數字化轉型中發揮著愈發重要的作用,如何挖掘、利用、提升數據價值成為核心重點。湖倉一體的出現,突破了原有數據倉庫架構和數據湖架構的局限,兼具兩者之優點。為企業提供功能完整、可擴展、低成本、高收益的數據分析能力。相信,隨著這一技術不斷演進發展,必將加速企業數字化進程,享受到更多數據紅利。也期待有更多的廠商、產品誕生,助力企業數字化轉型!

下圖是一張非常經典的數據分析技術演進圖,從中可一窺整體發展歷程。本文將按時間順序盤點下各階段產品及技術特點,并預測下未來發展方向。

簡單可用階段:數據庫(DataBase)

早在1980年代初中期,是沒有專門面向數據分析場景的產品。當時還是以面向事務交易場景為主,數據分析僅作為附帶提供的場景。主要是面對管理層提供固定報表,滿足宏觀管理決策。

作為底層數據庫,通過標準SQL提供數據分析能力。這一架構在面對數據分析場景的缺點很明顯,擴展性差,很難支持大規模數據分析,性能也無法滿足需求。這也催生專門解決數據分析的產品出現,即后面出現的數據倉庫

規范標準階段:數倉(Data Warehouse)


到了1980年代中后期,為解決數據庫面對數據分析的不足,孕育出新一類產品數據倉庫。

讓我們先來看下數據倉庫的定義,數據倉庫(Data Warehouse)是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策和信息的全局共享。上圖是數據倉庫的應用架構,從中可見其做了若干階段劃分,簡單可分為數據集成(裝載)、數據加工(ETL)、數據匯聚、數據展示及挖掘。

數據經過這一過程,被抽取到數據倉庫中,并嚴格按照預先定義的模式被裝載進來,經過多層加工形成數據集市,并最終提供給終端應用或進一步供挖掘使用。在技術實現上,主流采用MPP無共享存儲架構,基于標準X86服務器,可實現數百節點的擴展。其對外提供標準的SQL能力和ACID特性,整體計算性能可在一定程度上隨節點擴展可提升。


數據倉庫架構非常經典,在一定時期內滿足了數據分析需求,也促進數據分析場景的演進發展。從上圖我們看到數據倉庫的發展,經歷了多個階段。從固定報表,滿足T+1時效性即可;到分析型需求增加,需提供靈活深度查詢能力;到預測型需求,需滿足多維度分析預測能力;到運營型數倉,不再局限在后臺提供服務,而強調實時變化、分析學習、反饋控制;再到智慧型數倉,強調人工智能全面感知能力。

可以說,數據倉庫一路走來,不斷演進變化,大大促進了數據在企業內的應用水平,直到今日仍然是很多企業應對數據分析的不二之選。

當然,隨著數據在企業內角色愈發重要,對其分析的要求不斷提高。傳統的數據倉庫架構也面臨很多的挑戰。例如,隨著數據規模擴大,對數據承載能力(容量、算力)的要求也不斷增大,數倉架構的擴展能力急需考驗;上述規模的擴展會面臨大量資源的投入,硬件資源缺乏彈性,會導致高峰時資源不足,低谷時資源閑置浪費問題;隨著對數據鮮活程度要求提高,對數據處理時長有著更為嚴格的要求,否則將無法指導業務運營;針對數據類型,也不在局限于結構化數據,更多半結構化、非結構化數據被更多利用起來;此外,在數據價值挖掘、數據安全等方面都提出了更高的要求。針對上述難點,也催生了一系列技術的發展,例如HTAP、大數據分析等,也包括后面重點談到的數據湖。

開放自由階段:數據湖(Data Lake)


Data Lake,是在2011年由James Dixon提出,其與數據倉庫的主要區別在于數據倉庫中數據在進入倉庫之前是需要實現歸類,而數據庫是把大量原始數據通過廉價存儲保存下來。數據倉庫具有高度結構化的架構,用戶可直接獲得分析數據;而數據湖是將數據直接加載到湖中,然后根據分析的需求再轉換數據。

數據湖架構的特點可總結為:低成本、原始數據、需靈活可使用、面向任務數據綁定、不提前定義數據模型。在實現技術上面,多采用基于Hadoop生態的產品,兼具有MPP、Hive/Spark、NoSQL、Stream/Batch能力。具備良好的擴展能力,可支持數千節點的超大規模集群。但對SQL支持偏弱、ACID特性支持差,較難從傳統數據倉庫遷移過來。業務上更為強調數據資產管理與數據服務。


這里我們對數據倉庫和數據湖做個簡單對比,可以看出兩者差異很多。基本上屬于互補關系,各有其適合覆蓋場景。前者更多是解決固定的、明確的數據問題;后者則為應對隨機性、探索式的數據問題。下圖可以更為準確的描述兩者差異。

融合共享階段:湖倉一體(LakeHouse)

提到湖倉一體,就不得不從上世紀80年代說起。當時市場還是數據倉庫的天下,主要用來處理BI、儀表盤、報表等結構化數據,用于分析企業的內部的業務數據。

這種狀態一直持續到2010年前后,越來越多企業產生對語音、視頻等數據的處理分析需求,非結構化數據、半結構化數據的增長促使企業提升了高多樣性,高速度和高容量的數據分析要求,數據倉庫慢慢不能滿足用戶的需求。

隨著數據倉庫局限性的逐步顯現,數據湖的概念也隨之衍生出來,它能夠存儲各式各樣的原始數據,解決了數據倉庫的局限性。但相比于優勢來講,湖的短板也同樣明顯,比如不支持事務,SQL性能差,無法支撐報表需求。雖然數據湖和數據倉都各自有各自的優勢和不足,但不難發現,二者在某些層面是非常互補的。

于是乎,是否有一種能兼具兩者優點的架構出現,于是誕生了“湖倉一體”。

湖倉一體1.0


早期的湖倉一體,更多是一種處理思想,處理上直接將數據湖和數據倉庫互相“打通”。數據湖從各類數據源獲得原始數據,存儲在廉價存儲上,永久不刪除。數據保持原始簡單格式、機構,無數據治理,也沒有數倉豐富的功能及高性能統一數據模型。當需要支持分析場景在成熟時從數據湖到數據倉庫的遷移。

這種架構優點在于可充分利用先前的數據湖和數據倉庫資源,利用ETL將二者“打通”,數據湖用來存儲各種原始數據,分析報表交給數據倉庫來完成,這也可以算是湖倉一體的一個雛形,但湖和倉基本上還是處于各自一體的狀態,架構仍然較為復雜,在滿足需求的同時也持續提高了企業的運維成本。

湖倉一體2.0

為了解決湖倉一體1.0的諸多問題,2.0應運而生。目前這一架構還在快速發展之中,尚無明確統一的技術框架。

總的來說,可按照上圖劃分多層次,并在每層解決對應問題。從底層數據源,需對接多種數據源(包括結構化、半結構化及非結構化數據)。之上的數據集成需提供針對不同特征數據的集成能力(包括批量、流式)。處理過后的數據放入統一存儲層,為面對不同結構的數據,需提供多模態存儲能力,甚至為滿足性能要求提供不同存儲引擎。再之上是統一的元數據、安全、管控層,通過對全局數據的完整視角管理。為滿足不同加工需求的統一處理層,層內提供多種加工能力。最上面是數據應用層。

從技術上看,云原生數據倉庫,為湖倉一體2.0提供有利支持,其技術上天然具備的存算分離、彈性擴展、多租戶、可插拔存儲、多計算引擎、分級資源管理等眾多特性可滿足上述要求。功能上兼具數據倉庫的標準SQL、ACID能力,數據湖的大規模原始數據存儲等。對上提供多種接入方式,包括標準數據庫接入方式,支持高并發讀寫;對下支持多云、混合云及跨云部署,防止廠商綁定。其技術架構可簡化為類似如下架構:

展開說明下,其底層依舊是低成本、開放的存儲,上層基于類似 Delta lake/ Iceberg/ Hudi 建設數據系統,提供數據管理特性和高效訪問性能,支持多樣數據分析和計算,綜合了數據倉庫以及數據湖的優點形成了新的架構。

存算分離架構可以進行靈活擴展;減少數據搬遷,數據可靠性、一致性和實時性得到了保障;支持豐富的計算引擎和范式;此外,支持數據組織和索引優化,查詢性能更優。當前湖倉一體還處于快速發展期,關鍵技術迭代快且成熟的產品和系統少。與之前架構的對比,這里借用《DataFunCon 2021》大會上的一張圖片加以說明。

未來趨勢、終極之選:湖倉一體2.0


國內的術路線與Snowflake在湖倉一體的思路非常相似。主要是依托云原生特性、存算分離架構、強事務特性、完整SQL標準、高性能并行執行等技術能力,實現高彈性、高性能、強擴展性、強兼容性以及上層支持機器學習等,幫助企業有效應對大規模、強敏態、高時效、智能化發展趨勢。其產品技術架構可參考如下:
在這一架構中,新一代存算分離架構產品,實踐湖倉一體2.0理念。其中核心技術亮點眾多。包括功能強大的基于代價的優化器,實現系統自動選擇最優執行計劃;可充分利用最新CPU特性SIMD單指令多數據流,能做到指令內并行的新一代執行器引擎;多級資源隊列,可通過DDL方便地定義和修改資源隊列;原生Magma存儲引擎與S3、HDFS混合使用,解決高性能與低成本的存儲問題;多種優化存儲格式,包括AO、Parquet、ORC等等。下圖簡單的做個新與傳統數倉產品。

隨著數據在數字化轉型中發揮著愈發重要的作用,如何挖掘、利用、提升數據價值成為核心重點。湖倉一體的出現,突破了原有數據倉庫架構和數據湖架構的局限,兼具兩者之優點。為企業提供功能完整、可擴展、低成本、高收益的數據分析能力。相信,隨著這一技術不斷演進發展,必將加速企業數字化進程,享受到更多數據紅利。也期待有更多的廠商、產品誕生,助力企業數字化轉型!

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢