本文為賽迪顧問(wèn)軟件與信息服務(wù)業(yè)研究專(zhuān)家對(duì)《湖倉(cāng)一體技術(shù)研究報(bào)告》進(jìn)行深入解讀的內(nèi)容總結(jié)。本次解讀分享,結(jié)合湖倉(cāng)一體技術(shù)的發(fā)展歷程,對(duì)現(xiàn)階段業(yè)界重點(diǎn)產(chǎn)品,典型案例,未來(lái)趨勢(shì)等多方面內(nèi)容進(jìn)行了剖析,綜合評(píng)判了湖倉(cāng)一體技術(shù)的發(fā)展階段及未來(lái)應(yīng)用場(chǎng)景。
01 發(fā)展歷程?
從數(shù)據(jù)管理架構(gòu)的發(fā)展來(lái)看,湖倉(cāng)一體技術(shù)的發(fā)展可分為三個(gè)階段。第一階段是上世紀(jì)80年代開(kāi)始的“數(shù)據(jù)倉(cāng)庫(kù)”階段,第二階段是2011年伴隨著大數(shù)據(jù)發(fā)展而產(chǎn)生的“數(shù)據(jù)湖”技術(shù),第三階段就是近年來(lái)開(kāi)始的數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的融合趨勢(shì),業(yè)界稱(chēng)為“湖倉(cāng)一體”。數(shù)據(jù)管理架構(gòu)的革新,是在企業(yè)需求的推動(dòng)下進(jìn)行的,新興技術(shù)催生新的市場(chǎng)需求,從而導(dǎo)致數(shù)據(jù)管理架構(gòu)相應(yīng)調(diào)整。以湖倉(cāng)一體為例,當(dāng)下企業(yè)海量大數(shù)據(jù)場(chǎng)景下的實(shí)時(shí)處理,非結(jié)構(gòu)化數(shù)據(jù)治理等需求,都是推動(dòng)數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)融合的重要?jiǎng)恿Α?/span>
數(shù)據(jù)倉(cāng)庫(kù)是決策支持系統(tǒng)(dss)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)生的背景主要在于傳統(tǒng)交易核心數(shù)據(jù)庫(kù)腦容量不足,擅長(zhǎng)事務(wù)型工作,但不擅長(zhǎng)分析型工作,無(wú)法滿足企業(yè)對(duì)于數(shù)據(jù)分析的發(fā)展需求。從數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)圖可以看出,數(shù)據(jù)倉(cāng)庫(kù)的主要功能,是將企業(yè)信息化管理系統(tǒng)中聯(lián)機(jī)事務(wù)處理所積累的大量數(shù)據(jù),通過(guò)數(shù)據(jù)倉(cāng)庫(kù)特有的信息存儲(chǔ)架構(gòu),系統(tǒng)化分析整理,進(jìn)而支持如決策支持系統(tǒng)、主管資訊系統(tǒng)的創(chuàng)建,幫助決策者快速有效的從大量數(shù)據(jù)中分析出有價(jià)值的信息,以利于后期決策擬定及對(duì)外在環(huán)境變化的快速回應(yīng),幫助其構(gòu)建商業(yè)智能。
在大數(shù)據(jù)時(shí)代數(shù)據(jù)量劇增背景下,催生了數(shù)據(jù)湖技術(shù)。數(shù)據(jù)湖是一個(gè)存儲(chǔ)企業(yè)各種各樣原始數(shù)據(jù)的大型倉(cāng)庫(kù),可供數(shù)據(jù)存取、處理、分析以及傳輸,可看作一種大型數(shù)據(jù)存儲(chǔ)庫(kù)和處理引擎。相比于數(shù)據(jù)倉(cāng)庫(kù)而言,數(shù)據(jù)湖存儲(chǔ)容量更大,數(shù)據(jù)類(lèi)型更為豐富,增加了對(duì)半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的支持,同時(shí)對(duì)所有數(shù)據(jù)進(jìn)行集中式存儲(chǔ)。并具有龐大的PB級(jí)數(shù)據(jù)存儲(chǔ)規(guī)模以及計(jì)算能力,提供多元化數(shù)據(jù)信息交叉分析,及大容量高速度的數(shù)據(jù)管道。
湖倉(cāng)一體則是一種新型的開(kāi)放式架構(gòu),打通了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,并融合了兩種架構(gòu)的優(yōu)勢(shì)。其底層支持多種數(shù)據(jù)類(lèi)型并存,且實(shí)現(xiàn)數(shù)據(jù)間的相互共享。上層可以通過(guò)統(tǒng)一封裝的接口進(jìn)行訪問(wèn),可同時(shí)支持實(shí)時(shí)查詢和分析。湖倉(cāng)一體使得數(shù)據(jù)入湖后可原地進(jìn)行數(shù)據(jù)處理加工,避免數(shù)據(jù)多份冗余以及流動(dòng)導(dǎo)致的算力、網(wǎng)絡(luò)及成本開(kāi)銷(xiāo),可作為超大型的數(shù)據(jù)存儲(chǔ)資源池,實(shí)現(xiàn)對(duì)全量數(shù)據(jù)的實(shí)時(shí)處理。
相比于數(shù)據(jù)湖,湖倉(cāng)一體架構(gòu)的主要功能是增強(qiáng)了實(shí)時(shí)業(yè)務(wù)處理以及非結(jié)構(gòu)化數(shù)據(jù)的治理能力。湖倉(cāng)一體的優(yōu)勢(shì)主要體現(xiàn)在四個(gè)方面,一是具備完善的數(shù)據(jù)管理能力,二是數(shù)據(jù)可實(shí)現(xiàn)及時(shí)追溯,三是支持豐富的計(jì)算引擎,四是更高的數(shù)據(jù)實(shí)時(shí)性。
02 用戶痛點(diǎn)
隨著數(shù)字經(jīng)濟(jì)時(shí)代的快速發(fā)展,獨(dú)立構(gòu)建數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)兩套平臺(tái)的架構(gòu)設(shè)計(jì),在某些場(chǎng)景已經(jīng)無(wú)法滿足客戶需求,新興技術(shù)發(fā)展、“數(shù)據(jù)沼澤”問(wèn)題及數(shù)字化轉(zhuǎn)型三大痛點(diǎn),催生了湖倉(cāng)一體技術(shù)的發(fā)展。新興技術(shù)發(fā)展主要指隨著5G、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等技術(shù)的飛速發(fā)展,數(shù)據(jù)量呈現(xiàn)出大規(guī)模、多樣性的特點(diǎn),為應(yīng)對(duì)多變的業(yè)務(wù)訴求,政企客戶對(duì)數(shù)據(jù)處理分析的實(shí)時(shí)性和融合性提出了更高的要求。“數(shù)據(jù)沼澤”則是指隨著企業(yè)逐漸發(fā)展壯大,數(shù)據(jù)量與業(yè)務(wù)量不斷遞增,處理數(shù)據(jù)的成本也在不斷增加,但卻無(wú)法有效利用數(shù)據(jù)資源來(lái)產(chǎn)生價(jià)值。而數(shù)據(jù)湖架構(gòu)本身就缺少對(duì)數(shù)據(jù)監(jiān)管、控制和必要的治理手段,導(dǎo)致運(yùn)維成本不斷增加,數(shù)據(jù)治理效率降低。長(zhǎng)此以往,企業(yè)落入了“數(shù)據(jù)沼澤”的境地。而數(shù)字化轉(zhuǎn)型的核心要義,就是實(shí)現(xiàn)「釋放全量數(shù)據(jù)價(jià)值」。隨著企業(yè)數(shù)字化轉(zhuǎn)型的深化,跨多業(yè)務(wù)、多數(shù)據(jù)類(lèi)型的新型應(yīng)用場(chǎng)景不斷涌現(xiàn),海量大數(shù)據(jù)場(chǎng)景下的實(shí)時(shí)處理、非結(jié)構(gòu)化數(shù)據(jù)治理等需求,給企業(yè)數(shù)據(jù)基礎(chǔ)設(shè)施帶來(lái)了新的挑戰(zhàn)。企業(yè)不僅需要面向業(yè)務(wù)交易的信息化傳統(tǒng)「交易核心」,同時(shí)更需要面向數(shù)據(jù)價(jià)值的「數(shù)據(jù)核心」。與傳統(tǒng)「交易核心」往往僅針對(duì)特定業(yè)務(wù)系統(tǒng)解決其交易需求不同的是,「數(shù)據(jù)核心」需要匯聚從多個(gè)「交易核心」產(chǎn)生的實(shí)時(shí)交易流水?dāng)?shù)據(jù),為全企業(yè)跨業(yè)務(wù)的多個(gè)系統(tǒng)提供高并發(fā)的實(shí)時(shí)對(duì)客全量數(shù)據(jù)查詢及數(shù)據(jù)探索分析能力。湖倉(cāng)一體技術(shù)的出現(xiàn),在實(shí)現(xiàn)了對(duì)數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)融合,借助海量、實(shí)時(shí)、多模的數(shù)據(jù)處理能力,實(shí)現(xiàn)全量數(shù)據(jù)價(jià)值的持續(xù)釋放的同時(shí),也成為企業(yè)數(shù)字化轉(zhuǎn)型過(guò)程中的關(guān)注焦點(diǎn),為用戶帶來(lái)了新的意義價(jià)值。
一是彌補(bǔ)原架構(gòu)的不足。相比數(shù)據(jù)湖來(lái)說(shuō),湖倉(cāng)一體架構(gòu)能夠支撐實(shí)時(shí)查詢和實(shí)時(shí)分析場(chǎng)景,彌補(bǔ)了Hadoop技術(shù)對(duì)于數(shù)據(jù)實(shí)時(shí)處理能力的不足。而相比數(shù)據(jù)倉(cāng)庫(kù)來(lái)說(shuō),湖倉(cāng)一體架構(gòu)作為支持實(shí)時(shí)處理的統(tǒng)一數(shù)據(jù)底座,具備多引擎實(shí)時(shí)處理多類(lèi)型數(shù)據(jù)的能力,避免了數(shù)據(jù)倉(cāng)庫(kù)無(wú)法分析非結(jié)構(gòu)化數(shù)據(jù)的問(wèn)題,以及不同平臺(tái)間數(shù)據(jù)移動(dòng)所帶來(lái)的成本。二是能夠降低企業(yè)成本,提高效率。湖倉(cāng)一體架構(gòu)能夠降低數(shù)據(jù)流動(dòng)帶來(lái)的開(kāi)發(fā)成本及計(jì)算存儲(chǔ)開(kāi)銷(xiāo),提升企業(yè)效率。三是助力企業(yè)數(shù)字化轉(zhuǎn)型。在企業(yè)數(shù)字化轉(zhuǎn)型的過(guò)程中,企業(yè)需要根據(jù)自身業(yè)務(wù)場(chǎng)景及發(fā)展訴求來(lái)設(shè)計(jì)系統(tǒng)架構(gòu),單一模式已然無(wú)法滿足。而湖倉(cāng)一體架構(gòu)能夠幫助企業(yè)構(gòu)建起全新的數(shù)據(jù)融合平臺(tái),打破了數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)割裂的體系,將數(shù)據(jù)湖的靈活性、數(shù)據(jù)多樣性以及豐富的生態(tài)與數(shù)據(jù)倉(cāng)庫(kù)的企業(yè)級(jí)數(shù)據(jù)分析能力進(jìn)行了融合。四是降低能耗,實(shí)現(xiàn)低碳節(jié)能。湖倉(cāng)一體技術(shù)能夠從基礎(chǔ)架構(gòu)上打通數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù),提供實(shí)時(shí)查詢以及實(shí)時(shí)分析能力,從而有效的降低了能耗。
03 發(fā)展現(xiàn)狀
現(xiàn)階段,數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的融合發(fā)展主要有三個(gè)技術(shù)路徑,根據(jù)不同路徑的技術(shù)特性,可以滿足不同場(chǎng)景下的客戶需求。第一個(gè)是基于Hadoop體系的數(shù)據(jù)湖向數(shù)據(jù)倉(cāng)庫(kù)能力擴(kuò)展,在數(shù)據(jù)湖中建數(shù)據(jù)倉(cāng)庫(kù),通過(guò)引入數(shù)據(jù)倉(cāng)庫(kù)的分析功能,從數(shù)據(jù)湖直接進(jìn)化到湖倉(cāng)一體。
第二個(gè)是基于自身云平臺(tái)進(jìn)行架構(gòu)構(gòu)建,主要是公有云廠商基于自身云平臺(tái)或相關(guān)產(chǎn)品,通過(guò)自研技術(shù)打通數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)湖倉(cāng)一體功能。
第三個(gè)是以獨(dú)立數(shù)據(jù)庫(kù)廠商為代表的梯隊(duì),其以數(shù)據(jù)庫(kù)技術(shù)為基礎(chǔ),自研分布式平臺(tái),從調(diào)度、計(jì)算到存儲(chǔ)不依賴(lài)第三方平臺(tái),形成可以靈活在公有云、私有云、裸金屬等場(chǎng)景獨(dú)立部署的湖倉(cāng)一體平臺(tái)。這類(lèi)的代表廠商如海外的Snowflake,Databricks及國(guó)內(nèi)的巨杉數(shù)據(jù)庫(kù)等。
報(bào)告選取了業(yè)界比較主流的6個(gè)湖倉(cāng)一體產(chǎn)品進(jìn)行對(duì)比分析,包括海外廠商Snowflake、Databricks及亞馬遜AWS智能湖倉(cāng),國(guó)內(nèi)廠商巨杉數(shù)據(jù)庫(kù)SequoiaDB、阿里云MaxCompute湖倉(cāng)一體方案、華為云FusionInsight。從設(shè)計(jì)初衷來(lái)看,各家產(chǎn)品雖然技術(shù)路線不同,或自研,或基于開(kāi)源,或基于自身云平臺(tái)的產(chǎn)品組合,但最終目的均一致是為了降低數(shù)據(jù)在不同平臺(tái)間的流動(dòng),這樣做的好處一方面是技術(shù)上可以降低客戶的管理成本,另一方面在商業(yè)上也提升了客戶粘性和操作體驗(yàn)。比如像亞馬遜AWS、阿里云、華為云,會(huì)通過(guò)各類(lèi)云上的工具打通不同產(chǎn)品或組件間的數(shù)據(jù)流通,而Snowflake、Databricks、巨杉數(shù)據(jù)庫(kù)則會(huì)盡可能讓同一平臺(tái)上的數(shù)據(jù)具備更豐富的應(yīng)用場(chǎng)景。從特性上來(lái)看,各個(gè)廠商均強(qiáng)調(diào)了ACID事物一致性,因?yàn)樵诤}(cāng)一體中,數(shù)據(jù)不再如同傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中的離線分析數(shù)據(jù),客戶的業(yè)務(wù)數(shù)據(jù)將更實(shí)時(shí)的以數(shù)據(jù)流的方式寫(xiě)入。雖然湖倉(cāng)一體不需要如同事務(wù)型數(shù)據(jù)庫(kù)一樣,擁有低延遲的在線交易能力,但是在數(shù)字化轉(zhuǎn)型需求下,系統(tǒng)同樣需要提供實(shí)時(shí)的數(shù)據(jù)查詢分析能力,及保證在某一時(shí)間點(diǎn)上數(shù)據(jù)的準(zhǔn)確性。整體分析后不難看出,Snowflake從數(shù)據(jù)倉(cāng)庫(kù)逐步提供多元化的數(shù)據(jù)處理,其最新版本也進(jìn)一步強(qiáng)化了數(shù)據(jù)實(shí)時(shí)服務(wù)能力。Databricks的優(yōu)勢(shì)在于對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理的AI機(jī)器學(xué)習(xí)及科學(xué)計(jì)算上,并持續(xù)擴(kuò)展其數(shù)據(jù)倉(cāng)庫(kù)的分析能力。巨杉數(shù)據(jù)庫(kù)以統(tǒng)一平臺(tái)下跨結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的多模數(shù)據(jù)處理能力為基礎(chǔ),重點(diǎn)提供高并發(fā)的實(shí)時(shí)對(duì)客查詢,并持續(xù)擴(kuò)展實(shí)時(shí)湖倉(cāng)的分析能力。亞馬遜AWS、阿里云、華為云則更注重于其基于自身云生態(tài)的技術(shù)能力整合,簡(jiǎn)化了云平臺(tái)客戶在數(shù)據(jù)處理上的復(fù)雜度。在報(bào)告中,也對(duì)湖倉(cāng)一體的典型應(yīng)用案例進(jìn)行了分析,具體內(nèi)容可下載報(bào)告后進(jìn)行閱讀。
04 未來(lái)趨勢(shì)
分析來(lái)看,“湖倉(cāng)一體”架構(gòu)在數(shù)據(jù)管理中呈現(xiàn)出六大技術(shù)特性。
一是支持分析多種數(shù)據(jù)類(lèi)型,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
二是數(shù)據(jù)可治理,在保證數(shù)據(jù)完整性的同時(shí),具有健全的治理和審計(jì)機(jī)制,能夠避免數(shù)據(jù)沼澤現(xiàn)象。
三是事務(wù)支持,企業(yè)數(shù)據(jù)往往要為業(yè)務(wù)系統(tǒng)提供并發(fā)的讀取和寫(xiě)入,對(duì)事物ACID的支持,可確保數(shù)據(jù)并發(fā)訪問(wèn)的一致性、正確性。
四是BI支持,能夠支持直接在源數(shù)據(jù)上使用BI工具,加快分析效率,降低數(shù)據(jù)延遲。
五是存算分離,使系統(tǒng)能夠擴(kuò)展到更大規(guī)模的并發(fā)能力和數(shù)據(jù)容量。
六是開(kāi)放型,采用開(kāi)放、標(biāo)準(zhǔn)化的存儲(chǔ)格式,并提供豐富的API支持。
與此同時(shí),隨著湖倉(cāng)一體技術(shù)的不斷成熟,未來(lái)將在四大應(yīng)用場(chǎng)景中發(fā)揮作用。
場(chǎng)景一:服務(wù)于數(shù)據(jù)中臺(tái)的實(shí)時(shí)數(shù)倉(cāng)。由于數(shù)據(jù)中臺(tái)要求其數(shù)據(jù)庫(kù)在分析處理過(guò)程中,需強(qiáng)調(diào)事物一致性,并保持低延遲與提升實(shí)時(shí)處理能力,這些都是湖倉(cāng)一體的典型技術(shù)特性。
場(chǎng)景二:支撐微服務(wù)的數(shù)據(jù)融合底座。可有效解決擴(kuò)展困難以及維護(hù)困難的問(wèn)題。
場(chǎng)景三:全量數(shù)據(jù)實(shí)時(shí)訪問(wèn)平臺(tái)。在數(shù)字化轉(zhuǎn)型過(guò)程中,對(duì)客實(shí)時(shí)查詢,歷史數(shù)據(jù)服務(wù)平臺(tái),或IoT物聯(lián)網(wǎng)系統(tǒng)中,會(huì)產(chǎn)生實(shí)時(shí)處理海量數(shù)據(jù)的需求,湖倉(cāng)一體的彈性擴(kuò)展能力能夠很好滿足這一需求。
場(chǎng)景四:進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)處理,數(shù)字化轉(zhuǎn)型中通過(guò)AI機(jī)器學(xué)習(xí)及比對(duì)分析,非結(jié)構(gòu)化數(shù)據(jù)將包含更多元化的業(yè)務(wù)屬性,為各類(lèi)業(yè)務(wù)系統(tǒng)提供信息輸入。湖倉(cāng)一體能夠有效提升非結(jié)構(gòu)化數(shù)據(jù)的處理能力。?
05 建議
對(duì)用戶來(lái)說(shuō),用戶在選擇數(shù)據(jù)管理架構(gòu)時(shí),應(yīng)根據(jù)自身業(yè)務(wù)情況,來(lái)考慮未來(lái)發(fā)展需求。同時(shí),專(zhuān)業(yè)化服務(wù)是當(dāng)前數(shù)據(jù)管理市場(chǎng)的主要發(fā)展趨勢(shì),企業(yè)用戶在選擇供應(yīng)商時(shí)應(yīng)該重視廠商的專(zhuān)業(yè)化服務(wù),實(shí)施,及交付能力。對(duì)廠商來(lái)說(shuō),要重視研發(fā)投入,加快產(chǎn)品與新興技術(shù)融合。企業(yè)應(yīng)積極完善湖倉(cāng)一體技術(shù)解決方案,同時(shí)加速將人工智能、云計(jì)算等新興技術(shù)與現(xiàn)有產(chǎn)品結(jié)合,提升產(chǎn)品智能化,搶占未來(lái)市場(chǎng)領(lǐng)先地位。同時(shí),也要持續(xù)提升自己的服務(wù)能力與質(zhì)量。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)