現(xiàn)在講數(shù)據(jù)中臺(tái)跟數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)平臺(tái)等區(qū)別的文章很多了,新人與老人看了這些文章后,對(duì)于數(shù)據(jù)中臺(tái)的態(tài)度往往是不一樣的。
數(shù)據(jù)新手更愿意接受數(shù)據(jù)中臺(tái)這個(gè)新概念,但由于缺乏實(shí)踐,往往抓不住本質(zhì),特別容易將其與其他概念混淆,然后領(lǐng)導(dǎo)問到底是什么區(qū)別的時(shí)候,支支吾吾答不上來。
數(shù)據(jù)倉庫老手接觸到數(shù)據(jù)中臺(tái)這個(gè)概念的時(shí)候,更習(xí)慣于跟原有認(rèn)知體系比較,然后抓住一些本質(zhì)相同的東西,甩出一句:“換個(gè)名字而已”的觀點(diǎn),從而喪失了學(xué)習(xí)新東西的機(jī)會(huì)。
自己看了很多講數(shù)據(jù)中臺(tái)區(qū)別的文章,也寫過一些文章,總體感覺是抓不到最本質(zhì)的東西,大家似乎都在找相關(guān)關(guān)系,但因果關(guān)系難找,因?yàn)榘⒗镌谔岢鰯?shù)據(jù)中臺(tái)的時(shí)候,給出的是一個(gè)泛泛的定義,比如以下這種:
“數(shù)據(jù)中臺(tái)是指通過企業(yè)內(nèi)外部多源異構(gòu)的數(shù)據(jù)采集、治理、建模、分析,應(yīng)用,使數(shù)據(jù)對(duì)內(nèi)優(yōu)化管理提高業(yè)務(wù),對(duì)外可以數(shù)據(jù)合作價(jià)值釋放,成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞。數(shù)據(jù)中臺(tái)是一套可持續(xù)“讓企業(yè)的數(shù)據(jù)用起來”的機(jī)制,一種戰(zhàn)略選擇和組織形式,是依據(jù)企業(yè)特有的業(yè)務(wù)模式和組織架構(gòu),通過有形的產(chǎn)品和實(shí)施方法論支撐,構(gòu)建一套持續(xù)不斷把數(shù)據(jù)變成資產(chǎn)并服務(wù)于業(yè)務(wù)的機(jī)制。數(shù)據(jù)中臺(tái)建立后,會(huì)形成數(shù)據(jù)API,為企業(yè)和客戶提供高效各種數(shù)據(jù)服務(wù)。”
沒有比較就沒鑒別,其實(shí)數(shù)據(jù)倉庫也完全可以這么定義,我們必須要找到一種直戳本質(zhì)的定義,你只要通過這種定義去判斷,就可以把數(shù)據(jù)中臺(tái)跟數(shù)據(jù)倉庫,數(shù)據(jù)湖,數(shù)據(jù)平臺(tái)等區(qū)分開來。
我這里嘗試給出數(shù)據(jù)中臺(tái)的一個(gè)定義,即數(shù)據(jù)中臺(tái)是支持多個(gè)前臺(tái)業(yè)務(wù)且具備業(yè)務(wù)屬性的共性數(shù)據(jù)能力體系,其包括了四方面的特征:
(1)數(shù)據(jù)中臺(tái)必須直接支撐前端業(yè)務(wù)
(2)數(shù)據(jù)中臺(tái)提供的數(shù)據(jù)能力可以復(fù)用共享
(3)數(shù)據(jù)中臺(tái)的數(shù)據(jù)模型構(gòu)建以業(yè)務(wù)為核心
(4)數(shù)據(jù)中臺(tái)是個(gè)體系,包括組織、平臺(tái)、工具、數(shù)據(jù)等等
我們可以將這四個(gè)特征作為判斷是否屬于數(shù)據(jù)中臺(tái)的依據(jù),下面就數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉庫、數(shù)據(jù)工具鏈等概念做具體的比較。
1、數(shù)據(jù)平臺(tái)與數(shù)據(jù)中臺(tái)的區(qū)別
什么是平臺(tái)?這里舉個(gè)例子:
我們拿一個(gè)飲料廠的產(chǎn)品線來講,他它可以生產(chǎn)果汁,還可以生產(chǎn)其他的產(chǎn)品,從原材料加工成飲料,它有很多環(huán)節(jié),雖然品種不一樣,但是它很多環(huán)節(jié)是類似的,比如裝瓶、攪拌。
那么這幾個(gè)不同的生產(chǎn)流程、生產(chǎn)線,我們可以把那些公共的部分合并起來,更加專業(yè)化,然后并且讓他們獨(dú)立去維護(hù),之后把那些不同的產(chǎn)品面向客戶,使客戶體驗(yàn)不同的產(chǎn)品,使它獨(dú)立出來,這就是平臺(tái)化的思路。
所以,平臺(tái)化的思路很重要的就是把那些有共性的資源,有共性的能力合并在一起,然后把那些面向客戶的價(jià)值獨(dú)立出來,這樣的話,專業(yè)的人做專業(yè)的事情,并且對(duì)于企業(yè)的績(jī)效也非常的有利,不揉在一塊了,更加的清晰,這就是平臺(tái)化的思路,可以看到,平臺(tái)也是具有沉淀共享的性質(zhì)的,因此很多人把平臺(tái)當(dāng)成中臺(tái)來講。
但平臺(tái)每天想得是如何將業(yè)務(wù)系統(tǒng)中跟業(yè)務(wù)無關(guān)的技術(shù)剝離出來,然后制定這些技術(shù)的標(biāo)準(zhǔn)和規(guī)范,然后由自己來打造這些共性的底層的基礎(chǔ)設(shè)施,然后鼓勵(lì)大家統(tǒng)一接入,然后平臺(tái)收收通道費(fèi)就可以了。
同樣的道理,數(shù)據(jù)平臺(tái)強(qiáng)調(diào)的共性基礎(chǔ)設(shè)施是數(shù)據(jù),我把大家所需要的各種數(shù)據(jù)都采集好了,并且對(duì)所有人開放,大家按需取用就可以了,再也不用自己去匯聚各種數(shù)據(jù)了,當(dāng)然我可能要收取一些使用費(fèi),比如數(shù)據(jù)交易中心就是一個(gè)典型的數(shù)據(jù)平臺(tái)。
由此可見,數(shù)據(jù)平臺(tái)不符合數(shù)據(jù)中臺(tái)特征的(1)(3),即它跟業(yè)務(wù)是沒有直接關(guān)系的,因?yàn)橐坏┯嘘P(guān)系,意味著跨行業(yè)的規(guī)模化復(fù)制就存在問題,這是數(shù)據(jù)平臺(tái)不想看到的。
你很容易發(fā)現(xiàn),數(shù)據(jù)中臺(tái)是限于行業(yè)或企業(yè)的,而數(shù)據(jù)平臺(tái)則有更大的普適性,這是由數(shù)據(jù)中臺(tái)的業(yè)務(wù)特性所決定的,如果一個(gè)企業(yè)跳出來對(duì)所有企業(yè)來說我有數(shù)據(jù)中臺(tái)可以銷售,顯然是混淆了數(shù)據(jù)中臺(tái)與數(shù)據(jù)平臺(tái)的區(qū)別,但賣產(chǎn)品嘛,大家都懂的。
以hadoop為核心的大數(shù)據(jù)平臺(tái)顯然不能稱其為數(shù)據(jù)中臺(tái),這很容易理解,如果一個(gè)企業(yè)把所有業(yè)務(wù)的數(shù)據(jù)都存儲(chǔ)在Oracle里,我們能說這個(gè)Oracle數(shù)據(jù)庫是數(shù)據(jù)中臺(tái)嗎?
數(shù)據(jù)湖可以認(rèn)為是一種特殊的數(shù)據(jù)平臺(tái),其出發(fā)點(diǎn)是快速的探索數(shù)據(jù)從而創(chuàng)造價(jià)值,為了靈活性它拋棄了數(shù)據(jù)倉庫的預(yù)先建模,暴露的就是直接的原始數(shù)據(jù),因此不可能去沉淀什么共性能力,數(shù)據(jù)湖其實(shí)比一般的數(shù)據(jù)平臺(tái)還差點(diǎn)中臺(tái)的意思,不符合數(shù)據(jù)中臺(tái)特征的(1)(2)(3),即跟業(yè)務(wù)無關(guān),也不沉淀模型,更不可能開放復(fù)用。
2、數(shù)據(jù)倉庫與數(shù)據(jù)中臺(tái)的區(qū)別
數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、隨時(shí)間變化的、但信息本身相對(duì)穩(wěn)定的數(shù)據(jù)集合,用于對(duì)管理決策過程的支持,一般有四個(gè)特征:
(1)面向主題:數(shù)據(jù)倉庫都是基于某個(gè)明確主題,僅需要與該主題相關(guān)的數(shù)據(jù),其他的無關(guān)細(xì)節(jié)數(shù)據(jù)將被排除掉
(2)集成的:從不同的數(shù)據(jù)源采集數(shù)據(jù)到同一個(gè)數(shù)據(jù)源,此過程會(huì)有一些ETL操作
(3)隨時(shí)間變化:關(guān)鍵數(shù)據(jù)隱式或顯式的基于時(shí)間變化
(4)數(shù)據(jù)倉庫的數(shù)據(jù)是不可更新的:數(shù)據(jù)裝入以后一般只進(jìn)行查詢操作,沒有傳統(tǒng)數(shù)據(jù)庫的增刪改操作。數(shù)據(jù)倉庫的數(shù)據(jù)反映的是一段相當(dāng)長的時(shí)間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時(shí)點(diǎn)的數(shù)據(jù)庫快照的集合,以及基于這些快照進(jìn)行統(tǒng)計(jì)、綜合和重組的導(dǎo)出數(shù)據(jù),而不是聯(lián)機(jī)處理的數(shù)據(jù)。
數(shù)據(jù)倉庫一般是分層的,目的是為了解耦和共享,從而提升對(duì)應(yīng)用的支撐效率,這其實(shí)非常符合中臺(tái)的沉淀共性能力的理念:
(1) ODS(Operation Data Store),操作數(shù)據(jù)層,即原始數(shù)據(jù)層,又叫貼源層,與業(yè)務(wù)系統(tǒng)基本同構(gòu)(可能會(huì)增加管理字段),目的是保留歷史,解耦業(yè)務(wù)數(shù)據(jù)庫,這樣整個(gè)數(shù)據(jù)平臺(tái)只需要訪問一次業(yè)務(wù)數(shù)據(jù)庫即可。所以O(shè)DS層存在的意義是盡可能減少對(duì)業(yè)務(wù)數(shù)據(jù)庫的訪問壓力。ODS層有些時(shí)候會(huì)細(xì)分為兩層,一個(gè)STG數(shù)據(jù)緩沖層,存原始數(shù)據(jù),一個(gè)ODS,存簡(jiǎn)單清洗的數(shù)據(jù)。
(2)DWD(Data Warehouse Detail),明細(xì)數(shù)據(jù)層,對(duì)數(shù)據(jù)進(jìn)行清洗、代碼統(tǒng)一、字段統(tǒng)一、格式統(tǒng)一、簡(jiǎn)單聚合等工作。DWD層存在的意義是做數(shù)據(jù)的標(biāo)準(zhǔn)化,為后續(xù)的處理提供干凈、統(tǒng)一、標(biāo)準(zhǔn)的數(shù)據(jù)。
(3)DWB(Data Warehouse Base),基礎(chǔ)數(shù)據(jù)層,又叫輕度匯總層,遵照維度模型的原理,將數(shù)據(jù)拆成維度和事實(shí),進(jìn)行維度、事實(shí)的統(tǒng)一。對(duì)數(shù)據(jù)進(jìn)行輕度匯總,形成指標(biāo)結(jié)果。
(4)DWS(Data Warehouse Service),服務(wù)數(shù)據(jù)層,按照業(yè)務(wù)目標(biāo),對(duì)已經(jīng)處理好的數(shù)據(jù)進(jìn)行橫向匯聚、縱向匯總。按照寬表模型進(jìn)行數(shù)據(jù)冗余和預(yù)計(jì)算,以空間換時(shí)間。
數(shù)據(jù)倉庫剛起步的時(shí)候,目的是融合整個(gè)企業(yè)的全部數(shù)據(jù),打通數(shù)據(jù)之間的隔閡,消除數(shù)據(jù)標(biāo)準(zhǔn)和口徑不一致問題,從而做好決策支持,表現(xiàn)形式一般是報(bào)表和指標(biāo),BI是其升級(jí)版本,從本質(zhì)的角度來講,數(shù)據(jù)倉庫是面向業(yè)務(wù)主題的,其符合數(shù)據(jù)中臺(tái)的標(biāo)準(zhǔn)(1),即為業(yè)務(wù)服務(wù)。
可惜的是,數(shù)據(jù)倉庫恰恰也被困在了決策支持這個(gè)唯一的業(yè)務(wù)上,其對(duì)業(yè)務(wù)系統(tǒng)很少直接提供數(shù)據(jù)服務(wù)的支持,數(shù)據(jù)倉庫對(duì)于業(yè)務(wù)的價(jià)值,大多需要通過管理者的決策體現(xiàn)出來,偶偶的侵入業(yè)務(wù)系統(tǒng),也是做做亮點(diǎn),比如搞個(gè)數(shù)據(jù)挖掘。
理論上,數(shù)據(jù)倉庫跟數(shù)據(jù)中臺(tái)很難說有本質(zhì)區(qū)別,這是數(shù)據(jù)中臺(tái)被數(shù)據(jù)倉庫從業(yè)者詬病的原因,但兩者對(duì)業(yè)務(wù)的支撐廣度和深度不在一個(gè)級(jí)別上,數(shù)據(jù)倉庫僅僅賦能決策支持,而數(shù)據(jù)中臺(tái)對(duì)業(yè)務(wù)的支持是全方位的,其不僅通過API等形式直接嵌入到業(yè)務(wù)流程中發(fā)揮作用,而且還能通過數(shù)據(jù)產(chǎn)品直接創(chuàng)造價(jià)值。
事實(shí)上,由于數(shù)據(jù)倉庫以前局限于決策支持這個(gè)業(yè)務(wù),反倒限制了數(shù)據(jù)價(jià)值的發(fā)揮,管理者又對(duì)報(bào)表和指標(biāo)這個(gè)業(yè)務(wù)特別敏感,因此元數(shù)據(jù)和數(shù)據(jù)質(zhì)量管理成了數(shù)據(jù)倉庫最核心的工作,而數(shù)據(jù)中臺(tái)所倡導(dǎo)的模型開放、共享復(fù)用并不為老的數(shù)據(jù)倉庫時(shí)代所重視。
現(xiàn)在很多人把匯聚全域數(shù)據(jù)作為數(shù)據(jù)中臺(tái)與數(shù)據(jù)倉庫的區(qū)別,顯然沒有抓住本質(zhì)的東西,其實(shí)只有更多的前端業(yè)務(wù)需要數(shù)據(jù)倉庫提供數(shù)據(jù)服務(wù),才能驅(qū)動(dòng)數(shù)據(jù)倉庫去真正的匯聚全域數(shù)據(jù),否則領(lǐng)導(dǎo)關(guān)注的KPI指標(biāo)就那幾個(gè),匯聚全域數(shù)據(jù)對(duì)于這些KPI指標(biāo)來說,其實(shí)沒有那么高的價(jià)值。
量變導(dǎo)致質(zhì)變,數(shù)據(jù)中臺(tái)的提出有進(jìn)步意義,它讓我們基于業(yè)務(wù)的需要去打造數(shù)據(jù)倉庫,而不是倒過來,即建了數(shù)據(jù)倉庫然后再想著業(yè)務(wù)場(chǎng)景,數(shù)據(jù)中臺(tái)與數(shù)據(jù)倉庫的區(qū)別也不在于技術(shù)本身,而在于有沒有業(yè)務(wù)思維。
由上可知,從技術(shù)角度上去否認(rèn)數(shù)據(jù)中臺(tái)意義不大,其實(shí)如果有了業(yè)務(wù)思維,不建數(shù)據(jù)倉庫又如何?你提供一個(gè)位置API服務(wù)了很多前端應(yīng)用,那這個(gè)API就可以稱為微型的數(shù)據(jù)中臺(tái),從這個(gè)角度看,由于業(yè)務(wù)的牽引,數(shù)據(jù)中臺(tái)又是超越數(shù)據(jù)倉庫的。
因此,雖然數(shù)據(jù)倉庫表面上符合數(shù)據(jù)中臺(tái)特征的(1)(2)(3)(4),但如果你的企業(yè)建設(shè)數(shù)據(jù)倉庫的業(yè)務(wù)思維沒有轉(zhuǎn)變,沒有建立其之適配的業(yè)務(wù)運(yùn)營體系,你建的數(shù)據(jù)倉庫就不能稱為數(shù)據(jù)中臺(tái)。
實(shí)際上,業(yè)務(wù)思維的不同也影響到了數(shù)據(jù)倉庫和數(shù)據(jù)中臺(tái)技術(shù)實(shí)現(xiàn)的差異,以前的數(shù)據(jù)倉庫雖然也在業(yè)務(wù)建模,但由于出口有限,因此打造API服務(wù)的必要性不是很大,因此,大多數(shù)據(jù)倉庫其實(shí)都在做One-Data,One-ID的事情,但One-Service鮮有提及,阿里顯然對(duì)于這個(gè)有更深入的認(rèn)識(shí),數(shù)據(jù)中臺(tái)其實(shí)更應(yīng)關(guān)注One-Service的實(shí)現(xiàn)和運(yùn)營。
阿里提出數(shù)據(jù)中臺(tái)這個(gè)概念的時(shí)候,很多數(shù)據(jù)倉庫搖生一變都成為了數(shù)據(jù)中臺(tái),但這些數(shù)據(jù)倉庫其實(shí)仍然是20年前的那個(gè)數(shù)據(jù)倉庫。
3、數(shù)據(jù)工具鏈與數(shù)據(jù)中臺(tái)的區(qū)別
很多廠家把數(shù)據(jù)開發(fā)、治理及運(yùn)維工具當(dāng)成了數(shù)據(jù)中臺(tái)去售賣,顯然混淆了數(shù)據(jù)中臺(tái)這個(gè)概念,這跟大廠的宣傳有點(diǎn)關(guān)系,比如很多大廠就把數(shù)據(jù)工具鏈、數(shù)據(jù)模型、數(shù)據(jù)服務(wù)合在一起當(dāng)成數(shù)據(jù)中臺(tái),但這是不嚴(yán)謹(jǐn)?shù)摹?
數(shù)據(jù)工具鏈只是高效實(shí)現(xiàn)數(shù)據(jù)中臺(tái)的手段,但你不能把工具鏈當(dāng)成數(shù)據(jù)中臺(tái)本身,就好比業(yè)務(wù)中臺(tái)包括很多收斂的微服務(wù),但你不能把實(shí)現(xiàn)云原生的基礎(chǔ)設(shè)施當(dāng)成業(yè)務(wù)中臺(tái)的本身,比如DevOps工具鏈。
為什么大廠要把數(shù)據(jù)工具鏈也畫在數(shù)據(jù)中臺(tái)架構(gòu)圖里呢?
因?yàn)閿?shù)據(jù)模型和數(shù)據(jù)服務(wù)是比較薄的一層,沒啥好說的,各行各業(yè)對(duì)于業(yè)務(wù)的抽象建模對(duì)于其它行業(yè)來講缺乏借鑒意義,但實(shí)現(xiàn)這些數(shù)據(jù)模型和數(shù)據(jù)服務(wù)卻需要強(qiáng)大的數(shù)據(jù)工具鏈支持,而數(shù)據(jù)工具鏈顯然具有全行業(yè)的通用性,這是Show能力的賣點(diǎn)。
我們的確從大廠的數(shù)據(jù)工具鏈學(xué)到很多東西,但不能被工具迷糊了眼睛,把手段當(dāng)成了目的,其實(shí)企業(yè)的軟實(shí)力才是最重要的。
我們的目的永遠(yuǎn)是用數(shù)據(jù)直接服務(wù)業(yè)務(wù),不管用什么手段,數(shù)據(jù)工具鏈顯然不滿足(1)(2)(3)(4),因此不能稱是數(shù)據(jù)中臺(tái),也不建議納入數(shù)據(jù)中臺(tái)的范疇。
從以上的分析可知,數(shù)據(jù)倉庫是跟數(shù)據(jù)中臺(tái)最像的東西,奧妙就在于業(yè)務(wù)。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)