1. 數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。
所謂面向主題,是指根據(jù)使用者實(shí)際需求,將不同數(shù)據(jù)源的數(shù)據(jù)在一個(gè)較高的抽象層次上做整合,所有數(shù)據(jù)都圍繞某一主題來(lái)組織,例如:采購(gòu)主題、生產(chǎn)主題、客戶主題、銷售主題等。
所謂集成性,是指數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)是來(lái)源于多個(gè)數(shù)據(jù)源的集成、匯總。由于原始數(shù)據(jù)來(lái)自不同的數(shù)據(jù)源,存儲(chǔ)方式各不相同。要整合成為最終的數(shù)據(jù)集合,需要從數(shù)據(jù)源經(jīng)過(guò)一系列抽取、清洗、轉(zhuǎn)換的過(guò)程。
所謂相對(duì)穩(wěn)定,是指數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)一般為“既成事實(shí)”的數(shù)據(jù),也可理解為歷史數(shù)據(jù)的一個(gè)快照,只做查詢分析用,不允許修改。
所謂反映歷史變化,是指數(shù)據(jù)倉(cāng)庫(kù)根據(jù)不斷集成新的主題數(shù)據(jù),反應(yīng)出該主題的數(shù)據(jù)變化情況,例如:銷售業(yè)績(jī)完成情況。
2. 數(shù)據(jù)湖
數(shù)據(jù)湖是將來(lái)自不同數(shù)據(jù)源、不同數(shù)據(jù)類型(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)的數(shù)據(jù),以原始格式存儲(chǔ)進(jìn)行存儲(chǔ)的系統(tǒng),它按原樣存儲(chǔ)數(shù)據(jù),而無(wú)需事先對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。
有人認(rèn)為數(shù)據(jù)湖是數(shù)據(jù)倉(cāng)庫(kù)的PLUS版,增強(qiáng)了
數(shù)據(jù)存儲(chǔ)的能力。而實(shí)際上,數(shù)據(jù)湖不簡(jiǎn)單是數(shù)據(jù)倉(cāng)庫(kù)一個(gè)技術(shù)上的升級(jí),更重要的是數(shù)據(jù)管理思維的升級(jí)。數(shù)據(jù)倉(cāng)庫(kù)是需要事先定義好數(shù)據(jù)結(jié)構(gòu),然后是報(bào)表取數(shù)。而大數(shù)據(jù)的發(fā)展,數(shù)據(jù)形式越發(fā)多樣化,傳統(tǒng)數(shù)倉(cāng)這種定義數(shù)據(jù)結(jié)構(gòu)、取數(shù)、出表的模式,已經(jīng)很難滿足業(yè)務(wù)上的需求了。
因此,數(shù)據(jù)湖以原始格式存儲(chǔ)各種類型數(shù)據(jù),以及按需進(jìn)行數(shù)據(jù)結(jié)構(gòu)化處理、數(shù)據(jù)清理、提供數(shù)據(jù)服務(wù),以更加靈活的方式支持多種應(yīng)用場(chǎng)景的能力越來(lái)越受到人們的歡迎。
3. 數(shù)據(jù)工廠
前邊提到的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,重點(diǎn)側(cè)重于數(shù)據(jù)的存儲(chǔ),本質(zhì)上是“原材料”的存儲(chǔ)系統(tǒng),而要讓數(shù)據(jù)發(fā)揮價(jià)值,就必須將這個(gè)“原材料”需要加工成用戶需要的“產(chǎn)品”。數(shù)據(jù)工廠就是根據(jù)用戶的需求,將原始數(shù)據(jù)進(jìn)行加工、處理、清洗、轉(zhuǎn)換、匯總等各種加工工序,生產(chǎn)出能夠被用戶直接使用的數(shù)據(jù)產(chǎn)品。
數(shù)據(jù)工廠包含了多種數(shù)據(jù)處理的工具,以滿足不同處理工序的作業(yè)需要,例如:數(shù)據(jù)源連接、數(shù)據(jù)同步、
數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)工作流、數(shù)據(jù)目錄、數(shù)據(jù)服務(wù)等等。
4. 數(shù)據(jù)中臺(tái)
其實(shí),如果從功能構(gòu)件上來(lái)講,我認(rèn)為:數(shù)據(jù)中臺(tái)就是數(shù)據(jù)湖+數(shù)據(jù)工廠的一個(gè)綜合。但不同的是數(shù)據(jù)中臺(tái)更注重
數(shù)據(jù)應(yīng)用,離業(yè)務(wù)更近,強(qiáng)調(diào)一個(gè)快速敏捷。
數(shù)據(jù)中臺(tái)不僅關(guān)注原始數(shù)據(jù)的存儲(chǔ)及處理加工,更側(cè)重將數(shù)據(jù)處理過(guò)程中,常用的邏輯、算法、標(biāo)簽、模型進(jìn)行沉淀,而形成一系列的“數(shù)據(jù)半成品”,然后根據(jù)前臺(tái)業(yè)務(wù)的需要,快速生產(chǎn)出用戶需要的“數(shù)據(jù)產(chǎn)品”。數(shù)據(jù)中臺(tái)能力強(qiáng)弱,要看這個(gè)“數(shù)據(jù)半成品”積累的多少了。
在數(shù)據(jù)生產(chǎn)的整個(gè)鏈條中,對(duì)于如何筑湖、如何選址建廠、按什么工序加工、以及如何配送,這是技術(shù)部門的事情,而“數(shù)據(jù)半成品”的沉淀和積累,卻不是技術(shù)能決定的了。因此,數(shù)據(jù)中臺(tái)的建設(shè)更強(qiáng)調(diào)需求驅(qū)動(dòng)、業(yè)務(wù)主導(dǎo)。

(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)