隨著企業(yè)信息化的發(fā)展,企業(yè)內(nèi)部建立了大量的信息化系統(tǒng)。然而,這些信息系統(tǒng)的數(shù)據(jù)源大多彼此獨立、相互封閉,使得數(shù)據(jù)難以在系統(tǒng)之間交流和共享,從而形成了所謂的“信息孤島”。企業(yè)急需通過數(shù)據(jù)整合平臺來聯(lián)系整個企業(yè)的異構(gòu)系統(tǒng),完成在企業(yè)內(nèi)部信息化系統(tǒng)之間無縫的共享和交換數(shù)據(jù)。

(圖 1 )數(shù)據(jù)整合
數(shù)據(jù)工廠提供了一個統(tǒng)一的接口,屏蔽底層數(shù)據(jù)源的不同,使得用戶不必考慮底層數(shù)據(jù)模型和地理位置不同等問題,能夠通過一個統(tǒng)一的界面實現(xiàn)對異構(gòu)數(shù)據(jù)源的整合。這樣就使得對多數(shù)據(jù)源的操作就像操作一個數(shù)據(jù)源一樣簡單。
傳統(tǒng)整合方式
傳統(tǒng)的ETL工具的數(shù)據(jù)整合方式是,首先從多種數(shù)據(jù)源抽取數(shù)據(jù),然后在一個獨立的ETL引擎轉(zhuǎn)換數(shù)據(jù),最后裝載轉(zhuǎn)換后的數(shù)據(jù)到目標(biāo)數(shù)據(jù)庫。

(圖 2)傳統(tǒng)數(shù)據(jù)整合
這種方式下,數(shù)據(jù)一定要在網(wǎng)絡(luò)間傳輸兩次,一次是源數(shù)據(jù)源和ETL服務(wù)器之間,一次是ETL服務(wù)器和目標(biāo)數(shù)據(jù)源之間。如果用戶想要確保源數(shù)據(jù)的參照完整性,需要根據(jù)目標(biāo)數(shù)據(jù)庫的標(biāo)準(zhǔn)維表進(jìn)行參照,那么被參照的數(shù)據(jù)也一定要從目標(biāo)數(shù)據(jù)源抽取到ETL服務(wù)器,這樣就更增加了不必要的網(wǎng)絡(luò)數(shù)據(jù)傳輸,降低了整體的處理性能。
數(shù)據(jù)工廠跨數(shù)據(jù)源整合
數(shù)據(jù)工廠抽象了一個數(shù)據(jù)集結(jié)區(qū)的概念,用戶定義的數(shù)據(jù)轉(zhuǎn)換工作將在數(shù)據(jù)集結(jié)區(qū)上運行。
1、運行前分析整個ETL過程,根據(jù)盡少移動數(shù)據(jù)的原則選擇數(shù)據(jù)集結(jié)區(qū),消除不必要的網(wǎng)絡(luò)傳輸;
2、直接在源數(shù)據(jù)源上進(jìn)行轉(zhuǎn)化操作,減少遷移的數(shù)據(jù)量;
3、通過異構(gòu)數(shù)據(jù)同步工具,使得不同數(shù)據(jù)源之間的數(shù)據(jù)能夠方便快捷的進(jìn)行同步。
1數(shù)據(jù)集結(jié)區(qū)適配
1.1 數(shù)據(jù)集結(jié)區(qū)在源數(shù)據(jù)庫
當(dāng)需要整合的數(shù)據(jù)源都在同一個數(shù)據(jù)庫時,數(shù)據(jù)工廠將數(shù)據(jù)集結(jié)區(qū)設(shè)置在源數(shù)據(jù)庫上。在源數(shù)據(jù)庫上對數(shù)據(jù)進(jìn)行轉(zhuǎn)換后,再將整合后的數(shù)據(jù)裝載表到目標(biāo)數(shù)據(jù)庫。

(圖 3)源數(shù)據(jù)源集結(jié)
1.2 數(shù)據(jù)集結(jié)區(qū)在目標(biāo)數(shù)據(jù)庫
當(dāng)數(shù)據(jù)源來自于不同的數(shù)據(jù)庫時,數(shù)據(jù)工廠將數(shù)據(jù)集結(jié)區(qū)設(shè)在目標(biāo)數(shù)據(jù)庫上。從源數(shù)據(jù)庫抽取數(shù)據(jù),裝載表到目標(biāo)服務(wù)器,然后在目標(biāo)數(shù)據(jù)庫上執(zhí)行轉(zhuǎn)換操作。

(圖 4)目標(biāo)數(shù)據(jù)源集結(jié)
1.3 數(shù)據(jù)集結(jié)區(qū)在默認(rèn)數(shù)據(jù)庫
當(dāng)源和目標(biāo)數(shù)據(jù)源都不是關(guān)系數(shù)據(jù)庫時,數(shù)據(jù)工廠將數(shù)據(jù)集結(jié)區(qū)設(shè)置在默認(rèn)數(shù)據(jù)庫。將數(shù)據(jù)源的數(shù)據(jù)抽取到默認(rèn)數(shù)據(jù)庫中進(jìn)行轉(zhuǎn)換,最后再加載到目標(biāo)數(shù)據(jù)源。

(圖 5)默認(rèn)數(shù)據(jù)源集結(jié)
2異構(gòu)數(shù)據(jù)同步
數(shù)據(jù)工廠提供了一個通用的異構(gòu)數(shù)據(jù)同步工具,通過該工具我們可以高效的在各種異構(gòu)數(shù)據(jù)源之間進(jìn)行數(shù)據(jù)的同步。該數(shù)據(jù)同步工具采用插件式架構(gòu),增加新的數(shù)據(jù)源支持時,僅需要擴(kuò)展對應(yīng)的讀和寫接口接口完成新數(shù)據(jù)源與原有數(shù)據(jù)源的數(shù)據(jù)同步支持。

(圖 6)數(shù)據(jù)同步
通過靈活選擇數(shù)據(jù)集結(jié)區(qū)與利用異構(gòu)數(shù)據(jù)同步工具,數(shù)據(jù)工廠使得用戶在跨數(shù)據(jù)源整合過程中達(dá)到性能和生產(chǎn)效率的完美結(jié)合。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)