隨著云計算的普及和大數據時代的到來,如何讓各種數據源中的種類豐富的數據高效上云,以及經過云上大數據計算后,如何把計算結果回流到種類豐富數據源?或者云上各個產品之間的數據怎么進行同步?各個云廠商或者大數據解決方案提供商都推出了各自的
數據集成產品,本文將就常見的解決方案進行探討。
一、數據集成的定義
數據集成是把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。在企業數據集成領域,已經有了很多成熟的框架可以利用。通常采用聯邦式、基于中間件模型和數據倉庫等方法來構造集成的系統,這些技術在不同的著重點和應用上解決數據共享和為企業提供決策支持。
二、數據集成常見的問題
數據處理常常涉及數據集成操作,即將來自多個數據源的數據,如數據庫、數據立方、普通文件等,結合在一起并形成一個統一數據集合,以便為數據處理工作的順利完成提供完整的數據基礎。在數據集成過程中,需要考慮解決以下幾個問題。
1、冗余問題
冗余問題是數據集成中經常發生的另一個問題。若一個屬性可以從其他屬性中推演出來,那這個屬性就是冗余屬性。例如,一個顧客數據表中的平均月收入屬性就是冗余屬性,顯然它可以根據月收入屬性計算出來。此外,屬性命名的不一致也會導致集成后的數據集出現數據冗余問題。
2、數據值沖突檢測與消除問題
在現實世界實體中,來自不同數據源的屬性值或許不同。產生這種問題的原因可能是表示、比例尺度,或編碼的差異等。例如,重量屬性在一個系統中采用公制,而在另一個系統中卻采用英制;價格屬性在不同地點采用不同的貨幣單位。這些語義的差異為數據集成帶來許多問題。
3、模式集成問題
模式集成問題就是如何使來自多個數據源的現實世界的實體相互匹配,這其中就涉及實體識別問題。例如,如何確定一個數據庫中的“custom_id”與另一個數據庫中的“custome_number”是否表示同一實體。
三、如何集成數據
1、建設數據集成方案
系統集成必須圍繞信息需求制定數據集成方案,并需結合信息標準數據流向規劃以及業務系統建設使用情況來確定集成邊界。內容邊界一般涉及四個方面:需要的代碼標準,需要的業務數據,提供的代碼標準,提供的業務數據。除了集成內容邊界,還要考慮數據集成的技術方式,一般有三種典型集成方式:ETL數據共享,數據庫共享和API共享,三者是互補關系。
2、元數據注冊
元數據是理解數據的前提,是推動企業持續
數據治理優化的基礎,元數據注冊范圍盡可能是業務系統完整元數據,以及涉及到共享和需要的數據及代碼表的元數據。
3、代碼標準檢查
代碼標準檢查依托于上面的元數據,也是數據集成前代碼統一的有效檢查技術手段,我們可以獲取多種代碼差異,在方案評審中進行評審。
4、方案評審
評審內容:集成方案評審、代碼標準評審。
評審處理原則:a)優先遵循數據源頭標準;b)優先遵循教育部標準;c)需要信息中心、業務部門、公司共同討論。
5、標準迭代
方案評審后會帶來一系列的迭代工作,公司和信息中心層面需要完成代碼標準迭代、數據模式迭代以及監督業務系統迭代情況,業務部門和第三方需要完成業務系統代碼標準調整以及涉及到數據內容的清洗。
6、數據集成
以公司為主,業務系統提供方強力配合。注意典型數據清洗轉換。
7、運行監控
運行監控對平臺中不規范的接口、代碼標準不一致情況、數據質量等問題進行監控,監控對數據治理是非常有幫助的。
