日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據集成的原理

時間:2018-12-29來源:數據治理瀏覽數:2554


在Experian Data Quality上多次使用這個類比,但這僅僅是因為它在引用數據標準化時非常有意義。

數據標準化只是構建良好數據管理策略的一個步驟,但這是使數據可操作的基本步驟。

為什么在進行數據質量或數據管理項目時投資數據標準化符合您的最佳利益?就像一個堅實的基礎對于強大的房屋至關重要一樣,數據標準化對于構建強大的數據管理計劃是必要的。這就是那些致力于數據驅動的組織能夠快速有效地做出決策的方式。

究竟什么是數據標準化?

數據標準化是將數據轉換或操作為一致格式的過程。這些數據很可能存在于多個不同的系統中,所有這些系統的數據存儲規則和格式可能略有不同。這些微小的差異可能導致對組織數據的誤解和誤解,導致依賴該數據的人不信任它并進行多項檢查以確保從該數據中得出的結論實際上是正確的。




對于普通的喬來說,信息技術(IT)是一個神秘的世界,充滿了難以理解的編程語言和昂貴的硬件。竊聽IT技術人員幾乎就像聽到用外語說話。但是,盡管這種看似難以理解的語言障礙,對于企業和組織中的決策者來說理解IT世界至關重要。最重要的IT概念之一是數據集成


從表面上看,數據集成聽起來像一個簡單的想法。由于許多組織將信息存儲在多個數據庫中,因此需要一種方法從不同的源檢索數據并以統一的方式組裝。例如,讓我們想象一家電子公司正在準備推出新的移動設備。在市場營銷部門可能想要從一個銷售部門的數據庫中的客戶信息,并將其從產品部門的比較信息,以創建具有針對性的銷售列表。一個好的數據集成系統可以讓營銷部門以統一的方式查看來自兩個來源的信息,而忽略任何不適用于搜索的信息。


實際上,數據集成是一門復雜的學科。沒有通用的數據集成方法,IT專家使用的許多技術仍在不斷發展。某些數據集成方法可能比組織中的其他方法更好,具體取決于組織的需求。我們將密切關注IT專家用于集成多個數據源并進入數據庫管理世界的一些一般策略。


數據集成基礎


數據集成主要側重于數據庫。數據庫是有組織的數據集合。它類似于文件系統,它是文件的組織結構,因此很容易找到,訪問和操作。


有不同的方法來分類數據庫。有些人喜歡根據數據庫存儲的數據類型對它們進行分類。例如,如果存儲在那里的所有信息都包含在視頻或聲音文件中,則可以將數據庫分類為媒體數據庫。


另一種分類方法著眼于數據庫如何組織數據。數據庫的組織安排稱為模式。一種常見的組織技術是使用表來顯示不同數據點之間的關系。表格就像電子表格。列定義數據類別,而行是記錄。使用此方法的數據庫是關系數據庫。


面向對象編程(OOP)數據庫采用不同的方法來組織數據。OOP語言偏離了傳統的編程方法,它遵循將數據插入一組指令然后產生輸出的模式。OOP語言的重點是將數據定義為對象,然后確定不同對象如何相互關聯和相互作用。


要創建OOP數據庫,首先要定義計劃存儲在數據庫中的所有對象。然后,您將定義每個對象與數據庫中每個其他對象的關聯方式。識別對象后,將其放入一個類或一組對象中。要定義一個類,您必須確定該類中每個對象必須具有哪些數據,以及哪些邏輯序列(稱為方法)將影響這些對象。系統中的對象可以使用稱為消息的接口與您或其他對象進行通信。


通過一個例子更容易理解。假設您正在構建一個包含有關美國體育信息的數據庫。你決定從定義棒球隊開始。一旦創建了棒球隊的定義,就可以將其概括為數據庫中的一個類。Atlanta Braves將是該類的特定實例,也稱為對象。棒球隊的類別屬于美國運動隊的超級類別,其中還包括其他類別,如足球和足球隊。


要訪問數據庫中的信息(無論它如何組織數據),您可以使用查詢。查詢只是一個信息請求。人員和應用程序可以向數據庫提交查詢。數據庫通過發送滿足原始請求參數的數據來響應查詢。查詢依賴于特殊的計算機語言,例如結構化查詢語言(SQL)。如果您曾經使用過互聯網搜索引擎,那么您已經提交了一個查詢 - 您的搜索字詞。


數據集成方法


根據上面所說的,您可能認為數據庫相當復雜。這是一個公平的假設,它有助于解釋為什么數據集成仍然是一個發展中的學科,即使它已有30多年的歷史。數據集成的目標是從不同來源收集數據,將其組合并以一種看起來是統一整體的方式呈現。


假設你要離開旅行,你想在決定走出城外的路線之前看看有什么樣的交通。以下是數據集成的不同方法如何處理您的查詢。


在手動集成方案會令所有的工作給你。首先,您必須知道在哪里查找數據。您需要知道交通報告和城鎮地圖的實際位置。您需要直接從各自的數據庫中檢索交通報告和地圖數據,然后將這兩組數據相互比較,以找出出城的最佳路線。


如果您使用通用的用戶界面方法,則必須少做一些工作。您可以使用諸如萬維網之類的界面進行查詢。查詢結果將顯示為界面上的視圖。您仍然需要將流量報告與地圖進行比較以確定最佳路線,但至少接口會負責查找和檢索數據。


一些集成方法依賴于應用程序來為您完成所有工作。這些應用程序是專門的計算機程序,可以為您定位,檢索和集成信息。在集成過程中,應用程序必須操縱數據,以便來自一個源的信息與來自其他源的信息兼容。在我們的示例中,這意味著您要向應用程序提交查詢,它會顯示一個視圖,將您所在城鎮的地圖與來自交通報告的數據相結合。這種方法的問題在于,隨著數據源和格式數量的增加,應用程序變得復雜且難以編程。


然后是常見的數據存儲方法,也稱為數據倉庫。使用此方法,可以提取,轉換和加載來自要集成的各種數據庫的所有數據。這意味著數據倉庫首先從各種數據源中提取所有數據。然后,數據倉庫將所有數據轉換為通用格式,以便一組數據與另一組數據兼容。然后它將這些新數據加載到自己的數據庫中。提交查詢時,數據倉庫將查找數據,檢索數據并在集成視圖中將其呈現給您。使用我們的示例,數據倉庫將找到它在城鎮的交通報告和地圖上的最新信息。然后它會將兩者整合在一起并將視圖發送給您。該系統有幾個優點和缺點,我們將在下一節中介紹。


大多數數據集成系統設計人員都認為最終目標是盡可能為最終用戶創建工作,因此他們傾向于關注應用程序和數據倉庫技術。


數據倉庫


如前所述,數據倉庫是使用通用格式存儲來自其他數據庫的信息的數據庫。這與描述數據倉庫時的具體情況大致相同。沒有統一的定義來規定數據倉庫是什么或者設計者應該如何構建它們。因此,有幾種不同的方法可以創建數據倉庫,而一個數據倉庫的外觀和行為可能與另一個不同。


通常,對數據倉庫的查詢只需要很少的時間來解決。那是因為數據倉庫已經完成了提取,轉換和組合數據的主要工作。數據倉庫的用戶端稱為前端,因此從前端角度來看,數據倉庫是獲取集成數據的有效方式。


從后端的角度來看,這是一個不同的故事。數據庫管理員必須對數據倉庫系統進行大量思考,以使其有效和高效。將從不同來源收集的數據轉換為通用格式可能特別困難。系統需要一致的方法來描述和編碼數據。


倉庫必須具有足夠大的數據庫,以存儲從多個源收集的數據。一些數據倉庫包括一個稱為數據集市的附加步驟。數據倉庫接管聚合數據的職責,而數據集市通過檢索和組合來自倉庫的適當數據來響應用戶查詢。


數據倉庫的一個問題是它們中的信息并不總是最新的。這是因為數據倉庫的工作方式 - 他們定期從其他數據庫中提取信息。如果這些數據庫中的數據在提取之間發生變化,則對數據倉庫的查詢將不會產生最新且準確的視圖。如果系統中的數據很少改變,這不是什么大問題。但是,對于其他應用程序,這是有問題的。


回到之前使用流量報告和地圖的示例,您可以看到這將是一個問題。雖然該鎮的地圖可能不需要頻繁更新,但交通狀況可能會在相對較短的時間內發生巨大變化。數據倉庫可能不會非常頻繁地提取數據,這意味著時間敏感的信息可能不可靠。對于那些類型的應用程序,最好采用不同的數據集成方法。


網絡數據庫


對于依賴于頻繁更改的信息的數據集成系統,數據倉庫方法并不理想。IT專家嘗試解決此問題的一種方法是設計直接從各個數據源提取數據的系統。由于沒有專門用于分析,分類和集成數據以準備用戶查詢的集中式數據庫,因此這些責任落在系統的其他部分。


IT專家根據模式定義數據集成系統。從處理的查詢生成的統一視圖是全局模式。各種數據源的結構以及它們彼此相關的方式是源模式。全局和源模式相互關聯的方式稱為映射。將源模式視為系統中所有數據的藍圖,而全局模式是響應查詢而呈現的視圖的藍圖。


在數據集成系統中解析查詢有兩種主要方法:全局視圖和本地視圖。每種方法都側重于整個系統的特定部分,并且有其優點和缺點。


在全球視圖方法中,重點是全局模式。只要數據源保持一致,全球視圖方法就能很好地運作。更改全局模式的設置很容易。這意味著以不同方式分析相同的整體數據并不困難。但是,向系統添加或刪除數據源是有問題的,因為它會影響整個系統的數據。


本地視圖技術采用相反的方法。它側重于數據源。只要全局模式保持不變,就可以輕松地向系統添加或刪除數據源。該模式在新數據源中查找相同類型的數據和關系。在這種方法中,更改全局模式的參數很困難。如果要以新方式分析數據源,則必須重新定義整個系統。


這就是關于數據集成的故事。下次您查看天氣圖或調出過濾后的數據選擇時,您將了解后臺進行的一系列復雜過程,這些都是可能的。





(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢