日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

為什么集成和治理對數據湖成功至關重要

時間:2019-02-28來源:億信華辰瀏覽數:1229


這是一個由三部分組成的系列文章的最后一篇文章,探討如何構建一個能夠滿足真正企業級數據管理平臺所有要求的數據湖。雖然早期的專題文章側重于Hadoop中的企業級數據管理,數據入庫中的數據以及安全性,但本文將重點關注兩件事:在更廣泛的企業IT環境中整合數據湖,以及數據治理

隨著更多湖泊的部署,我們看到了數據湖相對于大型組織中現有數據庫,數據倉庫,分析設備和企業應用程序的定位模式。

數據湖:留在這里

一些數據湖從一開始就被部署為集中的記錄數據平臺系統,為企業規模的其他系統服務,即數據即服務模型。隨著集中數據湖建立勢頭,收集更多數據并吸引更多用例和用戶,隨著用戶協作改進和重用數據,其價值也在不斷增長。

其他項目始于組織的邊緣,以提供數據并滿足特定業務組的分析需求。本地化數據湖通常會擴展為支持多個團隊或生成其他單獨的數據湖實例,以支持希望獲得與第一組相同的改進數據訪問權限的其他組。

無論數據湖在組織中落地和擴展采用何種模式,數據湖在組織中日益重要的角色都會帶來對企業準備的新要求。

整合挑戰

為了做好企業準備,數據湖需要支持一系列功能,使其能夠集成到公司的整體數據管理戰略和IT應用程序以及數據流方面。

以下是一些要記住的要求:


  • 必須能夠自動化和嵌入與數據湖交互的過程,以便可以在熄燈生產模式下自動調用和執行用新數據更新湖或從湖中提供數據的作業。這意味著數據湖需要提供RESTFul API,該API可以由環境中的其他腳本或計劃調用,并公開在生產環境中與數據湖交互所需的所有功能。
  • 數據湖需要能夠以多種格式導出數據和相關元數據,以便湖中的數據可以輕松地與其他應用程序或下游報告/分析系統集成。
  • 數據湖需要支持開發,測試和生產環境,并允許在數據湖環境中從一個環境到下一個環境輕松推廣數據攝取,數據準備和類似資產。
  • 數據湖需要使湖泊的各個部分更容易在不同的Hadoop集群中共享,以便在具有多個數據湖的大型組織中,可以輕松且一致地共享數據,元數據和相關資產。
  • 必須可以將在數據湖中收集和生成的元數據與其他企業標準元數據存儲庫進行交換。


治湖

除了流式傳輸數據湖的集成之外,您還必須準備好湖泊,以支持廣泛且不斷擴展的業務用戶社區。

隨著越來越多的用戶開始直接或通過下游應用程序或報告/分析系統處理數據湖,強大數據治理的重要性也在增長。本主題 - 數據治理 - 是企業準備的最后一個維度。

通過將大量存儲庫中的數百種不同數據集匯集在一起,并為用戶提供前所未有的直接訪問數據,數據湖創造了新的治理挑戰和機遇。

挑戰與確保數據治理政策和程序在湖中存在并得到執行有關。數據湖中的企業級數據治理首先明確定義了每個數據資產進入湖泊時誰擁有或擁有監管責任,并通過數據湖流程進行維護和增強。此外,數據湖需要包含有關所需準確性,可訪問性,一致性,完整性和每個數據源更新的詳細記錄策略。

為了監視和實施這些策略的應用,數據湖環境必須根據數據質量,特性和完整性自動分析每個數據源的攝取。此外,數據湖應自動跟蹤和記錄數據資產的任何操作(清理,轉換,準備),以提供湖中所有用戶和活動的清晰審計跟蹤。

最后,當涉及數據湖中的企業級數據治理時,必須制定限制措施以確保人們只能看到應該允許他們看到的數據。(有關身份驗證,授權和數據訪問控制的重要性的更多信息,請參閱本系列的第2部分。)

企業規模的良性循環

但數據治理在真正的企業級數據湖中的作用不僅是降低風險和實施控制。它還可以創建附加值,并圍繞用戶和組的數據實現更豐富的更廣泛協作。

如果設計得當,數據湖的獨特之處在于允許大量非技術業務用戶在從原始源系統數據到業務用戶就緒信息的進化路徑上移動數據時訪問,探索和增強數據。

良好的數據治理通過幫助業務用戶使用眾包業務元數據增強數據以及為數據添加上下文,業務定義和含義的標記來實現此過程。結合數據治理策略,有選擇地剔除并促進組織中對“黃金標準”數據的最佳群眾資源洞察力,越來越多的企業用戶參與企業規模數據湖可以創建用戶的良性循環參與可以增強數據,帶來更多用戶,更多增強,并最終為湖泊帶來更多價值。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢