- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2019-02-28來源:億信華辰瀏覽數:1229次

這是一個由三部分組成的系列文章的最后一篇文章,探討如何構建一個能夠滿足真正企業級數據管理平臺所有要求的數據湖。雖然早期的專題文章側重于Hadoop中的企業級數據管理,數據入庫中的數據以及安全性,但本文將重點關注兩件事:在更廣泛的企業IT環境中整合數據湖,以及數據治理。
隨著更多湖泊的部署,我們看到了數據湖相對于大型組織中現有數據庫,數據倉庫,分析設備和企業應用程序的定位模式。
一些數據湖從一開始就被部署為集中的記錄數據平臺系統,為企業規模的其他系統服務,即數據即服務模型。隨著集中數據湖建立勢頭,收集更多數據并吸引更多用例和用戶,隨著用戶協作改進和重用數據,其價值也在不斷增長。
其他項目始于組織的邊緣,以提供數據并滿足特定業務組的分析需求。本地化數據湖通常會擴展為支持多個團隊或生成其他單獨的數據湖實例,以支持希望獲得與第一組相同的改進數據訪問權限的其他組。
無論數據湖在組織中落地和擴展采用何種模式,數據湖在組織中日益重要的角色都會帶來對企業準備的新要求。
為了做好企業準備,數據湖需要支持一系列功能,使其能夠集成到公司的整體數據管理戰略和IT應用程序以及數據流方面。
以下是一些要記住的要求:
除了流式傳輸數據湖的集成之外,您還必須準備好湖泊,以支持廣泛且不斷擴展的業務用戶社區。
隨著越來越多的用戶開始直接或通過下游應用程序或報告/分析系統處理數據湖,強大數據治理的重要性也在增長。本主題 - 數據治理 - 是企業準備的最后一個維度。
通過將大量存儲庫中的數百種不同數據集匯集在一起,并為用戶提供前所未有的直接訪問數據,數據湖創造了新的治理挑戰和機遇。
挑戰與確保數據治理政策和程序在湖中存在并得到執行有關。數據湖中的企業級數據治理首先明確定義了每個數據資產進入湖泊時誰擁有或擁有監管責任,并通過數據湖流程進行維護和增強。此外,數據湖需要包含有關所需準確性,可訪問性,一致性,完整性和每個數據源更新的詳細記錄策略。
為了監視和實施這些策略的應用,數據湖環境必須根據數據質量,特性和完整性自動分析每個數據源的攝取。此外,數據湖應自動跟蹤和記錄數據資產的任何操作(清理,轉換,準備),以提供湖中所有用戶和活動的清晰審計跟蹤。
最后,當涉及數據湖中的企業級數據治理時,必須制定限制措施以確保人們只能看到應該允許他們看到的數據。(有關身份驗證,授權和數據訪問控制的重要性的更多信息,請參閱本系列的第2部分。)
但數據治理在真正的企業級數據湖中的作用不僅是降低風險和實施控制。它還可以創建附加值,并圍繞用戶和組的數據實現更豐富的更廣泛協作。
如果設計得當,數據湖的獨特之處在于允許大量非技術業務用戶在從原始源系統數據到業務用戶就緒信息的進化路徑上移動數據時訪問,探索和增強數據。
良好的數據治理通過幫助業務用戶使用眾包業務元數據增強數據以及為數據添加上下文,業務定義和含義的標記來實現此過程。結合數據治理策略,有選擇地剔除并促進組織中對“黃金標準”數據的最佳群眾資源洞察力,越來越多的企業用戶參與企業規模數據湖可以創建用戶的良性循環參與可以增強數據,帶來更多用戶,更多增強,并最終為湖泊帶來更多價值。