- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2019-03-05來源:億信華辰瀏覽數:1910次

數據湖是存儲所有數據的中心位置,無論源或格式如何。它通常使用Hadoop構建。數據可以是結構化的或非結構化的。您可以使用各種存儲,分析和處理工具快速提取價值,以便為關鍵的組織決策提供信息。
由于歡迎所有數據,因此數據湖是傳統企業數據倉庫的有力替代或補充。此外,隨著組織轉向基于云的應用程序和物聯網,數據湖是一個主要選擇。
在早期用例中,組織經常將數據加載到數據湖中而不嘗試對其進行管理。隨著數據湖泊的成熟并對組織變得更具戰略性,將數據轉儲到數據湖中并希望獲得最佳效果已經不夠了。
數據湖具有靈活性,可擴展性和成本效益。但是,如果您添加數據管理和治理功能(如數據質量,元數據管理,安全性,轉換以及分組或組合數據的能力),它還可以擁有傳統EDW的大部分內容。如果管理得當,數據湖可以改進現有的數據計劃并實現新的計劃。您的組織可以在構建數據湖時選擇以下四種路徑之一:
選項1:稍后解決治理問題
第一種選擇是忽略治理并將數據自由加載到湖中。之后,當您需要從數據中發現見解時,您將不得不找到清理數據的工具,例如機器學習技術。這種方法存在實際風險。即便是最智能的推理引擎也需要在湖中的大量數據中啟動。不可避免地,數據湖的某些部分將被忽略,變得停滯,孤立,并包含結構如此之少的數據,即使是最聰明的自動化工具 - 或人類分析師 - 也不知道從哪里開始。
選項2:調整現有的傳統工具
您可以利用最初為EDW設計的應用程序和流程。可以使用軟件工具執行在EDW中導入干凈數據時使用的ETL過程。您可以使用這些工具將數據導入湖中,但這樣做成本很高,并且只能解決您需要的部分管理和治理功能。另一個缺點是ETL發生在Hadoop集群之外,減慢了操作并增加了成本,因為每個查詢都必須將數據移出集群。
選項3:編寫自定義腳本
使用第三個選項,您可以使用自定義腳本構建工作流,該腳本連接流程,應用程序,質量檢查和數據轉換以滿足治理需求。這是一個受歡迎的選擇,但是最不可靠和最耗費資源。您需要熟練掌握Hadoop及其生態系統的高技能分析師來利用開源工具,他們需要編寫腳本來連接各個部分。隨著您在湖中成長,這個過程變得更加耗時且成本更高,因為您必須不斷修改復雜的代碼和工作流程。
選項4:部署集成數據湖管理平臺
第四種選擇是整合數據湖泊管理平臺,該平臺專門用于攝取和管理數據湖中的大量不同數據集。Zaloni的Bedrock提供此功能。它允許您對數據進行編目,利用元數據,并支持確保數據質量,數據沿襲和自動化工作流程的持續過程。這種方法正在成為數據湖管理和治理的最佳解決方案。
當您轉換到數據湖時,選擇完全集成的數據湖泊管理平臺將使您對數據充滿信心,并對其進行擴展以包含越來越多的用戶和有利于業務的用例。畢竟,這就是數據的用途,通知和改善整個組織的決策流程,并以新的和令人興奮的方式幫助您的業務增長。