在大數據時代,當數據以多種格式分散在整個企業中并且來自許多來源時,需要一種新的數據治理方法。
隨著可用數據的數量、種類和速度都在以驚人的速度持續增長,企業面臨著兩個緊迫的挑戰:如何發現這些數據中的可操作的洞察力,以及如何保護它。這兩個挑戰直接取決于數據治理的高水平。?
Hadoop生態系統可以使用元數據方法提供這種級別的治理,理想情況下是在單個數據平臺上。
需要一種新的治理方法有以下幾個原因。在大數據時代,數據分散在整個企業中。它是結構化的、非結構化的、半結構化的和各種其他格式。此外,數據源不在需要管理的團隊的控制之下。
在這種環境下,數據治理包括三個重要目標:
實現訪問控制和其他數據安全措施
捕獲數據集的元數據以支持安全性工作并促進最終用戶數據的消耗?
Hadoop生態系統中的解決方案?
在Hadoop環境中實現大數據治理的一種方法是通過數據標記。在這種方法中,當數據通過各種企業系統時,將控制數據使用的元數據嵌入到該數據中。此外,此元數據被增強以包括超出常見屬性的信息,如文件大小、權限、修改日期等。例如,它可能包括業務元數據,這些元數據將幫助數據科學家評估其在特定預測模型中的有用性。?
最后,與企業數據本身不同,元數據可以集中在單個平臺上。?
標準的Hadoop分布式文件系統HDFS具有擴展的屬性能力,允許豐富的元數據,但是對于大數據并不總是足夠的。幸運的是,存在另一種解決方案。Apache Atlas元數據管理系統支持數據標記,還可以充當集中式元數據存儲,可以為正在搜索相關數據集的數據分析師提供“一站式購物”。此外,流行的Hadoop友好的Hive和Spark SQL數據檢索系統的用戶可以自己進行標記。?
為了安全,Atlas可以與Apache Ranger集成,Apache Ranger是一個提供對Hadoop平臺的基于角色的訪問的系統。?
平臺加載挑戰?
將元數據初始加載到Atlas平臺以及隨后的增量加載都面臨重大挑戰。對于大型企業來說,在初始階段,數據量的龐大將是主要問題,為了有效地執行這個階段,可能需要優化一些代碼。
增量加載是一個更復雜的問題,因為表、索引和授權用戶一直在變化。如果這些變化沒有快速反映在可用的元數據中,那么最終的結果就是最終用戶可用的數據質量下降。為了避免這個問題,事件偵聽器應該包括在系統的構建塊中,以便可以近乎實時地捕獲和處理更改。實時解決方案不僅意味著更好的數據質量。它還提高了開發人員的生產率,因為開發人員不必等待批處理過程。?
數字化改造的基礎
隨著企業追求數字轉換并尋求更多的數據驅動,高級管理層需要意識到,沒有高質量的數據就不可能實現這個方向的任何結果,這需要強有力的數據治理。當涉及大數據時,基于駐留在中央存儲庫中的增強元數據的治理是一種可行的解決方案。
(部分內容來源網絡,如有侵權請聯系刪除)