日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據湖治理最佳實踐

時間:2019-03-11來源:億信華辰瀏覽數:879


Data Lakes正在成為一種越來越可行的解決方案,用于在企業級從大數據中提取價值,并為早期采用者和新移民提供合乎邏輯的下一步。在隔離的邏輯區域中提供結構化,非結構化和歷史數據的靈活性,靈活性和安全性為企業帶來了一系列轉型功能。然而,許多潛在用戶無法理解的是定義可用數據湖的原因。通常,那些剛接觸大數據的人,甚至是精通Hadoop的老手,都會嘗試使用不同的腳本,工具和第三方供應商來組建幾個集群并將它們拼湊在一起;?這既不符合成本效益,也不可持續。在本文中,我們將描述Data Lake如何比拼湊在一起的幾個服務器更多:它需要規劃,紀律。

在Data Lake中,區域允許數據的邏輯和/或物理分離,從而保護環境的安全,有序和敏捷。通常,鼓勵使用3或4個區域,但可以使用更少或更多區域。通用的4區系統可能包括以下內容:

  1. 瞬態區域?- 用于在攝取之前保存短暫數據,例如臨時副本,流式線軸或其他短期數據。

  2. 原始區域?- 將維護原始數據的區域。這也是敏感數據必須加密,標記化或以其他方式保護的區域。

  3. 受信任區域?- 對原始區域中的數據執行數據質量,驗證或其他處理后,它將成為此區域中下游系統的“真實來源”。

  4. 精制區域??- 操作和豐富的數據保留在此區域中。這用于存儲來自Hive或外部工具等工具的輸出,這些工具將寫入Data Lake。

這種安排可以根據需要適應業務的規模,成熟度和獨特用例,但將通過專用服務器/集群實現物理隔離,通過故意構建目錄和訪問權限進行邏輯分離,或者兩者的某種組合。在視覺上,這種架構類似于下面的架構。

建立和維護定義明確的區域是創建健康湖泊的最重要的活動,并促進本文中的其他概念。同時,重要的是要了解哪些區域不提供 - 即區域不是災難恢復或數據冗余策略。雖然可以在DR中考慮區域,但仍然需要投資于可靠的底層基礎架構以確保冗余和恢復力。

血統

隨著新數據源的添加以及現有數據源的更新或修改,維護數據集內部和之間關系的記錄變得更加重要。這些關系可能像重命名列一樣簡單,也可能像連接來自不同源的多個表一樣復雜,每個表本身可能有多個上游轉換。在此上下文中,lineage有助于提供可跟蹤性以了解字段或數據集的來源以及審計跟蹤,以了解更改的位置,時間和原因。這可能聽起來很簡單,但是當數據在湖中移動時捕獲有關數據的細節非常困難,即使今天部署了一些專門構建的軟件。跟蹤沿襲的整個過程涉及在事務級別(訪問數據和他們做了什么?)以及結構或文件系統級別(數據集和字段之間的關系是什么?)聚合日志。在Data Lake的上下文中,這將包括任何接觸數據的批處理和流工具(例如MapReduce和Spark),以及可能操縱數據的任何外部系統,例如RDBMS系統。這是一項艱巨的任務,但即使是部分血統圖也可以填補傳統系統的空白,特別是隨著GDPR等新法規的出現;?靈活性和可擴展性是管理未來變化的關鍵。這將包括任何觸摸數據的批處理和流媒體工具(如MapReduce和Spark),以及任何可能操縱數據的外部系統,如RDBMS系統。這是一項艱巨的任務,但即使是部分血統圖也可以填補傳統系統的空白,特別是隨著GDPR等新法規的出現;?靈活性和可擴展性是管理未來變化的關鍵。這將包括任何觸摸數據的批處理和流媒體工具(如MapReduce和Spark),以及任何可能操縱數據的外部系統,如RDBMS系統。這是一項艱巨的任務,但即使是部分血統圖也可以填補傳統系統的空白,特別是隨著GDPR等新法規的出現;?靈活性和可擴展性是管理未來變化的關鍵。

數據質量

在Data Lake中,歡迎所有數據,但并非所有數據都相同。因此,定義數據源以及如何管理和使用數據至關重要。嚴格的清理和數據質量規則可能需要應用于需要合規性,最終用戶消耗或可審計性的數據。另一方面,通過清理來自各種物聯網設備的社交媒體數據或數據,可以獲得很多價值。人們還可以考慮在消費方而不是在采購方應用數據質量檢查。因此,單個數據質量體系結構可能不適用于所有類型的數據。必須注意的是,如果數據被“清理”,用于分析的結果可能會產生影響。'固定數據集中的值的字段級數據質量規則可以影響預測模型的結果,因為這些修復可能會影響異常值。通過比較“數據集的預期與接收大小”或“空值閾值”來衡量數據集可用性的數據質量規則可能更適合此類情況。通常,所需驗證的級別受傳統限制或已經存在的內部流程的影響,因此在設置新規則之前評估公司的現有流程是個好主意。

隱私與安全

健康Data Lake的一個關鍵組成部分是隱私和安全性,包括基于角色的訪問控制,身份驗證,授權以及靜態和動態數據加密等主題。從純數據湖和數據管理的角度來看,主要主題往往是數據混淆,包括標記化和數據屏蔽。應該使用這兩個概念來幫助數據本身遵守最小特權的安全概念。限制數據訪問也對許多希望遵守國家和國際垂直法規的企業具有法律意義。限制訪問有幾種形式;?最明顯的是存儲層中區域的大量使用。簡而言之,可以配置存儲層中的權限,使得以最原始格式訪問數據非常有限。

DLM

企業必須努力發展其數據管理戰略的重點,以更有效地保護,保護和服務其數字資產。這涉及投入時間和資源來完全創建生命周期管理策略,并確定是使用扁平結構還是利用分層保護。數據生命周期管理的傳統前提是基于數據的創建,使用和存檔這一事實。今天,這個前提可能適用于某些交易數據,但許多數據源現在從閱讀角度保持活躍,無論是持續的還是半可預測的時間間隔。了解并了解其信息,數據和存儲介質的異同的企業,

結論

就像它們處于起步階段的關系數據庫一樣,近年來Hadoop的一些實現因缺乏最佳實踐而受到影響。在考慮將Hadoop用作Data Lake時,需要考慮許多最佳實踐。利用區域和適當的授權作為數據工作流框架的一部分,為數據轉換提供了高度可擴展的并行系統。?


(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢