- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2019-03-22來源:億信華辰瀏覽數:698次

目前有很多關于數據湖泊及其提供的可能性的興奮,特別是關于分析和數據可視化。因此,我越來越多地被問到您是否真的需要在數據湖上進行數據治理。畢竟,數據湖是一個集中式存儲庫,允許您以可擴展的方式存儲所有結構化和非結構化數據。
與數據倉庫不同,您可以按原樣存儲數據,而無需先構建數據。這導致許多組織以不受控制和輕率的方式將大量數據“傾倒”到數據湖中。結果是許多人稱之為“數據沼澤”,并沒有提供他們希望的驚人見解。
所以這個問題的簡單答案是肯定的 - 你確實需要數據治理數據湖,以防止它們成為用戶不使用的數據沼澤,因為他們不知道那里有什么數據,他們找不到它,或者他們只是不相信它。如果您的數據庫上有數據治理,那么您和您的用戶可以確信它包含可以找到并正確使用的干凈數據。
但我不指望你只是接受我的話;?讓我們看一下為什么要對數據庫中的數據實施數據治理的一些原因:
數據所有者應該批準他們擁有的數據是否適合加載到Data Lake,例如它是否是敏感數據,如果在加載之前是匿名的?
此外,數據湖的用戶如果對數據有任何疑問及其可以或不可以使用的內容,則需要知道聯系人。
雖然數據定義在所有情況下都是可取的,但對數據湖來說它們更為必要。在沒有定義的情況下,更多結構化數據庫中的數據用戶可以使用該數據的上下文來收集數據可能是什么的一些想法。由于數據湖本質上是非結構化的,因此沒有這樣的背景。
缺少數據定義意味著用戶可能無法找到或理解數據,或者使用錯誤的數據進行分析。因此,數據湖可以提供現成的數據來源,但缺乏對它的理解將意味著它無法快速,輕松地用于響應機會,并且數據湖的使用將局限于一個小的專家用戶數量。
數據質量標準使您能夠監控和報告數據湖中保存的數據的質量。雖然在分析大量數據時并不總是需要完美的數據,但用戶確實需要了解數據的質量。如果沒有標準(以及監控它們的能力),用戶將無法知道數據是否足以進行分析。
在數據湖內以自動方式完成的任何數據清理需要與數據所有者和數據使用者達成一致,以確保所有此類行為符合定義和標準,并且不會導致數據無法用于某些分析目的 - 例如,將缺席的出生日期默認到約定的日期可能會影響分析,這些分析涉及查看客戶的年齡。
雖然在某些情況下數據湖內的自動數據清理可能是適當的,但數據湖中所有已識別的數據質量問題都應通過現有流程進行管理,以確保數據所有者和數據同意最合適的解決方案。消費者。
記錄數據流總是有價值的,但為了滿足某些監管要求,(包括EU GDPR)組織需要證明他們知道數據的位置以及數據在整個公司中的流動方式。
關鍵數據治理可交付成果之一是數據沿襲圖。應將數據流中的關鍵或敏感數據記錄在數據流圖中。這將通過突出顯示數據的來源來增加對數據使用者的理解。此類文檔還有助于防止將來將重復數據加載到數據湖中。
我希望我已經說服你,如果你想要一個數據湖來支持你的業務決策,那么就需要數據治理。雖然它可能不需要像您為數據倉庫安裝的定義和文檔那樣精細,但需要確保您創建和維護數據湖而不是數據沼澤!
在沒有首先理解數據的情況下將數據提取到數據湖中,這只是經常發生的許多數據治理錯誤之一。您可以在此處下載我的免費報告,找出最常見的錯誤,更重要的是如何避免錯誤。