
1、影響分析
在開發中,我們經常會遇到以下問題:
如果我要改動某個表、ETL,會造成怎樣的影響?
如果沒有元數據,那我們可能需要遍歷所有的腳本、數據。才能得到想要的答案;而如果有成熟的
元數據管理,那我們就可以直接得到答案,節省大量時間。
2、血緣分析
血緣分析是一種技術手段,用于對數據處理過程的全面追蹤,從而找到某個數據對象為起點的所有相關元數據對象以及這些元數據對象之間的關系。元數據對象之間的關系特指表示這些元數據對象的數據流輸入輸出關系。
在
元數據管理系統成型后,我們便可以通過血緣分析來對
數據倉庫中的數據健康、數據分布、集中度、數據熱度等進行分析。
血緣分析是 data science 非常重要的應用,未來筆者會單獨展開介紹。
3、ETL 自動化管理
在數倉中,很大一部分 ETL 都是枯燥重復的步驟。
例如源系統-ODS 層的:表輸入——表輸出。
又比如 ODS-DW:SQL 輸入——
數據清洗——數據處理——表輸出。
以上的規則其實就屬于一部分元數據。
那理論上完全可以實現,寫好固定腳本,然后通過前端選擇——或 api 接口。
進而對重復的 ETL 實現自動化管理,降低 ETL 開發的時間成本。
4、
數據質量管理
數據清洗的邏輯,簡單的說可以分為不同的數據類型和指定的特殊處理列。
我們只需指定不同數據類型的默認清洗規則,和部分特殊列的特殊處理邏輯,即可實現智能快捷的數據清洗。
數據質量管理,屬于
數據治理 與 元數據管理 交集,更偏向數據治理方面。未來也會展開更詳細介紹。
5、數據安全管理
在阿里推崇的數據中臺中,一切數據接口指標,都會從數據倉庫中出口。因此理論上,我們只需在此處的元數據中對管理元數據的權限進行配置,即可實現全公司的數據安全管理。
(部分內容來源網絡,如有侵權請聯系刪除)