數據治理流程是從數據規劃、
數據采集、數據儲存管理到
數據應用整個流程的無序到有序的過程,也是標準化流程的構建過程。
根據每一個過程的特點,我們可以將數據治理流程總結為四個字,即“理”、“采”、“存”、“用”。

1.理:梳理業務流程,規劃數據資源
對于企業來說,每天的實時數據都會超過TB級別,需要采集用戶的哪些數據,這么多的數據放在哪里,如何放,以什么樣的方式放?
這些問題都是需要事先進行規劃的,需要有一套從無序變為有序的流程,這個過程需要跨部門的協作,包括了前端、后端、數據工程師、
數據分析師、項目經理等角色的參與。
2.采:ETL采集、去重、脫敏、轉換、關聯、去除異常值
前后端將采集到的數據給到數據部門,數據部門通過ETL工具將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
3.存:大數據高性能存儲及管理
這么多的業務數據存在哪里?這需要有一高性能的大
數據存儲系統,在這套系統里面將數據進行分門別類放到其對應的庫里面,為后續的管理及使用提供最大的便利。
4.用:即時查詢、報表監控、智能分析、模型預測
數據的最終目的就是輔助業務進行決策,前面的幾個流程都是為最終的查詢、分析、監控做鋪墊。
這個階段就是數據分析師的主場,分析師們運用這些標準化的數據可以進行即時的查詢、指標體系和報表體系的建立、業務問題的分析,甚至是模型的預測。
(部分內容來源網絡,如有侵權請聯系刪除)