數據資產,通常是指數據的存儲和計算資源的管理情況,以及維護現有的數據資產,包括我們有什么數據、有什么指標、能做怎樣的事情,避免各團隊重復開發的事情出現。
數據的存儲和計算資源管理,往往是要與運維團隊配合,數據集群會給出一份賬單數據,研發團隊保障成本是可控的,如果預算超支較多,則需要進行治理。
關于
數據存儲治理,通常指對數據表進行下線、縮減生命周期等操作。在實際開發過程中,由于長時間的項目積累,我們往往會發現很多不再使用的表仍在在運行,或者是一些不怎么使用的數據,存儲的周期非常長,這都是要治理的重點對象。解決的方法也很簡單,一是開發前的需求與模型評審,一個是監控數據表或者
數據應用的訪問情況,對于低頻或者無訪問的數據,則確認必要性后,進行下線或者縮減生命周期的操作。
關于數據計算治理,則把重心集中在慢SQL的治理上,檢查那些消耗資源多、或運行時間長的任務,如果存在數據傾斜則進行優化,如果數據量確實大則考慮極限存儲或者進行裁剪,當然最基礎的,如對表的暴力掃描這種不合理的臨時任務,也是需要及時發現和關閉的。
最后,我們需要整理數據的文檔,有能力的團隊可以把文檔開發成一個錄入和查詢的平臺工具。這個文檔或者工具,要解決諸如我們有什么數據、有什么指標、能做怎樣的事情的問題。
文檔要有如下的幾個基本要素:
其一,要有源系統的模型設計,明確業務過程有哪些、業務發生時的數據流向、數據之間的ER關系等信息;
其二,要有指標字典,指標字典是非常重要的,一定要在需求溝通的過程中沉淀下來,當我們回頭去看的時候,大量的時間在溝通指標和維度的定義;
其三,要有開發和需求規范,很多時候我們處于效率的考量,會做很多“私下”的工作,但這些工作往往不在正式的列表中,因此流程上還是要規范一些,不要把有限時間放到無限的溝通中去。
(部分內容來源網絡,如有侵權請聯系刪除)