- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-12-04來源:晚來天欲雪瀏覽數:586次
01、前言
這一期,我們來聊聊數據治理最最核心的部分——數據資產治理,本文主要闡述數據資產治理的策略和工具建設思路。
02、基本概念
廣義的數據資產涵蓋一切非結構化、半結構化和結構化數據,狹義的數據資產主要包括業務側的業務日志、流數據的topic、批數據的數據表、生產調度任務/作業,模型層的指標、維度和數據集,應用層的報表、API、應用/服務等,本文主要面向狹義的數據資產,其中又以大家接觸最多的數據表、數據指標、報表為主。
03、問題分析
1)用戶A是數據開發工程師,對數據表結構和內容較為熟悉,日常工作內容主要是數據采集、數倉建模(ETL)和運維問題排查,主要需求查詢數據表上下游生產鏈路及生產調度作業的執行情況,同時也會隨機探查數據字段、枚舉值和定義函數等內容來輔助進行數據開發。
2)用戶B是業務側數據分析師,具備基本的數據挖掘分析能力,日常工作主要是面向業務一線產出數據分析報告、配置業務指標和報表,需要根據業務需求查詢的數據存儲在哪張數據表,以及知悉數據表內各字段的定義、枚舉值等,從而確定是否滿足查詢需求。
3)用戶C是數據管理人員,對數倉建模規范和數據口徑定義比較熟悉,日常工作主要是規范數據開發流程、降低數據資源存儲和開發成本,同時保障業務報表產出及時性和質量,希望資產中心能提供統一的口徑維護、資產監控評測等能力。

圖表1:資產中心典型代表用戶需求場景分析
04、治理目標
綜上,數據資產中心的核心用戶是各業務側的數據分析師、產品經理、數據運營等用戶,他們構成了數據資產中心的消費端,是數據資產得以流通并進而產生交換價值的關鍵,而資產中心供給端的用戶群體主要是數據開發者和數據管理者。
因此,面向消費端,資產中心主要解決找人找數和有好數的痛點,核心治理目標為保障數據資產元信息的完整性、規范性和一致性,面向供給端,資產中心主要解決生產開發提效、資源成本管控的痛點,治理目標為降本增效。
05、行業調研
研究近年來主要數據論壇上各大廠數據資產中心的建設經驗,特選取滴滴和騰訊作為調研目標,詳情如下:
1. 滴滴數據夢工廠
1)場景分析:如圖表2所示,滴滴主要數據資產分為人、路、車三類,主要呈現出數據量極大、結構化數據占比高、數據安全等級高等特點,主要需求為數據資產成本治理、數據安全治理和數據質量治理。

圖表2:滴滴數據資產特點
2)解決思路:
如圖表3所示,滴滴內部將數據服務化、指標管理平臺和資產管理平臺統一為數據內容建設領域,定位為向上服務各類數據應用平臺,向下對接數據開發平臺的中間公共數據層,以數據內容為抓手,資產管理平臺統一作為數據資產元信息采集和管理的工具,通過指標管理平臺規范資產口徑和質量,再通過數據服務化將數據資產服務到業務團隊。

圖表3:滴滴數據平臺業務架構
如圖表4所示,滴滴將數據資產平臺的使用對象設計為兩類,一類是數據的加工者,一類是數據的管理者,數加工者承擔各類資產的日常生產管控,數據管理者承擔各類資產的資源成本和安全管控工作。

圖表4:滴滴數據資管理平臺使用對象設計
3)產品介紹:圖表5為滴滴資產管理平臺主要功能模塊的分享樣圖


2. 騰訊游戲數據資產管理平臺
1)場景分析:如圖表6和圖表7所示,騰訊游戲旗下包含上百款各類端游、頁游和手游,數據量極大,存在數據多樣缺乏統一標準、口徑定義不一致、鏈路質量不高無法快速定位問題、數據價值和成本難以評估等痛點。

圖表6:騰訊游戲大數據運營概況

圖表7:騰訊游戲數據資產問題痛點
2)解決思路:騰訊游戲對資產治理主要構建了兩大體系,分別是數據資產的元數據管理體系和數據資產價值的評估體系,其中元數據管理體系涉及元數據應用、元數據管理、元數據存儲和元數據采集等范疇,數據資產價值評估體系則主要從熱度、廣度和收益度三個視角進行評估,詳情如下:

圖表8:騰訊游戲資產管理平臺元數據管理體系架構設計

圖表9:數據資產價值評估體系架構設計

圖表10:數據資產熱度“冰-冷-溫-熱”評估模型

圖表11:數據資產廣度“微-小-中-大”評估模型

圖表12:數據資產收益度“差-中-良-優”評估模型
3)產品介紹:



圖表13:騰訊游戲數據資產管理平臺主要模塊分享樣圖和功能描述
3. 調研總結
分析滴滴和騰訊的分享內容,發現兩家頭部公司對數據資產治理都有一個相同點,即將各類數據資產治理通過平臺化的手段去落地實施,都關注到了資產的元數據規范性、安全性和成本,都提供了數據資產檢索和血緣鏈路檢索等服務。在側重點上,滴滴的資產管理工具更加豐富和成熟,考慮到了數據生產者和管理者的痛點,而騰訊的亮點在于對數據資產價值評估體系的獨特設計,以上經驗均值得我們借鑒和學習。
06、產品架構
如圖表14所示,數據資產中心一共分為三層,分別是服務層、管理層和采集層,其中服務層面向數據分析師、數據產品、業務運營等數據消費端用戶,提供數據資產檢索相關服務能力;管理層主要面向數據資產管理者,主要代表為各業務線產品/技術團隊的數據產品經理、研發工程師和主要負責人,提供數據資產錄入和維護能力,提供資產成本治理服務;采集層主要面向各數據來源方,包括但不限于埋點元信息采集、業務數據庫元信息采集、報表/指標元信息采集、人員組織信息采集等等,同時,采集完的元信息,需要資產維護和管理者按照管理層提供的統一模型進行定義落庫。

圖表14:數據資產中心產品架構設計圖
07、產品設計
1. 數據接入
產品定位:如圖表15,數據資產中心核心是各類數據資產元信息的中央數據庫,各類數據資產的元信息采集主要分為上游業務系統自動采集和資產中心前端頁面手工輸入兩部分,因此,數據接入模塊承擔了資產中心開源和標準定義的職能。

圖表15:數據資產中心元信息采集示意圖
規范定義:數據資產中心需要采集hive、kafkatopic、clickhouse、druid、報表、指標、API等等結構各異的資產元信息,針對各類異構數據進行統一定義并整合分析繪制出數據地圖是資產中心需要解決的主要問題,系統設計伊始便要考慮各類資產的復雜性和差異性以及未來的通用性,因此,如果不定義一套統一的元信息收錄采集標準,則隨著數據資產的收錄一定會出現資源管控成本和元信息質量降低等問題。在此,如圖表16和圖表17,我們抽象出一套可以通用化定義各類數據資產的元信息模型,以解決上述問題:

圖表16:數據資產中心元信息采集模型設計圖




圖表17:主要類目屬性定義舉例
2. 數據地圖
資產檢索:如圖表18所示,支持普通搜索、高級搜索,同時向用戶推薦結構化整理的知識圖譜

圖表18:資產檢索首頁DEMO
資產詳情:資產詳情頁展示資產的基礎信息、業務信息和技術信息,同時提供權限申請、資產收藏、血緣鏈路查詢、快捷取數、SQL模板生成等能力
圖表19:資產詳情頁DEMO

圖表19:資產詳情頁DEMO
3. 資產維護
如圖表20,數據資產中心提供了管理者視角的資產錄入和維護界面,支持以資產中心為統一維護平臺進行資產維護,保障資產元信息的及時更新
圖表20:資產元信息維護DEMO

圖表20:資產元信息維護DEMO
4. 資產治理
質量分析:資產治理提供數據資產質量測評和分析報告,通過計算資產元信息完整度、規范性、重復性等來進行分析評估

圖表21:數據資產質量測評和分析報告DEMO
治理榜單:分為個人榜和團隊榜,綜合計算所負責資產的質量(完整性、規范性、唯一性等)分、成本分(存儲成本和增長趨勢等)、評價分(用戶評價、查詢熱度等)來進行排名,提供日排名、周排名和月排名,每個月重置一次數據。

圖表22:數據資產治理榜單DEMO
5. 資產交接
資產中心提供一站式資產交接處置能力,減少因離職造成的資產無人維護和安全隱患

圖表23:資產交接模塊DEMO
08、未來展望
通過以上內容介紹,目前國內作者能接觸到的主流數據資產管理平臺的主要功能就都基本介紹完畢了,展望未來,我認為,資產中心基于它數據內容采集和管理的特點,其實是可以深入到數據應用和服務領域,通過先進的搜索和AI算法,快速提供輕量化的數據可視化、數據分析和歸因預測等服務,在滿足業務找人找數的需求上,直接反饋數據結論,簡化后續業務找到數據后再去分析數據的流程,提高數據分析效率。
參考國外已有產品,比如ThoughtSpot(一款基于搜索引擎的數據報表自動化生產的工具),如圖表24所示,以搜索為切入點,基于元數據之間的關聯和構建,快速推薦和繪制可視化圖表,提供輕量化配置能力,快速滿足用戶數據分析需求:

圖表24:智能搜索分析產品ThoughtSpot
又比如Einstein Discovery(見圖表25),基于用戶的數據自動關聯,并從中對數據內容進行分析和解讀,并將分析結果以自然語言的方式為用戶提供解讀報告,快速且輕量化地回答用戶:“發生了什么?為什么會發生?即將發生什么?需要怎么做?”:

圖表25:Einstein Discovery介紹