- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-03-23來源:巴黎戀瀏覽數:867次
數據治理第3期 | 數據資產中心架構設計
一、前言在數據治理系列文章的第1期,我們聊了數據治理的基本概念、治理目標和治理策略(詳情見:https://mp.weixin.qq.com/s/199EEw_JX3i3e_yq_R8YPg),這一期,我們來聊聊數據治理最最核心的部分——數據資產治理,本文主要闡述數據資產治理的策略和工具建設思路。
二、基本概念廣義的數據資產涵蓋一切非結構化、半結構化和結構化數據,狹義的數據資產主要包括業務側的業務日志、流數據的topic、批數據的數據表、生產調度任務/作業,模型層的指標、維度和數據集,應用層的報表、API、應用/服務等,本文主要面向狹義的數據資產,其中又以大家接觸最多的數據表、數據指標、報表為主。
三、問題分析1)用戶A是數據開發工程師,對數據表結構和內容較為熟悉,日常工作內容主要是數據采集、數倉建模(ETL)和運維問題排查,主要需求查詢數據表上下游生產鏈路及生產調度作業的執行情況,同時也會隨機探查數據字段、枚舉值和定義函數等內容來輔助進行數據開發。
2)用戶B是業務側數據分析師,具備基本的數據挖掘分析能力,日常工作主要是面向業務一線產出數據分析報告、配置業務指標和報表,需要根據業務需求查詢的數據存儲在哪張數據表,以及知悉數據表內各字段的定義、枚舉值等,從而確定是否滿足查詢需求。
3)用戶C是數據管理人員,對數倉建模規范和數據口徑定義比較熟悉,日常工作主要是規范數據開發流程、降低數據資源存儲和開發成本,同時保障業務報表產出及時性和質量,希望資產中心能提供統一的口徑維護、資產監控評測等能力。
圖表1:資產中心典型代表用戶需求場景分析
|
用戶 |
用戶特點 |
痛點分析 |
用戶功能訴求 |
|
用戶A |
研發工程師 懂數據生產和建模過程 懂數據結構 知曉基本數據源存儲內容和規范 |
數倉建模需要頻繁對各業務數據源進行數據探查,需要精確找表,并知悉數據表字段定義和描述,知悉字段屬性和分區劃分等內容 運維問題排查需要知悉數據表血緣鏈路、關聯上下游任務/作業 |
通過搜索快速找表 字段探查 血緣探查 任務/作業探查 |
|
用戶B |
業務數據分析師 具備基本的SQL取數能力 具備基本指標、數據集和報表配置能力 |
日常工作業務多樣性場景復雜性較高,需要頻繁咨詢相關業務負責人,對齊口徑和注意事項 需要快速獲悉業務統計指標的來源和統計方法,從而快速完成SQL取數和報表配置工作 頻繁獲取各類數據,需要快速申請到權限 |
通過搜索/知識圖譜快速找人找數 字段業務定義、口徑描述完整清晰 字段探查 快速權限申請 |
|
用戶C |
數據管理人員,向上對接業務方,向下對接研發工程師 工作職責為推動資產規范性和質量治理 數據通用性知識較強,但不參與數據開發,也不參與業務 |
對接供方,需要提高數據規范生產積極性,及時發現并推動治理劣質數據 對接需方,需要提升數據豐富度,提升數據使用的積極性和滿意度 |
規范數據資產錄入和維護 數據資產質量監測 數據資產成本監測 數據資產安全治理 |
綜上,數據資產中心的核心用戶是各業務側的數據分析師、產品經理、數據運營等用戶,他們構成了數據資產中心的消費端,是數據資產得以流通并進而產生交換價值的關鍵,而資產中心供給端的用戶群體主要是數據開發者和數據管理者。
因此,面向消費端,資產中心主要解決找人找數和有好數的痛點,核心治理目標為保障數據資產元信息的完整性、規范性和一致性,面向供給端,資產中心主要解決生產開發提效、資源成本管控的痛點,治理目標為降本增效。
五、行業調研研究近年來主要數據論壇上各大廠數據資產中心的建設經驗,特選取滴滴和騰訊作為調研目標,詳情如下:
1. 滴滴數據夢工廠1)場景分析:如圖表2所示,滴滴主要數據資產分為人、路、車三類,主要呈現出數據量極大、結構化數據占比高、數據安全等級高等特點,主要需求為數據資產成本治理、數據安全治理和數據質量治理。
圖表2:滴滴數據資產特點

2)解決思路:
如圖表3所示,滴滴內部將數據服務化、指標管理平臺和資產管理平臺統一為數據內容建設領域,定位為向上服務各類數據應用平臺,向下對接數據開發平臺的中間公共數據層,以數據內容為抓手,資產管理平臺統一作為數據資產元信息采集和管理的工具,通過指標管理平臺規范資產口徑和質量,再通過數據服務化將數據資產服務到業務團隊。
圖表3:滴滴數據平臺業務架構

如圖表4所示,滴滴將數據資產平臺的使用對象設計為兩類,一類是數據的加工者,一類是數據的管理者,數加工者承擔各類資產的日常生產管控,數據管理者承擔各類資產的資源成本和安全管控工作。
圖表4:滴滴數據資產管理平臺使用對象設計

3)產品介紹:圖表5為滴滴資產管理平臺主要功能模塊的分享樣圖
圖表5:滴滴數據資產平臺主要模塊分享樣圖和功能描述
|
功能 |
分享樣圖 |
功能描述 |
|
業務圖譜 |
|
將業務數據進行結構化的拆分,以拓撲形式進行展示,方便用戶結構化的找到數據 |
|
數據檢索 |
|
提供數據表、特征、指標、維度、埋點等數據資產的智能檢索功能 |
|
數據血緣 |
|
提供各類數據資產血緣依賴查詢和展示功能 |
|
資源管理 |
|
提供各類數據資產存儲和計算成本通曬服務 |
1)場景分析:如圖表6和圖表7所示,騰訊游戲旗下包含上百款各類端游、頁游和手游,數據量極大,存在數據多樣缺乏統一標準、口徑定義不一致、鏈路質量不高無法快速定位問題、數據價值和成本難以評估等痛點。
圖表6:騰訊游戲大數據運營概況

圖表7:騰訊游戲數據資產問題痛點

2)解決思路:騰訊游戲對資產治理主要構建了兩大體系,分別是數據資產的元數據管理體系和數據資產價值的評估體系,其中元數據管理體系涉及元數據應用、元數據管理、元數據存儲和元數據采集等范疇,數據資產價值評估體系則主要從熱度、廣度和收益度三個視角進行評估,詳情如下:
圖表8:騰訊游戲資產管理平臺元數據管理體系架構設計

圖表9:數據資產價值評估體系架構設計

圖表10:數據資產熱度“冰-冷-溫-熱”評估模型

圖表11:數據資產廣度“微-小-中-大”評估模型

圖表12:數據資產收益度“差-中-良-優”評估模型

3)產品介紹:
圖表13:騰訊游戲數據資產管理平臺主要模塊分享樣圖和功能描述
|
功能 |
分享樣圖 |
功能描述 |
|
資產目錄 |
|
展示各類數據資產數量和占比 |
|
成本管控 |
|
展示數據資源存儲和計算的成本和趨勢 |
|
數據血緣 |
|
提供各類數據資產血緣依賴查詢和展示功能 |
|
安全管理 |
|
提供各類數據資產安全等級和監控報警數據 |
|
資產價值評估 |
|
提供各類數據資產價值評估模型分值和占比 |
分析滴滴和騰訊的分享內容,發現兩家頭部公司對數據資產治理都有一個相同點,即將各類數據資產治理通過平臺化的手段去落地實施,都關注到了資產的元數據規范性、安全性和成本,都提供了數據資產檢索和血緣鏈路檢索等服務。在側重點上,滴滴的資產管理工具更加豐富和成熟,考慮到了數據生產者和管理者的痛點,而騰訊的亮點在于對數據資產價值評估體系的獨特設計,以上經驗均值得我們借鑒和學習。
六、產品架構如圖表14所示,數據資產中心一共分為三層,分別是服務層、管理層和采集層,其中服務層面向數據分析師、數據產品、業務運營等數據消費端用戶,提供數據資產檢索相關服務能力;管理層主要面向數據資產管理者,主要代表為各業務線產品/技術團隊的數據產品經理、研發工程師和主要負責人,提供數據資產錄入和維護能力,提供資產成本治理服務;采集層主要面向各數據來源方,包括但不限于埋點元信息采集、業務數據庫元信息采集、報表/指標元信息采集、人員組織信息采集等等,同時,采集完的元信息,需要資產維護和管理者按照管理層提供的統一模型進行定義落庫。
圖表14:數據資產中心產品架構設計圖

產品定位:如圖表15,數據資產中心核心是各類數據資產元信息的中央數據庫,各類數據資產的元信息采集主要分為上游業務系統自動采集和資產中心前端頁面手工輸入兩部分,因此,數據接入模塊承擔了資產中心開源和標準定義的職能。
圖表15:數據資產中心元信息采集示意圖

規范定義:數據資產中心需要采集hive、kafkatopic、clickhouse、druid、報表、指標、API等等結構各異的資產元信息,針對各類異構數據進行統一定義并整合分析繪制出數據地圖是資產中心需要解決的主要問題,系統設計伊始便要考慮各類資產的復雜性和差異性以及未來的通用性,因此,如果不定義一套統一的元信息收錄采集標準,則隨著數據資產的收錄一定會出現資源管控成本和元信息質量降低等問題。在此,如圖表16和圖表17,我們抽象出一套可以通用化定義各類數據資產的元信息模型,以解決上述問題:
圖表16:數據資產中心元信息采集模型設計圖

圖表17:主要類目屬性定義舉例
|
序號 |
父級類目 |
子類目 |
屬性描述 |
|
1 |
全局公共屬性 |
無 |
唯一標識 資產描述 創建時間 變更時間 負責人 資產等級 |
|
2 |
HIVE |
HIVE數據庫 |
數據庫名:數據庫名稱 數據庫中文名稱:數據庫中文名稱 數倉分層:根據目前規范約定的記錄模型分層信息 數倉分層描述信息:用于前端頁面展示 |
|
3 |
HIVE數據表 |
數據表名:數據表名 數據表中文名:數據表中文名 數據表類型:事實表/維表 所屬庫:記錄數據表所屬數據庫 創建人:記錄數據表創建人 數據同步周期:記錄數據同步周期 數據主題:根據目前規范約定記錄數據主題信息 數據主題描述信息:用于前端頁面展示和搜索內容 業務線:根據目前規范約定記錄業務線信息 業務線描述信息:用于前端頁面展示和搜索內容 |
|
|
4 |
HIVE數據字段 |
字段名稱:字段名稱 所屬數據表:該字段屬于哪個數據表 數據類型:字段數據類型 是否為分區字段:是否是分區字段 字段枚舉值:枚舉字段的枚舉值 字段樣例:字段值抽樣 |
|
|
5 |
數據指標 |
原子指標 |
指標名:指標名稱 指標中文名:指標中文名稱 來源數據表:記錄指標所屬數據表 數據域:根據目前規范約定記錄數據域信息 業務過程:指標所屬業務過程 指標類型:原子指標/派生指標 指標單位:指標單位 指標計算周期:指標的計算周期 修飾詞:記錄指標所有修飾詞 指標算法:記錄指標計算SQL 可選維度:記錄指標所有可選維度 |
|
6 |
復合指標 |
父級指標 其他同上 |
資產檢索:如圖表18所示,支持普通搜索、高級搜索,同時向用戶推薦結構化整理的知識圖譜
圖表18:資產檢索首頁DEMO

資產詳情:資產詳情頁展示資產的基礎信息、業務信息和技術信息,同時提供權限申請、資產收藏、血緣鏈路查詢、快捷取數、SQL模板生成等能力
圖表19:資產詳情頁DEMO

如圖表20,數據資產中心提供了管理者視角的資產錄入和維護界面,支持以資產中心為統一維護平臺進行資產維護,保障資產元信息的及時更新
圖表20:資產元信息維護DEMO

質量分析:資產治理提供數據資產質量測評和分析報告,通過計算資產元信息完整度、規范性、重復性等來進行分析評估
圖表21:數據資產質量測評和分析報告DEMO

治理榜單:分為個人榜和團隊榜,綜合計算所負責資產的質量(完整性、規范性、唯一性等)分、成本分(存儲成本和增長趨勢等)、評價分(用戶評價、查詢熱度等)來進行排名,提供日排名、周排名和月排名,每個月重置一次數據。
圖表22:數據資產治理榜單DEMO

資產中心提供一站式資產交接處置能力,減少因離職造成的資產無人維護和安全隱患
圖表23:資產交接模塊DEMO

通過以上內容介紹,目前國內作者能接觸到的主流數據資產管理平臺的主要功能就都基本介紹完畢了,展望未來,我認為,資產中心基于它數據內容采集和管理的特點,其實是可以深入到數據應用和服務領域,通過先進的搜索和AI算法,快速提供輕量化的數據可視化、數據分析和歸因預測等服務,在滿足業務找人找數的需求上,直接反饋數據結論,簡化后續業務找到數據后再去分析數據的流程,提高數據分析效率。
參考國外已有產品,比如ThoughtSpot(一款基于搜索引擎的數據報表自動化生產的工具),如圖表24所示,以搜索為切入點,基于元數據之間的關聯和構建,快速推薦和繪制可視化圖表,提供輕量化配置能力,快速滿足用戶數據分析需求:
圖表24:智能搜索分析產品ThoughtSpot

又比如Einstein Discovery(見圖表25),基于用戶的數據自動關聯,并從中對數據內容進行分析和解讀,并將分析結果以自然語言的方式為用戶提供解讀報告,快速且輕量化地回答用戶:“發生了什么?為什么會發生?即將發生什么?需要怎么做?”:
圖表25:Einstein Discovery介紹

1. 滴滴、騰訊分享材料來源于“2019中國數據智能管理峰會”對外分享材料
2. 資產治理策略參考美團技術團隊公眾號發文:數據治理一體化實踐之體系化建模
3. 未來展望部分來源:
數據智能搜索推薦:https://www.thoughtspot.com/
愛因斯坦發現:《Salesforce Einstein Discovery White Paper》
后人的成功是站在前人的肩膀上實現的,以上資料在作者對數據資產治理思路領悟過程中提供了非常重要的參考素材,在此特別鳴謝以上公司/團隊/個人/組織方!
下一篇:數據安全與企業內控...