一、數(shù)據(jù)治理的概念定義
數(shù)據(jù)治理,是企業(yè)數(shù)據(jù)治理部門發(fā)起并推行的,關(guān)于如何制定和實施針對整個企業(yè)內(nèi)部數(shù)據(jù)的商業(yè)應(yīng)用和技術(shù)管理的一系列政策和流程。數(shù)據(jù)治理是一套持續(xù)改善管理機制,通常包括了數(shù)據(jù)架構(gòu)組織、數(shù)據(jù)模型、政策及體系制定、技術(shù)工具、數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量、影響度分析、作業(yè)流程、監(jiān)督及考核等內(nèi)容。
二、數(shù)據(jù)治理的核心領(lǐng)域
1、元數(shù)據(jù)管理
元數(shù)據(jù)分為業(yè)務(wù)元數(shù)據(jù)、數(shù)據(jù)元數(shù)據(jù)和操作元數(shù)據(jù),三者之間緊密相連。業(yè)務(wù)元數(shù)據(jù)指導(dǎo)數(shù)據(jù)元數(shù)據(jù),數(shù)據(jù)元數(shù)據(jù)以業(yè)務(wù)元數(shù)據(jù)為參考進行設(shè)計,操作元數(shù)據(jù)為兩者的管理提供支撐。
1)業(yè)務(wù)元數(shù)據(jù):業(yè)務(wù)元數(shù)據(jù)是定義和業(yè)務(wù)相關(guān)數(shù)據(jù)的信息,用于輔助定位、理解和訪問業(yè)務(wù)信息。
2)數(shù)據(jù)元數(shù)據(jù):數(shù)據(jù)元數(shù)據(jù)結(jié)構(gòu)性數(shù)據(jù)元數(shù)據(jù)和關(guān)聯(lián)性數(shù)據(jù)元數(shù)據(jù)。
3)操作元數(shù)據(jù):操作元數(shù)據(jù)主要指與元數(shù)據(jù)管理相關(guān)的組織、崗位、職責、流程,以及系統(tǒng)日常運行產(chǎn)生的操作數(shù)據(jù)。
2、數(shù)據(jù)存儲
數(shù)據(jù)治理平臺的數(shù)據(jù)存儲主要包括:數(shù)據(jù)倉庫寬表/主題表層和數(shù)據(jù)應(yīng)用層,存儲方式包括:Hive、Kylin、ClickHouse、Druid、MySql。
3、數(shù)據(jù)模型模塊管理
模型模塊管理能夠還原業(yè)務(wù)落地后數(shù)據(jù)表的組織關(guān)系,包括:數(shù)據(jù)表的關(guān)聯(lián)方式(join、left outer join、semi join等)、數(shù)據(jù)表的關(guān)聯(lián)限制(where)、模型ER圖、模型包含字段、模型字段與維度的綁定關(guān)系、模型與指標的綁定關(guān)系。由于數(shù)據(jù)治理平臺主要是針對數(shù)據(jù)分析使用的,所以主要的模型包括維度模型中的星型模型和雪花型模型。
4、數(shù)據(jù)表模塊管理
數(shù)據(jù)表模塊管理涉及數(shù)據(jù)庫信息和數(shù)據(jù)表信息。其中數(shù)據(jù)庫信息包括數(shù)據(jù)庫鏈接信息,數(shù)據(jù)治理平臺可以自動獲取維護后的數(shù)據(jù)庫信息所對應(yīng)庫中的元數(shù)據(jù)信息。數(shù)據(jù)表信息包括:表的元數(shù)據(jù)信息(引擎、字段、描述等)、表類型(事實表、維度表)、表的使用情況(是否被模型引用)、表對應(yīng)的ETL、負責人、監(jiān)控報警配置、樣例數(shù)據(jù)等。上述信息為業(yè)務(wù)用戶提供指導(dǎo),為模型管理提供數(shù)據(jù)支持,也為數(shù)據(jù)表和數(shù)據(jù)的穩(wěn)定性提供監(jiān)控和預(yù)警。
5、生命周期管理
生命周期管理的根本目的就是用最少的存儲成本來滿足最大的業(yè)務(wù)需求,使數(shù)據(jù)價值最大化。
1)周期性刪除策略:所存儲的數(shù)據(jù)都有一定的有效期,從數(shù)據(jù)創(chuàng)建開始到過時,可以周期性刪除已過有效期的X天前的數(shù)據(jù)。如果某些歷史數(shù)據(jù)可能已經(jīng)沒有價值,且占用存儲成本,則可針對無效的歷史數(shù)據(jù)就可以進行定期清理。
2)測底刪除策略:無用表數(shù)據(jù)或者ETL過程產(chǎn)生的臨時數(shù)據(jù),以及不需要保留的數(shù)據(jù),可以進行及時刪除,包括刪除元數(shù)據(jù)。
3)永久保留數(shù)據(jù):重要且不可以恢復(fù)的底層數(shù)據(jù)和應(yīng)用數(shù)據(jù)需要永久保留,例如底層交易的增量數(shù)據(jù),出于存儲成本與數(shù)據(jù)價值相權(quán)衡的考慮,需要永久保留,以備用于歷史數(shù)據(jù)的恢復(fù)與核查。
4)冷數(shù)據(jù)管理策略:冷數(shù)據(jù)策略是永久保留策略的擴展。永久保留的數(shù)據(jù)需要遷移到冷數(shù)據(jù)中心永久保存。
6、指標模塊管理
指標模塊管理包括基礎(chǔ)信息、衍生信息和技術(shù)信息管理。衍生信息包括關(guān)聯(lián)指標、關(guān)聯(lián)應(yīng)用管理。基礎(chǔ)信息對應(yīng)的就是指標對應(yīng)的業(yè)務(wù)過程信息,由業(yè)務(wù)人員編寫,主要包括指標名稱、業(yè)務(wù)分類、統(tǒng)計頻率、精度、單位、指標定義、計算邏輯、分析方法、分析維度等;基礎(chǔ)信息中還有一個比較重要的部分是監(jiān)控配置,主要是配置指標的有效波動范圍區(qū)間、同環(huán)比波動區(qū)間等,監(jiān)控指標數(shù)據(jù)的正常運行。技術(shù)信息主要包括數(shù)據(jù)類型、指標代碼,其中核心部分是指標與模型的綁定關(guān)系,通過配置對應(yīng)的計算公式,或者還包括一些額外的高級配置,如二次計算、模型過濾條件等。
7、數(shù)據(jù)安全管理
數(shù)據(jù)安全管理是數(shù)據(jù)治理平臺的核心功能之一,分為平臺操作權(quán)限管理和接口調(diào)用權(quán)限管理。
三、數(shù)據(jù)治理平臺實踐
1、制定數(shù)據(jù)標準,優(yōu)化流程
對企業(yè)來說,數(shù)據(jù)有很多來源。金融、人力、供應(yīng)鏈、生產(chǎn)、銷售等內(nèi)部數(shù)據(jù);政策、經(jīng)濟、社會、科技、產(chǎn)業(yè)、市場、競爭者等外部數(shù)據(jù)。盡管數(shù)據(jù)來源廣泛,數(shù)據(jù)量大是其優(yōu)勢,但如果不加以整理,混亂的數(shù)據(jù)不但不利于分析應(yīng)用,而且會造成不必要的財產(chǎn)損失。所以企業(yè)應(yīng)建立統(tǒng)一的數(shù)據(jù)標準、數(shù)據(jù)管理流程和系統(tǒng),以規(guī)范數(shù)據(jù)生產(chǎn)與供應(yīng)過程。
2、搭建平臺
對于數(shù)據(jù)治理平臺的搭建,企業(yè)需要考慮用戶的不同需求,從而建立不同的模塊。數(shù)據(jù)治理平臺的內(nèi)容主要包括數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)標準管理、數(shù)據(jù)安全管理、數(shù)據(jù)模型工具、元數(shù)據(jù)管理、主數(shù)據(jù)管理等功能模塊。我們所說的數(shù)據(jù)治理項目不是為治理數(shù)據(jù)而構(gòu)建,而是與大數(shù)據(jù)平臺、數(shù)據(jù)倉庫、數(shù)據(jù)分析挖掘等項目相結(jié)合,通過提高數(shù)據(jù)質(zhì)量、控制數(shù)據(jù)安全性,使數(shù)據(jù)發(fā)揮最大效益。
3、優(yōu)化模型,確保數(shù)據(jù)安全
數(shù)據(jù)安全管理是從數(shù)據(jù)資產(chǎn)整理開始的。將數(shù)據(jù)資產(chǎn)進行整理分類,可以明確敏感數(shù)據(jù)在系統(tǒng)內(nèi)的分布情況,判斷敏感數(shù)據(jù)是如何被訪問的,以及確定當前賬號和授權(quán)的狀態(tài)。依據(jù)數(shù)據(jù)價值和數(shù)據(jù)特性,對企業(yè)的核心數(shù)據(jù)資產(chǎn)進行分類,利用數(shù)據(jù)治理工具將其模型化,確定敏感數(shù)據(jù)的位置、描述和處理方法,確保數(shù)據(jù)的合法合規(guī)地使用。