近年來,數(shù)據(jù)治理成為挖掘數(shù)據(jù)價(jià)值的重要手段和工具。隨著大數(shù)據(jù)平臺(tái)和工業(yè)互聯(lián)網(wǎng)興起,數(shù)據(jù)治理平臺(tái)主要采用數(shù)據(jù)中臺(tái)技術(shù)和微服務(wù)架構(gòu)初步替代傳統(tǒng)架構(gòu),面向大數(shù)據(jù)架構(gòu)下,為數(shù)據(jù)資源中心與外部數(shù)據(jù)系統(tǒng)提供數(shù)據(jù)服務(wù)。那么,數(shù)據(jù)治理到底能治什么,怎么治呢?
一、什么是數(shù)據(jù)治理?
數(shù)據(jù)治理是流程、角色、政策、標(biāo)準(zhǔn)和指標(biāo)的集合,可確保有效和高效地使用信息,使組織能夠?qū)崿F(xiàn)其目標(biāo)。它建立了流程和職責(zé),以確保整個(gè)企業(yè)或組織中使用的數(shù)據(jù)的質(zhì)量和安全性。數(shù)據(jù)治理定義了誰可以對什么數(shù)據(jù)、在什么情況下、使用什么方法采取什么行動(dòng)。
二、數(shù)據(jù)治理項(xiàng)目的范圍
1、數(shù)據(jù)安全
數(shù)據(jù)安全主要是對數(shù)據(jù)的安全脫敏管控和安全檢查,脫敏機(jī)制有兩種方案:
1)針對用戶進(jìn)行脫敏管理,數(shù)據(jù)倉庫的每一層都需要對敏感數(shù)據(jù)進(jìn)行脫敏處理,對于敏感數(shù)據(jù)申請權(quán)限的用戶可以查看敏感信息,沒有權(quán)限的用戶只能查看脫敏表。
2)在數(shù)據(jù)倉庫的接入和輸出進(jìn)行脫敏管控:數(shù)據(jù)接入識別敏感信息,通過脫敏工具進(jìn)行脫敏處理,產(chǎn)生脫敏表和敏感表兩張表(脫敏表與敏感表之間要有映射關(guān)系),敏感數(shù)據(jù)不對中間層開放,對于數(shù)倉中間層則只有脫敏表,開發(fā)和測試的時(shí)候也只能使用脫敏表,在數(shù)據(jù)輸出層,首先應(yīng)用層的開發(fā)先對敏感數(shù)據(jù)進(jìn)行申請,申請通過后得到敏感表的使用權(quán),開發(fā)通過映射關(guān)系將敏感表的脫敏數(shù)據(jù)進(jìn)行關(guān)聯(lián)處理。
2、元數(shù)據(jù)管理
元數(shù)據(jù)從數(shù)據(jù)的角度可以分為三類:業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。
1)業(yè)務(wù)元數(shù)據(jù)是從業(yè)務(wù)的視角去描述數(shù)據(jù),讓不懂?dāng)?shù)據(jù)的人可以快速讀懂?dāng)?shù)據(jù),例如:表名稱、表的血緣關(guān)系、表的字段說明、指標(biāo)的統(tǒng)計(jì)口徑等多種業(yè)務(wù)描述;
2)技術(shù)元數(shù)據(jù)自然就是從技術(shù)的角度去描述數(shù)據(jù),例如:表的sql、字段長度、字段類型等多種技術(shù)描述;
3)管理元數(shù)據(jù)是包含數(shù)據(jù)管理的信息在里面,例如:表的業(yè)務(wù)屬主、表的技術(shù)負(fù)責(zé)人。
元數(shù)據(jù)的管理通常包含:血緣分析、數(shù)據(jù)生命周期。
1)血緣分析:對元數(shù)據(jù)的上下游進(jìn)行分析,存在Hadoop平臺(tái)的血緣分析,可用通過腳本解析出到字段級的上下游關(guān)系;建表有主外鍵的,可通過主外鍵建立血緣關(guān)系。
2)數(shù)據(jù)生命周期:數(shù)據(jù)都存在生命周期,當(dāng)元數(shù)據(jù)訪問量變低,數(shù)據(jù)價(jià)值不存在的時(shí)候,可將它下線清除,釋放存儲(chǔ)空間。
3、數(shù)據(jù)價(jià)值
數(shù)據(jù)治理最重要的產(chǎn)出物,通過數(shù)據(jù)治理能為業(yè)務(wù)帶來的業(yè)務(wù)價(jià)值。對于不同看數(shù)據(jù)角色定義不同的價(jià)值,對于數(shù)據(jù)業(yè)務(wù)分析人員,通過數(shù)據(jù)標(biāo)準(zhǔn)化管理和平臺(tái)搭建,讓不懂?dāng)?shù)據(jù)的業(yè)務(wù)能夠快速掌握數(shù)據(jù),并可以自己進(jìn)行數(shù)據(jù)挖掘、數(shù)據(jù)分析等工作。
4、數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量的提升通常包含以下幾個(gè)方面:
1)數(shù)據(jù)質(zhì)量檢查,提供可配置化的檢查規(guī)則,通過腳本定時(shí)調(diào)度執(zhí)行;
2)數(shù)據(jù)質(zhì)量評估,提供數(shù)據(jù)質(zhì)量評估能力,如數(shù)據(jù)一致性、完整性、正確性、合規(guī)性、及時(shí)性等,對數(shù)據(jù)進(jìn)行全面檢查;
3)問題處理機(jī)制,對數(shù)據(jù)問題按照流程進(jìn)行處理,規(guī)范問題處理機(jī)制和步驟,強(qiáng)化問題認(rèn)證,提高數(shù)據(jù)質(zhì)量;
4)根據(jù)血緣關(guān)系和業(yè)務(wù)場景鎖定高價(jià)值數(shù)據(jù),進(jìn)行高安全級別管控,避免數(shù)據(jù)出錯(cuò);
5)數(shù)據(jù)質(zhì)量監(jiān)控,提供報(bào)警規(guī)則,根據(jù)配置檢查規(guī)則的閥值,對超出閥值的進(jìn)行不同程級的告警和通知。
6、組織建設(shè)
數(shù)據(jù)組織是保障數(shù)據(jù)治理能夠長期有效的重要手段之一,通常數(shù)據(jù)組織都是可以跨職責(zé)的,組織的職能和分類如下:
1)數(shù)據(jù)治理委員會(huì),在公司內(nèi)部擁有數(shù)據(jù)的最高決策權(quán),代表了企業(yè)的高層視角。
2)數(shù)據(jù)管理指導(dǎo)委員會(huì),為數(shù)據(jù)委員會(huì)提供支持,針對一些具體數(shù)據(jù)管理措施起草相關(guān)政策和標(biāo)準(zhǔn),提供委員會(huì)評審和批準(zhǔn)。
3)數(shù)據(jù)管理制度團(tuán)隊(duì),在某個(gè)業(yè)務(wù)領(lǐng)域內(nèi),協(xié)助完成數(shù)據(jù)制度管理的數(shù)據(jù)管理專員小組,數(shù)據(jù)管理制度團(tuán)隊(duì)來著不同的部門和跨業(yè)務(wù)領(lǐng)域的數(shù)據(jù)專家。
7、數(shù)據(jù)開發(fā)
對數(shù)據(jù)開發(fā)進(jìn)行標(biāo)準(zhǔn)的流程管理是數(shù)據(jù)治理核心的一部分,需要根據(jù)公司實(shí)際情況分析、制定可落地的數(shù)據(jù)開發(fā)管理規(guī)范。通常數(shù)據(jù)開發(fā)規(guī)范包含:數(shù)據(jù)建模、數(shù)據(jù)設(shè)計(jì)、數(shù)據(jù)項(xiàng)目部署和實(shí)施。
1)數(shù)據(jù)建模:定義和分析數(shù)據(jù)需求;設(shè)計(jì)滿足需求的數(shù)據(jù)結(jié)構(gòu)。
2)數(shù)據(jù)設(shè)計(jì):表的關(guān)聯(lián)影響分析,數(shù)據(jù)上游于哪些表,根據(jù)數(shù)據(jù)開發(fā)規(guī)范對表的命名和結(jié)構(gòu)進(jìn)行設(shè)計(jì)。數(shù)據(jù)項(xiàng)目部署和實(shí)施主要是發(fā)布管理,就不做解釋了。
三、數(shù)據(jù)治理的好處
有效的數(shù)據(jù)治理策略可為組織帶來許多好處,包括:
1、提高數(shù)據(jù)質(zhì)量
數(shù)據(jù)治理創(chuàng)建了一個(gè)確保數(shù)據(jù)準(zhǔn)確性、完整性和一致性的計(jì)劃。
2、對數(shù)據(jù)的共同理解
數(shù)據(jù)治理為數(shù)據(jù)提供了一致的視圖和通用術(shù)語,同時(shí)各個(gè)業(yè)務(wù)部門保留了適當(dāng)?shù)撵`活性。
3、每個(gè)客戶和其他業(yè)務(wù)實(shí)體的360 度視圖
數(shù)據(jù)治理建立了一個(gè)框架,以便組織可以就關(guān)鍵業(yè)務(wù)實(shí)體的“單一版本真相”達(dá)成一致,并在實(shí)體和業(yè)務(wù)活動(dòng)之間建立適當(dāng)?shù)囊恢滦约墑e。
4、數(shù)據(jù)地圖
數(shù)據(jù)治理提供了一種高級能力來了解與關(guān)鍵實(shí)體相關(guān)的所有數(shù)據(jù)的位置,數(shù)據(jù)治理使數(shù)據(jù)資產(chǎn)變得可用并且更容易與業(yè)務(wù)成果聯(lián)系起來。
5、改進(jìn)數(shù)據(jù)管理
數(shù)據(jù)治理將人的維度帶入高度自動(dòng)化、數(shù)據(jù)驅(qū)動(dòng)的世界。它建立了數(shù)據(jù)管理的行為準(zhǔn)則和最佳實(shí)踐,確保傳統(tǒng)數(shù)據(jù)和技術(shù)領(lǐng)域(包括法律、安全和合規(guī)等領(lǐng)域)以外的問題和需求得到一致解決。
6、一致的合規(guī)性
數(shù)據(jù)治理提供了一個(gè)平臺(tái)來滿足政府法規(guī)的要求,例如歐盟通用數(shù)據(jù)保護(hù)條例 (GDPR)、美國 HIPAA(健康保險(xiǎn)流通與責(zé)任法案)和行業(yè)要求,例如 PCI DSS(支付卡行業(yè)數(shù)據(jù)安全標(biāo)準(zhǔn))。
四、怎么做好數(shù)據(jù)治理
1、數(shù)據(jù)治理需要體系建設(shè)
為發(fā)揮數(shù)據(jù)價(jià)值需要滿足三個(gè)要素:合理的平臺(tái)架構(gòu)、完善的治理服務(wù)、體系化的運(yùn)營手段。
根據(jù)企業(yè)的規(guī)模、所屬行業(yè)、數(shù)據(jù)量等情況選擇合適的平臺(tái)架構(gòu);治理服務(wù)需要貫穿數(shù)據(jù)全生命周期,保證數(shù)據(jù)在采集、加工、共享、存儲(chǔ)、應(yīng)用整個(gè)過程中的完整性、準(zhǔn)確性、一致性和實(shí)效性;運(yùn)營手段則應(yīng)當(dāng)包括規(guī)范的優(yōu)化、組織的優(yōu)化、平臺(tái)的優(yōu)化以及流程的優(yōu)化等等方面。
2、數(shù)據(jù)治理需要夯實(shí)基礎(chǔ)
數(shù)據(jù)治理需要循序漸進(jìn),但在建設(shè)初期至少需要關(guān)注三個(gè)方面:數(shù)據(jù)規(guī)范、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全。規(guī)范化的模型管理是保障數(shù)據(jù)可以被治理的前提條件,高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)可用的前提條件,數(shù)據(jù)的安全管控是數(shù)據(jù)可以共享交換的前提條件。
3、數(shù)據(jù)治理需要IT賦能
數(shù)據(jù)治理不是一堆規(guī)范文檔的堆砌,而是需要將治理過程中所產(chǎn)生的的規(guī)范、流程、標(biāo)準(zhǔn)落地到IT平臺(tái)上,在數(shù)據(jù)生產(chǎn)過程中通過“以終為始”前向的方式進(jìn)行數(shù)據(jù)治理,避免事后稽核帶來各種被動(dòng)和運(yùn)維成本的增加。
4、數(shù)據(jù)治理需要聚焦數(shù)據(jù)
數(shù)據(jù)治理的本質(zhì)是管理數(shù)據(jù),因此需要加強(qiáng)元數(shù)據(jù)管理和
主數(shù)據(jù)管理,從源頭治理數(shù)據(jù),補(bǔ)齊數(shù)據(jù)的相關(guān)屬性和信息,比如:元數(shù)據(jù)、質(zhì)量、安全、業(yè)務(wù)邏輯、血緣等,通過元數(shù)據(jù)驅(qū)動(dòng)的方式管理數(shù)據(jù)生產(chǎn)、加工和使用。
5、數(shù)據(jù)治理需要建管一體化
數(shù)據(jù)模型血緣與任務(wù)調(diào)度的一致性是建管一體化的關(guān)鍵,有助于解決數(shù)據(jù)管理與數(shù)據(jù)生產(chǎn)口徑不一致的問題,避免出現(xiàn)兩張皮的低效管理模式。