在
數(shù)據(jù)治理中,涉及到了前端業(yè)務(wù)系統(tǒng),后端業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)再到業(yè)務(wù)終端的
數(shù)據(jù)分析,從源頭到終端再回到源頭,形成的一個閉環(huán)負(fù)反饋系統(tǒng)。同樣地,在數(shù)據(jù)治理中,我們也需要一套標(biāo)準(zhǔn)化的規(guī)范來指導(dǎo)數(shù)據(jù)的采集、傳輸、儲存以及應(yīng)用。

數(shù)據(jù)治理包括數(shù)據(jù)規(guī)劃、
數(shù)據(jù)采集、數(shù)據(jù)儲存管理、
數(shù)據(jù)應(yīng)用四個方面。根據(jù)每一個方面的特點,我們可以將數(shù)據(jù)治理總結(jié)為四個字,即“理”、“采”、“存”、“用”。
01理:梳理業(yè)務(wù)流程,規(guī)劃數(shù)據(jù)資源
對于企業(yè)來說,每天的實時數(shù)據(jù)都會超過TB級別,需要采集用戶的哪些數(shù)據(jù),這么多的數(shù)據(jù)放在哪里,如何放,以什么樣的方式放?這些問題都是需要事先進(jìn)行規(guī)劃的,需要有一套從無序變?yōu)橛行虻牧鞒蹋@個過程需要跨部門的協(xié)作,包括了前端、后端、數(shù)據(jù)工程師、數(shù)據(jù)分析師、項目經(jīng)理等角色的參與。
02采:ETL采集、去重、脫敏、轉(zhuǎn)換、關(guān)聯(lián)、去除異常值
前后端將采集到的數(shù)據(jù)給到數(shù)據(jù)部門,數(shù)據(jù)部門通過ETL工具將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程,目的是將散落和零亂的數(shù)據(jù)集中存儲起來。
03存:大數(shù)據(jù)高性能存儲及管理
這么多的業(yè)務(wù)數(shù)據(jù)存在哪里?這需要有一高性能的大
數(shù)據(jù)存儲系統(tǒng),在這套系統(tǒng)里面將數(shù)據(jù)進(jìn)行分門別類放到其對應(yīng)的庫里面,為后續(xù)的管理及使用提供最大的便利。
04用:即時查詢、報表監(jiān)控、智能分析、模型預(yù)測
數(shù)據(jù)治理的最終目的就是輔助業(yè)務(wù)進(jìn)行決策,前面的三個方面都是為最終的查詢、分析、監(jiān)控做鋪墊。這個階段就是數(shù)據(jù)分析師的主場,分析師們運用這些標(biāo)準(zhǔn)化的數(shù)據(jù)可以進(jìn)行即時的查詢、指標(biāo)體系和報表體系的建立、業(yè)務(wù)問題的分析,甚至是模型的預(yù)測。
數(shù)據(jù)治理是指將零散的用戶數(shù)據(jù)通過采集、傳輸、儲存等一系列標(biāo)準(zhǔn)化的流程變成格式規(guī)范、結(jié)構(gòu)統(tǒng)一的數(shù)據(jù),并有嚴(yán)格和規(guī)范的綜合數(shù)據(jù)管控;對這些標(biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行進(jìn)一步加工分析成為具有指導(dǎo)意義的業(yè)務(wù)監(jiān)控報表、業(yè)務(wù)監(jiān)控模型以幫助業(yè)務(wù)進(jìn)行輔助決策。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)