隨著業(yè)務(wù)發(fā)展,公司對數(shù)據(jù)應(yīng)用使用場景越來越多,數(shù)據(jù)也會隨著業(yè)務(wù)快速增長,隨之而來,數(shù)據(jù)存儲,數(shù)據(jù)模型建設(shè),數(shù)據(jù)質(zhì)量,使用規(guī)范上都會出現(xiàn)一些問題。尤其是互聯(lián)網(wǎng)行業(yè),野蠻式增長背后都是煙囪式的數(shù)據(jù)建設(shè),數(shù)據(jù)冗余,數(shù)據(jù)孤島問題非常多。主要表現(xiàn)在以下幾個方面:
1)指標(biāo)口徑不一致;
2)數(shù)據(jù)命名不規(guī)范;
3)數(shù)據(jù)權(quán)限混亂;
4)數(shù)據(jù)冗余問題非常嚴(yán)重;
5)缺乏元數(shù)據(jù)管理機(jī)制,問題核查;
6)血緣關(guān)系查詢非常困難,低效。
一、數(shù)據(jù)治理及其意義
數(shù)據(jù)治理(Data Governance)是組織中涉及數(shù)據(jù)使用的一整套管理行為。由企業(yè)數(shù)據(jù)治理部門發(fā)起并推行,關(guān)于如何制定和實(shí)施針對整個企業(yè)內(nèi)部數(shù)據(jù)的商業(yè)應(yīng)用和技術(shù)管理的一系列政策和流程。數(shù)據(jù)治理核心是優(yōu)化現(xiàn)有數(shù)據(jù)查詢或計算體系,通過治理解決以下幾點(diǎn):
1)規(guī)范數(shù)據(jù)建設(shè),指標(biāo)建設(shè),保障數(shù)據(jù)建模統(tǒng)一性,統(tǒng)一標(biāo)準(zhǔn),數(shù)據(jù)一致性 ;
2)優(yōu)化數(shù)據(jù)管理方案,提升問題查找或解決問題效率;
3)降低使用數(shù)據(jù)成本,和提升數(shù)據(jù)查詢效率。
二、數(shù)據(jù)治理實(shí)施步驟
1、對企業(yè)數(shù)據(jù)進(jìn)行歸集和標(biāo)準(zhǔn)化。
數(shù)據(jù)的污染可能發(fā)生在數(shù)據(jù)產(chǎn)生、采集、傳輸、流轉(zhuǎn)、加工、存儲、提取、交換等各個環(huán)節(jié),因此要保證數(shù)據(jù)治理目標(biāo)的實(shí)現(xiàn),就必須對數(shù)據(jù)進(jìn)行全流程的管控,要在數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)、數(shù)據(jù)文件交換、主輔數(shù)據(jù)源、數(shù)據(jù)生命周期、數(shù)據(jù)責(zé)任、數(shù)據(jù)安全等方面形成統(tǒng)一的數(shù)據(jù)治理規(guī)范。
2、數(shù)據(jù)模型管理和標(biāo)簽梳理。
目前企業(yè)原始數(shù)據(jù)庫中存在大量的同名不同義、同義不同名,冗余字段、枚舉值不一致、字段和表沒有注釋,意思含糊不清等問題,會直接影響系統(tǒng)對數(shù)據(jù)的識別。數(shù)據(jù)建模讓數(shù)據(jù)結(jié)構(gòu)更加豐富和結(jié)構(gòu)清晰化,便于數(shù)據(jù)口徑統(tǒng)一。
除此之外,內(nèi)部統(tǒng)一標(biāo)簽也至關(guān)重要。數(shù)據(jù)標(biāo)簽是對數(shù)據(jù)實(shí)體特征的符號表示,每一個數(shù)據(jù)標(biāo)簽都是我們認(rèn)識、觀察和描述數(shù)據(jù)實(shí)體的一個角度。顧客標(biāo)簽包括年齡、性別、興趣愛好、地區(qū)、購買力、產(chǎn)品偏好、忠誠度等;商品標(biāo)簽包含了規(guī)格、條碼、圖片、口味、包裝等信息。
3、企業(yè)算法和人工智能應(yīng)用。
在對企業(yè)數(shù)據(jù)進(jìn)行歸集和標(biāo)準(zhǔn)化,并對數(shù)據(jù)模型進(jìn)行管控和標(biāo)簽梳理之后,就可以對數(shù)據(jù)進(jìn)行管理,并輔之以相應(yīng)算法和人工智能,在具體業(yè)務(wù)場景應(yīng)用。
以元數(shù)據(jù)管理為例:人工智能實(shí)現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)的采集和關(guān)鍵信息的提取,并實(shí)現(xiàn)元數(shù)據(jù)的維護(hù)和整理。
以
主數(shù)據(jù)管理為例:主數(shù)據(jù)是企業(yè)核心業(yè)務(wù)實(shí)體的數(shù)據(jù),是在整個價值鏈上被重復(fù)、共享應(yīng)用與多個業(yè)務(wù)流程的,并與各個業(yè)務(wù)部門與各個系統(tǒng)之間共享的基礎(chǔ)數(shù)據(jù)。在復(fù)雜數(shù)據(jù)主數(shù)據(jù)系統(tǒng)中,機(jī)器學(xué)習(xí),自然語言處理等人工智能技術(shù)可以幫助定義和維護(hù)數(shù)據(jù)匹配規(guī)則,以及確定與主數(shù)據(jù)相關(guān)的記錄,建立交叉引用等規(guī)則。
以數(shù)據(jù)模型管理為例:人工智能可以幫助企業(yè)實(shí)現(xiàn)經(jīng)驗(yàn)?zāi)P团c計算機(jī)模型的完美融合,構(gòu)建商品和會員的知識圖譜。