數(shù)據(jù)分析、數(shù)據(jù)挖掘等各種
數(shù)據(jù)應(yīng)用都離不開數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量的重要性不用多表。今天來淺談如何通過
數(shù)據(jù)治理,來保證數(shù)據(jù)質(zhì)量。數(shù)據(jù)的生命周期往往會有以下4個過程:數(shù)據(jù)的產(chǎn)生、存儲、加工和應(yīng)用。 數(shù)據(jù)質(zhì)量在這四個環(huán)節(jié)均會產(chǎn)生,所以需要有不同的手段。
1、數(shù)據(jù)產(chǎn)生階段
這個階段是數(shù)據(jù)質(zhì)量問題的重災(zāi)區(qū),無論是手工錄入的數(shù)據(jù),還是生產(chǎn)系統(tǒng)產(chǎn)生的數(shù)據(jù),都會因為各種原因?qū)е聰?shù)據(jù)質(zhì)量問題,比如手抖輸錯、生產(chǎn)系統(tǒng)波動等。對于這個階段的問題,我們對應(yīng)的手段是:控制輸入
對于手動錄入的數(shù)據(jù),盡可能的使用非開放式的輸入手段,如下拉菜單、單復(fù)選框、時間控件、標(biāo)簽(支持自定義學(xué)習(xí)型)等,必須開放的輸入部分,進(jìn)行必要的及時校驗。另外在數(shù)據(jù)進(jìn)入系統(tǒng)前,可以設(shè)立監(jiān)控點,出現(xiàn)錯誤數(shù)據(jù)可以及時預(yù)警(郵件、信息手段進(jìn)行通知)。
2、
數(shù)據(jù)存儲階段
方法:數(shù)據(jù)統(tǒng)一及
數(shù)據(jù)清洗
在
數(shù)據(jù)倉庫或數(shù)據(jù)中心建立時,就按照
數(shù)據(jù)標(biāo)準(zhǔn)對關(guān)鍵字段進(jìn)行統(tǒng)一命名、格式、精度等,排除數(shù)據(jù)的歧義。
對于已經(jīng)存儲在數(shù)倉中的數(shù)據(jù),發(fā)現(xiàn)質(zhì)量問題,就得使用數(shù)據(jù)質(zhì)量管控工具了,這里推薦億信睿治
數(shù)據(jù)治理平臺中的數(shù)據(jù)質(zhì)量模塊,可以很方便的檢查出數(shù)據(jù)質(zhì)量問題,且內(nèi)置了豐富的清洗組件,不需要使用代碼就可以完成對于大多數(shù)數(shù)據(jù)質(zhì)量問題的便捷清洗。
3、數(shù)據(jù)加工階段的質(zhì)量管控手段
方法:數(shù)據(jù)質(zhì)量管理工具
這個階段的數(shù)據(jù)會經(jīng)歷很多過程,比如被引用,指標(biāo)計算,從ODS層到集市層等,通過人力來管理的話,人力成本太高了。在這里還是推薦睿治數(shù)據(jù)治理平臺的數(shù)據(jù)質(zhì)量模塊(沒辦法,的確好用),此軟件數(shù)據(jù)質(zhì)量功能模塊支持在數(shù)據(jù)流向的各個節(jié)點進(jìn)行數(shù)據(jù)質(zhì)量監(jiān)測,不僅可以進(jìn)行實時數(shù)據(jù)質(zhì)量的預(yù)警,還可以對已有數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量校驗,內(nèi)置了很多種數(shù)據(jù)質(zhì)量規(guī)則,沒有研發(fā)經(jīng)驗的也能用得飛起,對技術(shù)小白很友好。
4、數(shù)據(jù)應(yīng)用階段的質(zhì)量管理手段
數(shù)據(jù)使用階段還需要質(zhì)量管理?當(dāng)然!
無論是在數(shù)據(jù)分析還是數(shù)據(jù)挖掘之后,結(jié)果自然是要保存下來的,此時的數(shù)據(jù)仍然要按照標(biāo)準(zhǔn),進(jìn)行規(guī)范的管理,無論是存儲結(jié)果的表名,還是字段、格式等。此外,在數(shù)據(jù)分析、挖掘的時候,也會有新的數(shù)據(jù)產(chǎn)生,此時依然需要進(jìn)行標(biāo)準(zhǔn)化之后進(jìn)行統(tǒng)一管理。有新的數(shù)據(jù)質(zhì)量問題產(chǎn)生,仍然需要想應(yīng)的數(shù)據(jù)清洗工具進(jìn)行清洗后再保存。
寫在最后,數(shù)據(jù)質(zhì)量問題對于很多企業(yè)已經(jīng)是迫在眉睫需要解決的問題了,是時候開展數(shù)據(jù)治理了。話分兩頭講,對于已有數(shù)據(jù),通過數(shù)據(jù)質(zhì)量管理工具進(jìn)行校驗和清洗,另外建立數(shù)據(jù)質(zhì)量管控體系,通過PDCA閉環(huán)結(jié)構(gòu)不斷地提升數(shù)據(jù)質(zhì)量;

另外對于系統(tǒng)原因造成的數(shù)據(jù)質(zhì)量問題,我們需要建立數(shù)據(jù)標(biāo)準(zhǔn)體系,對于可以改造的生產(chǎn)系統(tǒng),在數(shù)據(jù)標(biāo)準(zhǔn)的指導(dǎo)下進(jìn)行改造,對于不能改造的系統(tǒng),通過一些技術(shù)手段進(jìn)行清洗轉(zhuǎn)換,在數(shù)據(jù)產(chǎn)生的環(huán)節(jié)把控數(shù)據(jù)質(zhì)量,這樣效率必然是最高的。
數(shù)據(jù)質(zhì)量的提升并不是一蹴而就的,做一次數(shù)據(jù)整改就能解決所有數(shù)據(jù)質(zhì)量問題。而是需要通過數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量建立起完善的數(shù)據(jù)質(zhì)量管控體系,在各個環(huán)節(jié)進(jìn)行監(jiān)控,定期檢查數(shù)據(jù)質(zhì)量,確定解決方案,并加以改進(jìn)。數(shù)據(jù)質(zhì)量管理的平臺工具,筆者在這里推薦一下億信華辰的睿治數(shù)據(jù)治理平臺,該平臺內(nèi)置了13中數(shù)據(jù)質(zhì)量檢查規(guī)則,可根據(jù)實際需求建立完善的質(zhì)檢方案,精準(zhǔn)識別和定位數(shù)據(jù)質(zhì)量問題,并可直接關(guān)聯(lián)數(shù)據(jù)質(zhì)量整改工作流,幫助企業(yè)提升數(shù)據(jù)質(zhì)量。質(zhì)量乃數(shù)據(jù)之根本,沒有質(zhì)量,數(shù)據(jù)便不可信,在此之上的數(shù)據(jù)分析、數(shù)據(jù)挖掘更是一紙空談,甚至是大謬論。提升數(shù)據(jù)質(zhì)量,建立起可信的企業(yè)級大數(shù)據(jù)勢在必行。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)