數(shù)據(jù)倉庫、大數(shù)據(jù)平臺的建設(shè)如雨后春筍,越來越多的企業(yè)認(rèn)識到了數(shù)據(jù)的重要性,數(shù)據(jù)是組織最具價值的資產(chǎn)之一。企業(yè)的
數(shù)據(jù)質(zhì)量與業(yè)務(wù)績效之間存在著直接聯(lián)系,高質(zhì)量數(shù)據(jù)能夠為企業(yè)提供潔凈、結(jié)構(gòu)清晰的數(shù)據(jù),是企業(yè)開發(fā)業(yè)務(wù)系統(tǒng)、提供數(shù)據(jù)服務(wù)、發(fā)揮數(shù)據(jù)價值的必要前提,也是企業(yè)數(shù)據(jù)資產(chǎn)管理的前提。但“臟亂差”數(shù)據(jù)質(zhì)量會嚴(yán)重影響業(yè)務(wù)決策,為業(yè)務(wù)的實施帶來風(fēng)險。據(jù)IBM統(tǒng)計:低劣的數(shù)據(jù)質(zhì)量嚴(yán)重降低了全球企業(yè)的年收入;數(shù)據(jù)分析員每天有30%的時間浪費在了辨別數(shù)據(jù)是否是“壞數(shù)據(jù)”上;錯誤或不完整數(shù)據(jù)導(dǎo)致BI和CRM系統(tǒng)不能正常發(fā)揮優(yōu)勢甚至失效。
一、何為數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量指數(shù)據(jù)滿足使用需要的合適程度,也就是反映數(shù)據(jù)的“適用性(fitness for use)”。數(shù)據(jù)質(zhì)量管理的目的是為企業(yè)提供潔凈、結(jié)構(gòu)清晰的數(shù)據(jù),通過一致性、完整性、及時性、合法性、準(zhǔn)確性等多類維度對數(shù)據(jù)進(jìn)行度量。是企業(yè)數(shù)據(jù)資產(chǎn)管理的前提,是企業(yè)提供數(shù)據(jù)服務(wù)、開發(fā)業(yè)務(wù)系統(tǒng)、發(fā)揮數(shù)據(jù)價值的必要前提。
二、數(shù)據(jù)質(zhì)量存在的問題
數(shù)據(jù)冗余
各個信息系統(tǒng)針對數(shù)據(jù)的編碼規(guī)則不一、校驗標(biāo)準(zhǔn)不一、標(biāo)準(zhǔn)規(guī)范不一且部分業(yè)務(wù)系統(tǒng)針對數(shù)據(jù)的驗證標(biāo)準(zhǔn)嚴(yán)重缺失,造成了企業(yè)頂層視角的數(shù)據(jù)出現(xiàn)“一碼多物”、“一物多碼”等現(xiàn)象。
數(shù)據(jù)不可控
缺少專門對海量數(shù)據(jù)管理進(jìn)行監(jiān)督和控制的組織。企業(yè)各單位和部門缺少一個組織從全局的視角對數(shù)據(jù)進(jìn)行管理,關(guān)注數(shù)據(jù)的角度不一樣會導(dǎo)致企業(yè)基礎(chǔ)數(shù)據(jù)質(zhì)量考核體系無法建立,無法保障一系列數(shù)據(jù)標(biāo)準(zhǔn)、規(guī)范、制度、流程得到長效執(zhí)行。同時,也無法建立統(tǒng)一的數(shù)據(jù)管理標(biāo)準(zhǔn)、流程等,相應(yīng)的數(shù)據(jù)管理制度、辦法等無法得到落實。
數(shù)據(jù)不合規(guī)
企業(yè)各信息系統(tǒng)的數(shù)據(jù)錄入環(huán)節(jié)過于簡單且手工參與較多,沒有統(tǒng)一的數(shù)據(jù)管理平臺和數(shù)據(jù)源頭,數(shù)據(jù)全生命周期管理不完整。缺少對數(shù)據(jù)是否重復(fù)、合法、對錯等校驗環(huán)節(jié),會導(dǎo)致各個信息系統(tǒng)的數(shù)據(jù)不夠準(zhǔn)確,格式混亂,各類數(shù)據(jù)難以集成和統(tǒng)一,沒有質(zhì)量控制導(dǎo)致海量數(shù)據(jù)因質(zhì)量過低而難以被利用,且沒有相應(yīng)的數(shù)據(jù)管理流程。
數(shù)據(jù)不完整
由于企業(yè)信息系統(tǒng)的孤立使用,沒有統(tǒng)一的錄入工具和數(shù)據(jù)出口,各個業(yè)務(wù)系統(tǒng)或模塊按照各自的需要錄入數(shù)據(jù),業(yè)務(wù)系統(tǒng)不需要的信息就不錄,造成同樣的數(shù)據(jù)在不同的系統(tǒng)有不同的屬性信息,數(shù)據(jù)完整性無法得到保障。
數(shù)據(jù)不一致
企業(yè)早期沒有進(jìn)行統(tǒng)一規(guī)劃設(shè)計,系統(tǒng)建設(shè)時間長短各異,大部分信息系統(tǒng)是逐步迭代建設(shè)的,各系統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)也不同。由于各系統(tǒng)的相互獨立使用,無法及時同步更新相關(guān)信息等各種原因造成各系統(tǒng)間的數(shù)據(jù)不一致,嚴(yán)重影響了各系統(tǒng)間的數(shù)據(jù)交互和統(tǒng)一識別。而且,企業(yè)業(yè)務(wù)系統(tǒng)更關(guān)注業(yè)務(wù)層面,各個業(yè)務(wù)系統(tǒng)均有不同的側(cè)重點,各類數(shù)據(jù)的屬性信息設(shè)置和要求不統(tǒng)一,基礎(chǔ)數(shù)據(jù)難以共享利用,數(shù)據(jù)的深層價值也難以體現(xiàn)。
三、對數(shù)據(jù)質(zhì)量管理工具的認(rèn)知
EsDataClean數(shù)據(jù)質(zhì)量管理平臺是
億信華辰自主研發(fā)的數(shù)據(jù)質(zhì)量管理平臺,提供從質(zhì)量監(jiān)控、標(biāo)準(zhǔn)定義、質(zhì)量分析、績效評估、重大問題及時告警、質(zhì)量報告、系統(tǒng)管理、流程整改發(fā)起等數(shù)據(jù)質(zhì)量管理全過程的功能。還提供了業(yè)界主流的質(zhì)量評估方法、質(zhì)量規(guī)則管理方法、跨數(shù)據(jù)源比對、零編碼質(zhì)檢規(guī)則、數(shù)據(jù)質(zhì)量整改、質(zhì)量分析報告、質(zhì)量績效評估等主要功能。以元數(shù)據(jù)為數(shù)據(jù)檢核對象,以數(shù)據(jù)標(biāo)準(zhǔn)為數(shù)據(jù)檢核依據(jù),通過可視化、向?qū)Щ群喴撞僮魇侄危瑢①|(zhì)量檢核、質(zhì)量評估、質(zhì)量報告與質(zhì)量整改等工作環(huán)節(jié)進(jìn)行流程整合,形成完整的數(shù)據(jù)質(zhì)量管理閉環(huán)。通過事先定義好的調(diào)度時間、規(guī)則、工作流程,自動完成數(shù)據(jù)的質(zhì)量檢查,極大的減少人力的投入和過程干預(yù),提升效率,減少誤差。同時對質(zhì)量檢查的結(jié)果提供多方式(界面、郵件、短信)告警,遇到重大問題能夠及時警告,讓用戶及時了解到系統(tǒng)檢查結(jié)果,避免重大問題的延誤。