目錄
一、數(shù)據(jù)質(zhì)量問(wèn)題包括哪些
二、數(shù)據(jù)質(zhì)量問(wèn)題如何解決
三、睿治數(shù)據(jù)質(zhì)量管理平臺(tái)的作用
做過(guò)BI或數(shù)倉(cāng)項(xiàng)目的小伙伴肯定都知道,說(shuō)到數(shù)據(jù)質(zhì)量問(wèn)題,這是一個(gè)業(yè)務(wù)和技術(shù)經(jīng)常扯來(lái)扯去、互相推諉的問(wèn)題。在很多情況下,企業(yè)都會(huì)把數(shù)據(jù)質(zhì)量問(wèn)題推給技術(shù)部門,讓技術(shù)部門去查找和處理。但是企業(yè)的數(shù)據(jù)質(zhì)量問(wèn)題真的都是技術(shù)引起的嗎,技術(shù)部門人一定會(huì)說(shuō):“這個(gè)鍋我不背!”
一、數(shù)據(jù)質(zhì)量問(wèn)題包括哪些
接下來(lái)我們盤(pán)點(diǎn)下企業(yè)一般都會(huì)遇到哪些數(shù)據(jù)質(zhì)量問(wèn)題:
?
數(shù)據(jù)真實(shí)性:數(shù)據(jù)必須真實(shí)準(zhǔn)確的反映客觀的實(shí)體存在或真實(shí)的業(yè)務(wù),真實(shí)可靠的原始統(tǒng)計(jì)數(shù)據(jù)是企業(yè)統(tǒng)計(jì)工作的靈魂,是一切管理工作的基礎(chǔ),是經(jīng)營(yíng)者進(jìn)行正確經(jīng)營(yíng)決策必不可少的第一手資料。
數(shù)據(jù)準(zhǔn)確性:準(zhǔn)確性也叫可靠性,是用于分析和識(shí)別哪些是不準(zhǔn)確的或無(wú)效的數(shù)據(jù),不可靠的數(shù)據(jù)可能會(huì)導(dǎo)致嚴(yán)重的問(wèn)題,會(huì)造成有缺陷的方法和糟糕的決策。
數(shù)據(jù)唯一性:用于識(shí)別和度量重復(fù)數(shù)據(jù)、冗余數(shù)據(jù)。重復(fù)數(shù)據(jù)是導(dǎo)致業(yè)務(wù)無(wú)法協(xié)同、流程無(wú)法追溯的重要因素,也是數(shù)據(jù)治理需要解決的最基本的數(shù)據(jù)問(wèn)題。
數(shù)據(jù)完整性:數(shù)據(jù)完整性問(wèn)題包括:模型設(shè)計(jì)不完整,例如:唯一性約束不完整、參照不完整;數(shù)據(jù)條目不完整,例如:數(shù)據(jù)記錄丟失或不可用;數(shù)據(jù)屬性不完整,例如:數(shù)據(jù)屬性空值。不完整的數(shù)據(jù)所能借鑒的價(jià)值就會(huì)大大降低,也是數(shù)據(jù)質(zhì)量問(wèn)題最為基礎(chǔ)和常見(jiàn)的一類問(wèn)題。
數(shù)據(jù)一致性:多源數(shù)據(jù)的數(shù)據(jù)模型不一致,例如:命名不一致、數(shù)據(jù)結(jié)構(gòu)不一致、約束規(guī)則不一致。數(shù)據(jù)實(shí)體不一致,例如:數(shù)據(jù)編碼不一致、命名及含義不一致、分類層次不一致、生命周期不一致……。相同的數(shù)據(jù)有多個(gè)副本的情況下的數(shù)據(jù)不一致、數(shù)據(jù)內(nèi)容沖突的問(wèn)題。
數(shù)據(jù)關(guān)聯(lián)性:數(shù)據(jù)關(guān)聯(lián)性問(wèn)題是指存在數(shù)據(jù)關(guān)聯(lián)的數(shù)據(jù)關(guān)系缺失或錯(cuò)誤,例如:函數(shù)關(guān)系、相關(guān)系數(shù)、主外鍵關(guān)系、索引關(guān)系等。存在數(shù)據(jù)關(guān)聯(lián)性問(wèn)題,會(huì)直接影響數(shù)據(jù)分析的結(jié)果,進(jìn)而影響管理決策。
數(shù)據(jù)及時(shí)性:數(shù)據(jù)的及時(shí)性(In-time)是指能否在需要的時(shí)候獲到數(shù)據(jù),數(shù)據(jù)的及時(shí)性與企業(yè)的數(shù)據(jù)處理速度及效率有直接的關(guān)系,是影響業(yè)務(wù)處理和管理效率的關(guān)鍵指標(biāo)。
?
二、數(shù)據(jù)質(zhì)量問(wèn)題如何解決
面對(duì)數(shù)據(jù)質(zhì)量問(wèn)題,有兩個(gè)基本原則,那就是“早發(fā)現(xiàn)、早恢復(fù)”,也就是早點(diǎn)發(fā)現(xiàn)數(shù)據(jù)的異常點(diǎn),同時(shí)盡快能夠恢復(fù)正常。下面有一些方法可以參考一下的:
錦囊1:添加稽核校驗(yàn)任務(wù)
這個(gè)很好理解了,就是通過(guò)預(yù)先設(shè)置好的一些規(guī)則來(lái)驗(yàn)證當(dāng)前調(diào)度任務(wù)執(zhí)行結(jié)果表的質(zhì)量,如果觸發(fā)規(guī)則就自動(dòng)發(fā)送預(yù)警給到相關(guān)的開(kāi)發(fā)人員。
這里,規(guī)則可以劃分重要等級(jí),不同登記的規(guī)則可以采取不同的預(yù)警方式和處理方式,比如重要規(guī)則的,就停止調(diào)度任務(wù)的執(zhí)行(那么后續(xù)鏈路的任務(wù)就會(huì)處理等待狀態(tài),等到上游任務(wù)結(jié)束才執(zhí)行),同時(shí)通知運(yùn)維人員對(duì)當(dāng)前任務(wù)進(jìn)行處理(建議通過(guò)電話通知)。如果是一些不那么重要的規(guī)則,就可以通過(guò)短信或者推送的方式告知。
錦囊2:建立全鏈路的監(jiān)控
中臺(tái)建設(shè)的目的就是抽象出可以公用的模型,這樣子往往會(huì)有一個(gè)比較現(xiàn)實(shí)的問(wèn)題,那就是數(shù)據(jù)加工的鏈路可能會(huì)很長(zhǎng),那么應(yīng)用層上的指標(biāo)出現(xiàn)問(wèn)題了,排查問(wèn)題也會(huì)比較困難了,所以我們需要對(duì)中臺(tái)的數(shù)據(jù)模型的數(shù)據(jù)質(zhì)量進(jìn)行質(zhì)量監(jiān)控,也就是對(duì)鏈路中的表增加了一些稽核校驗(yàn)規(guī)則,如果結(jié)果數(shù)據(jù)出現(xiàn)問(wèn)題,可以快速排查鏈路上的相關(guān)表的質(zhì)量報(bào)告,快速定位到問(wèn)題所在然后進(jìn)行修復(fù)。
錦囊3:智能預(yù)警功能
這個(gè)idea很棒!它其實(shí)就是通過(guò)分析過(guò)去任務(wù)運(yùn)行的時(shí)間以及任務(wù)需要輸出的時(shí)間節(jié)點(diǎn),然后根據(jù)當(dāng)前物理資源的情況,自動(dòng)判斷這個(gè)調(diào)度任務(wù)是否可以在規(guī)定的時(shí)間節(jié)點(diǎn)前完成計(jì)算,如果不行的話就發(fā)起預(yù)警,讓開(kāi)發(fā)人員暫停一些低級(jí)別的任務(wù)或者說(shuō)對(duì)時(shí)效性不高的任務(wù),釋放資源給重要任務(wù)使用。
錦囊4:規(guī)范化管理制度
我們上面講了這么多,其實(shí)都是建立在我們配置了完整的數(shù)據(jù)鏈路以及稽核規(guī)則之上的,萬(wàn)一一開(kāi)始我們就沒(méi)有配置這些東西呢?那么一切都是浮云了。
所以我們必須得設(shè)計(jì)一些規(guī)范化的管理制度,比如評(píng)審機(jī)制,從而確保依賴關(guān)系的完整配置,同時(shí)對(duì)稽核規(guī)則也要進(jìn)行評(píng)審,確保規(guī)則的完備性。
三、睿治數(shù)據(jù)質(zhì)量管理平臺(tái)的作用
正所謂,工欲善其事,必先利其器。億信華辰睿治數(shù)據(jù)治理平臺(tái)的數(shù)據(jù)質(zhì)量管理模塊以全面質(zhì)量管理PDCA循環(huán)管理方法為指導(dǎo),充分結(jié)合國(guó)內(nèi)數(shù)據(jù)質(zhì)量管理工作的特點(diǎn),運(yùn)用元數(shù)據(jù)管理、數(shù)據(jù)挖掘、數(shù)據(jù)分析、工作流、評(píng)分卡、可視化等技術(shù)最終幫助企業(yè)和政府建立數(shù)據(jù)質(zhì)量管理體系,全面提升數(shù)據(jù)的完整性、規(guī)范性、及時(shí)性、一致性、邏輯性等,降低數(shù)據(jù)管理成本,減少因數(shù)據(jù)不可靠導(dǎo)致的決策偏差和損失。
1、構(gòu)建數(shù)據(jù)質(zhì)量規(guī)則庫(kù)
定義數(shù)據(jù)驗(yàn)證方法,內(nèi)嵌空值檢查、值域檢查等13種檢查規(guī)則,基本覆蓋目前數(shù)據(jù)質(zhì)量相關(guān)問(wèn)題。
2、發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題
靈活定義多模型質(zhì)檢方案,多點(diǎn)監(jiān)測(cè)、多模型質(zhì)檢方案,高效調(diào)度,并發(fā)和串行處理相結(jié)合,性能高效,只需2分30秒,便可完成20條規(guī)則百萬(wàn)級(jí)數(shù)據(jù)的質(zhì)量檢查。
3、出具全面的“體檢報(bào)告”
內(nèi)置常規(guī)質(zhì)檢分析報(bào)告,實(shí)時(shí)可視化呈現(xiàn)質(zhì)檢結(jié)果,質(zhì)檢結(jié)果模型靈活擴(kuò)展,充分利用了BI工具的分析展現(xiàn)能力,提供圖文并茂的質(zhì)量檢查結(jié)果報(bào)告。
4、數(shù)據(jù)質(zhì)量全流程管理
提供從標(biāo)準(zhǔn)定義、質(zhì)量監(jiān)控、績(jī)效評(píng)估、質(zhì)量分析、質(zhì)量報(bào)告、重大問(wèn)題及時(shí)告警、流程整改發(fā)起、系統(tǒng)管理等數(shù)據(jù)質(zhì)量管理全過(guò)程的功能,不僅能發(fā)現(xiàn)問(wèn)題、還能將問(wèn)題分發(fā)給數(shù)據(jù)負(fù)責(zé)人、管理者,在線跟蹤問(wèn)題處理進(jìn)展。
數(shù)據(jù)質(zhì)量的全面評(píng)價(jià),是數(shù)據(jù)質(zhì)量治理的準(zhǔn)繩。在整個(gè)數(shù)據(jù)治理環(huán)節(jié),億信華辰睿治數(shù)據(jù)治理平臺(tái)從數(shù)據(jù)源頭控制數(shù)據(jù)質(zhì)量,貫徹始終,全面提升數(shù)據(jù)的完整性、規(guī)范性、及時(shí)性、一致性,減少因數(shù)據(jù)不可靠導(dǎo)致的決策偏差和損失。
了解更多數(shù)據(jù)質(zhì)量管理知識(shí):http://m.122re.com/products/esdataclean.html
?
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)