一、什么是數(shù)據(jù)質(zhì)量管理?
數(shù)據(jù)質(zhì)量管理是指對數(shù)據(jù)從產(chǎn)生、獲取、存儲、共享、維護(hù)、應(yīng)用等各個階段可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識別、度量、監(jiān)控、預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平使數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。
數(shù)據(jù)質(zhì)量管理不單純是一個概念,也不單純是一項技術(shù)、也不單純是一個系統(tǒng),更不單純是一套管理流程,數(shù)據(jù)質(zhì)量管理是一個集方法論、技術(shù)、業(yè)務(wù)和管理為一體的解決方案。通過有效的數(shù)據(jù)質(zhì)量控制手段,進(jìn)行數(shù)據(jù)的管理和控制,消除數(shù)據(jù)質(zhì)量問題進(jìn)而提升企業(yè)數(shù)據(jù)變現(xiàn)的能力。在數(shù)據(jù)治理過程中,一切業(yè)務(wù)、技術(shù)和管理活動都圍繞這個目標(biāo)和開展。
二、什么是數(shù)據(jù)質(zhì)量管理系統(tǒng)
我們知道,數(shù)據(jù)是企業(yè)數(shù)據(jù)中心的重要資產(chǎn),獲取并維護(hù)高質(zhì)量的數(shù)據(jù),對業(yè)務(wù)及運營至關(guān)重要。而數(shù)據(jù)量越大,有價值的信息獲取的難度就越大。如果獲取不到有用的信息,就不能很好的進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析。
但是在這個過程中,有許多因素會導(dǎo)致這些數(shù)據(jù)資產(chǎn)貶值,比如數(shù)據(jù)的冗余和重復(fù)會導(dǎo)致信息的不可識別、不可信及精確度不夠等情況的發(fā)生。
而數(shù)據(jù)質(zhì)量管理系統(tǒng)就是對數(shù)據(jù)進(jìn)行處理后能夠提供高質(zhì)量的數(shù)據(jù),最終的目的是挖掘數(shù)據(jù)價值,推動業(yè)務(wù)發(fā)展,實現(xiàn)盈利。數(shù)據(jù)質(zhì)量管理系統(tǒng)主要由數(shù)據(jù)清洗與去重、數(shù)據(jù)可視化、數(shù)據(jù)評估、數(shù)據(jù)治理、數(shù)據(jù)挖掘以及數(shù)據(jù)分析組成。
三、數(shù)據(jù)質(zhì)量評估維度
1、唯一性
用于識別和度量重復(fù)數(shù)據(jù)、冗余數(shù)據(jù)。重復(fù)數(shù)據(jù)是導(dǎo)致業(yè)務(wù)無法協(xié)同、流程無法追溯的重要因素,也是數(shù)據(jù)治理需要解決的最基本的數(shù)據(jù)問題。
2、關(guān)聯(lián)性
數(shù)據(jù)關(guān)聯(lián)性問題是指存在數(shù)據(jù)關(guān)聯(lián)的數(shù)據(jù)關(guān)系缺失或錯誤,例如:函數(shù)關(guān)系、相關(guān)系數(shù)、主外鍵關(guān)系、索引關(guān)系等。存在數(shù)據(jù)關(guān)聯(lián)性問題,會直接影響數(shù)據(jù)分析的結(jié)果,進(jìn)而影響管理決策。
3、真實性
數(shù)據(jù)必須真實準(zhǔn)確的反映客觀的實體存在或真實的業(yè)務(wù),真實可靠的原始統(tǒng)計數(shù)據(jù)是企業(yè)統(tǒng)計工作的靈魂,是一切管理工作的基礎(chǔ),是經(jīng)營者進(jìn)行正確經(jīng)營決策必不可少的第一手資料。
4、準(zhǔn)確性
準(zhǔn)確性也叫可靠性,是用于分析和識別哪些是不準(zhǔn)確的或無效的數(shù)據(jù),不可靠的數(shù)據(jù)可能會導(dǎo)致嚴(yán)重的問題,會造成有缺陷的方法和糟糕的決策。
5、及時性
數(shù)據(jù)的及時性(In-time)是指能否在需要的時候獲到數(shù)據(jù),數(shù)據(jù)的及時性與企業(yè)的數(shù)據(jù)處理速度及效率有直接的關(guān)系,是影響業(yè)務(wù)處理和管理效率的關(guān)鍵指標(biāo)。
6、完整性
數(shù)據(jù)完整性問題包括:模型設(shè)計不完整,例如:唯一性約束不完整、參照不完整;數(shù)據(jù)條目不完整,例如:數(shù)據(jù)記錄丟失或不可用;數(shù)據(jù)屬性不完整,例如:數(shù)據(jù)屬性空值。不完整的數(shù)據(jù)所能借鑒的價值就會大大降低,也是數(shù)據(jù)質(zhì)量問題最為基礎(chǔ)和常見的一類問題。
7、一致性
多源數(shù)據(jù)的數(shù)據(jù)模型不一致,例如:命名不一致、數(shù)據(jù)結(jié)構(gòu)不一致、約束規(guī)則不一致。數(shù)據(jù)實體不一致,例如:數(shù)據(jù)編碼不一致、命名及含義不一致、分類層次不一致、生命周期不一致等。相同的數(shù)據(jù)有多個副本的情況下的數(shù)據(jù)不一致、數(shù)據(jù)內(nèi)容沖突的問題。
四、如何提升數(shù)據(jù)質(zhì)量
1、事前定義數(shù)據(jù)的監(jiān)控規(guī)則
梳理對應(yīng)指標(biāo)、確定對象(多表、單表、字段)、通過影響程度確定資產(chǎn)等級、質(zhì)量規(guī)則制定
2、事中監(jiān)控和控制數(shù)據(jù)生產(chǎn)過程
1)質(zhì)量監(jiān)控和工作流無縫對接;
2)支持定時調(diào)度;
3)強弱規(guī)則控制ETL流程;
4)對臟數(shù)據(jù)進(jìn)行清洗。
3、事后分析和問題跟蹤
1)郵件短信報警并及時跟蹤處理;
2)稽核報告查詢;
3)數(shù)據(jù)質(zhì)量報告的概覽、歷史趨勢、異常查詢、數(shù)據(jù)質(zhì)量表覆蓋率;
4)異常評估、嚴(yán)重程度、影響范圍、問題分類。