隨著大數(shù)據(jù)時代的帶來,數(shù)據(jù)的應(yīng)用也日趨繁茂,數(shù)據(jù)的重要性不言而喻,越來越多的應(yīng)用和服務(wù)都基于數(shù)據(jù)而建立。如何保障數(shù)據(jù)質(zhì)量,確保數(shù)據(jù)可用性是每一位數(shù)據(jù)人都不可忽略的重要環(huán)節(jié)。而且,數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析和數(shù)據(jù)挖掘結(jié)論有效性和準(zhǔn)確性的基礎(chǔ),也是這一切的數(shù)據(jù)驅(qū)動決策的前提。
一、數(shù)據(jù)治理四大關(guān)注點
1、準(zhǔn)確性
準(zhǔn)確性是指數(shù)據(jù)中記錄的信息和數(shù)據(jù)是否準(zhǔn)確,是否存在異常或者錯誤的信息。一般準(zhǔn)確性的監(jiān)控多集中在對業(yè)務(wù)結(jié)果數(shù)據(jù)的監(jiān)控,比如每日的活躍、收入等數(shù)據(jù)是否正常。
2、完整性
完整性是指數(shù)據(jù)的記錄和信息是否完整,是否存在缺失的情況。完整性是數(shù)據(jù)質(zhì)量最基礎(chǔ)的保障,數(shù)據(jù)的缺失主要包括記錄的缺失和記錄中某個字段信息的缺失,兩者都會造成統(tǒng)計結(jié)果不準(zhǔn)確。完整性的監(jiān)控,多出現(xiàn)在日志級別的監(jiān)控上,一般會在數(shù)據(jù)接入的時候來做數(shù)據(jù)完整性校驗。
3、及時性
企業(yè)要想體現(xiàn)數(shù)據(jù)的價值,就要保障數(shù)據(jù)能夠及時產(chǎn)出。及時性主要就是數(shù)據(jù)計算出來的速度是否夠快。在數(shù)據(jù)質(zhì)量監(jiān)控中可以體現(xiàn)在監(jiān)控結(jié)果數(shù)據(jù)是否在指定時間點前計算完成。
4、一致性
一致性是指同一指標(biāo)在不同地方的結(jié)果是否一致。數(shù)據(jù)不一致的情況,多出現(xiàn)在數(shù)據(jù)系統(tǒng)達到一定的復(fù)雜度后,同一指標(biāo)會在多處進行計算,由于計算口徑或者開發(fā)人員的不同,容易造成同一指標(biāo)出現(xiàn)的不同的結(jié)果。
二、從哪幾個方面進行數(shù)據(jù)質(zhì)量監(jiān)控
數(shù)據(jù)種類(Variety):數(shù)據(jù)類型的多樣性;
數(shù)據(jù)容量(Volume):數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價值的和潛在的信息;
數(shù)據(jù)可變性(Variability):妨礙了處理和有效地管理數(shù)據(jù)的過程;
數(shù)據(jù)速度(Velocity):指獲得數(shù)據(jù)的速度;
數(shù)據(jù)復(fù)雜性(Complexity):數(shù)據(jù)量巨大,來源多渠道;
數(shù)據(jù)真實性(Veracity):數(shù)據(jù)的質(zhì)量。
三、如何進行數(shù)據(jù)質(zhì)量監(jiān)控
數(shù)據(jù)質(zhì)量監(jiān)控就是對系統(tǒng)中的數(shù)據(jù)本身和數(shù)據(jù)工作流進行監(jiān)督管理。包括監(jiān)測數(shù)據(jù)工作環(huán)境的服務(wù)器軟硬件運行狀態(tài)、性能、磁盤空間、數(shù)據(jù)庫事務(wù)、鎖、緩沖、會話量、備份等等一系列指標(biāo),實施預(yù)警機制,并監(jiān)測一些異常情況的發(fā)生。除此之外,還需要對數(shù)據(jù)進行校驗:日常校驗、數(shù)據(jù)抽檢、全面校驗等。數(shù)據(jù)質(zhì)量監(jiān)控主要包括原始數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)中心質(zhì)量監(jiān)控、反饋數(shù)據(jù)質(zhì)量問題以及數(shù)據(jù)質(zhì)量考核。
原始數(shù)據(jù)質(zhì)量監(jiān)控:數(shù)據(jù)采集工作從數(shù)據(jù)源頭獲取最原始的數(shù)據(jù),在數(shù)據(jù)采集過程中將數(shù)據(jù)分為“好數(shù)據(jù)”“壞數(shù)據(jù)”,“好數(shù)據(jù)”入庫,“壞數(shù)據(jù)”則反饋給源頭修復(fù),因為數(shù)據(jù)來源部門最懂這些數(shù)據(jù),也最能在源頭上把數(shù)據(jù)問題徹底修復(fù)掉。
數(shù)據(jù)中心質(zhì)量監(jiān)控:經(jīng)過各種采集、清洗、加工過程,數(shù)據(jù)被存入數(shù)據(jù)倉庫中,這些數(shù)據(jù)也將被業(yè)務(wù)部門使用,所以,對于這些成果數(shù)據(jù)的質(zhì)量監(jiān)控和修復(fù)則猶為重要。對于這類數(shù)據(jù)問題,我們可以使用規(guī)范性檢查、空值檢查、邏輯檢查、值域檢查、一致性檢查等等檢測方法,復(fù)雜點的數(shù)據(jù)質(zhì)量問題可以使用數(shù)據(jù)佐證、多源比較、波動檢查、數(shù)據(jù)探索、離群檢查等等檢查方法。
反饋數(shù)據(jù)質(zhì)量問題:數(shù)據(jù)質(zhì)量監(jiān)控過程中,會發(fā)現(xiàn)兩類問題:一類是數(shù)據(jù)中心的數(shù)據(jù)質(zhì)量問題;另一類是源頭的數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)質(zhì)量團隊需要將這些問題及時反饋給源頭部門和數(shù)據(jù)倉庫建設(shè)團隊。
數(shù)據(jù)質(zhì)量考核:數(shù)據(jù)質(zhì)量的考核是為了能夠引起各個參與部門和參與團隊對數(shù)據(jù)質(zhì)量的重視,需要及時統(tǒng)計分析各種數(shù)據(jù)質(zhì)量問題,并制定出相應(yīng)的應(yīng)對措施。