摘要:
數(shù)據(jù)質(zhì)量的好壞直接關(guān)系到信息準(zhǔn)確度和業(yè)務(wù)有效性。只有解決數(shù)據(jù)質(zhì)量問題并保證數(shù)據(jù)資產(chǎn)的科學(xué)性,才能有效反映企業(yè)運(yùn)營和市場事實(shí)。科學(xué)有效的數(shù)據(jù)能夠讓企業(yè)經(jīng)營決策可靠精確。大數(shù)據(jù)時(shí)代,數(shù)據(jù)將會呈爆炸式增長,海量的數(shù)據(jù)一方面為運(yùn)營商帶來大量信息資產(chǎn),另一方面無用數(shù)據(jù)、干擾數(shù)據(jù)也呈指數(shù)級增長。因此,圍繞企業(yè)大數(shù)據(jù)的生命周期管理,實(shí)現(xiàn)數(shù)據(jù)的全過程質(zhì)量監(jiān)控非常重要。
01
概述
大數(shù)據(jù)平臺可用性是一項(xiàng)重要的平臺運(yùn)行指標(biāo),一個(gè)優(yōu)秀的大數(shù)據(jù)平臺,首先能夠讓操作者快速發(fā)現(xiàn)和理解數(shù)據(jù),最終實(shí)現(xiàn)數(shù)據(jù)的高效應(yīng)用。因此在整個(gè)過程中,平臺中數(shù)據(jù)獲取后的質(zhì)量管控非常重要,只有對采集的數(shù)據(jù)進(jìn)行嚴(yán)格的分析治理和質(zhì)量管控,發(fā)現(xiàn)并完善數(shù)據(jù)的質(zhì)量問題,才能解決用戶對數(shù)據(jù)可用性的疑慮,保證后期業(yè)務(wù)的準(zhǔn)確性和有效性。
數(shù)據(jù)質(zhì)量管理主要依靠管理制度和事后稽核。在平臺建設(shè)過程中,設(shè)計(jì)者通過改變模型管理和數(shù)據(jù)開發(fā)的模式,將后向管理變更為前向管理,從數(shù)據(jù)源頭保障數(shù)據(jù)質(zhì)量,具體流程如圖1所示。

圖1 數(shù)據(jù)質(zhì)量稽核流程說明
數(shù)據(jù)質(zhì)量稽核從流程上可以分為以下3個(gè)層級。
a) 元數(shù)據(jù)管理:最基礎(chǔ)性的管理機(jī)制,可以識別、評價(jià)、追蹤資源,達(dá)到有效管理。
b) 數(shù)據(jù)的標(biāo)準(zhǔn)化管理:建立標(biāo)準(zhǔn)化體系,保證數(shù)據(jù)的統(tǒng)一運(yùn)營和維護(hù)。
c) 數(shù)據(jù)質(zhì)量稽核:實(shí)現(xiàn)數(shù)據(jù)的深度質(zhì)量檢查,打造優(yōu)質(zhì)數(shù)據(jù)資產(chǎn)。
02
元數(shù)據(jù)檢查
元數(shù)據(jù)管理應(yīng)具備對元數(shù)據(jù)本身質(zhì)量進(jìn)行檢查的功能,保證元數(shù)據(jù)自身的數(shù)據(jù)質(zhì)量。元數(shù)據(jù)質(zhì)量檢查包含但不限于以下內(nèi)容:元數(shù)據(jù)一致性、元數(shù)據(jù)關(guān)系的健全性、元數(shù)據(jù)屬性的填充率、元數(shù)據(jù)名稱重復(fù)性和元數(shù)據(jù)關(guān)鍵屬性值的唯一性。大數(shù)據(jù)平臺一般會提供專門的界面進(jìn)行元數(shù)據(jù)質(zhì)量管控和呈現(xiàn)檢查結(jié)果。
a) 平臺將提供在開發(fā)階段定義好對象的元數(shù)據(jù)質(zhì)量規(guī)則,并要求開發(fā)者在開發(fā)過程中按照規(guī)則錄入元數(shù)據(jù)信息,并由系統(tǒng)進(jìn)行統(tǒng)一檢查。
b) 平臺提供元數(shù)據(jù)質(zhì)量檢查機(jī)制,及時(shí)發(fā)現(xiàn)、報(bào)告和處理元數(shù)據(jù)的數(shù)據(jù)質(zhì)量問題。檢查包括自動檢查和人工檢查2種方式。
c) 平臺提供可視化元數(shù)據(jù)血緣分析圖,可進(jìn)行影響分析、血緣分析,同時(shí)可以在血緣分析圖中修改元數(shù)據(jù)信息,增加質(zhì)量規(guī)則。
d) 對于一些必須手工維護(hù)的元數(shù)據(jù)可通過開發(fā)維護(hù)人員進(jìn)行手工維護(hù)、審批、發(fā)布。同時(shí)檢查所提供的元數(shù)據(jù)與生產(chǎn)環(huán)境上元數(shù)據(jù)的一致性,形成元數(shù)據(jù)質(zhì)量報(bào)告,產(chǎn)生手工維護(hù)的任務(wù)單,以確保元數(shù)據(jù)質(zhì)量和可用性。
03
數(shù)據(jù)的標(biāo)準(zhǔn)化管理
數(shù)據(jù)標(biāo)準(zhǔn)是大數(shù)據(jù)平臺數(shù)據(jù)治理的基礎(chǔ)性工作,是數(shù)據(jù)治理建設(shè)中的首要環(huán)節(jié),為大數(shù)據(jù)平臺提供統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)定義和平臺邏輯模型,是大數(shù)據(jù)平臺進(jìn)行數(shù)據(jù)治理的依據(jù)和根本,同時(shí)也是衡量大數(shù)據(jù)平臺數(shù)據(jù)資產(chǎn)運(yùn)營和管理的評估依據(jù),最終能實(shí)現(xiàn)對大數(shù)據(jù)平臺全網(wǎng)數(shù)據(jù)的統(tǒng)一運(yùn)營管理。
平臺通過建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),結(jié)合制度約束、系統(tǒng)控制等手段,實(shí)現(xiàn)大數(shù)據(jù)平臺中數(shù)據(jù)的完整性、有效性、一致性、規(guī)范性、開放性和共享性管理,提高大數(shù)據(jù)平臺的數(shù)據(jù)治理水平。
數(shù)據(jù)資產(chǎn)標(biāo)準(zhǔn)化主要包括以下內(nèi)容。
a) 標(biāo)準(zhǔn)化的命名規(guī)則:數(shù)據(jù)的名稱、編碼、層級、層的屬性名稱等協(xié)調(diào)一致,統(tǒng)一管理,改變各源系統(tǒng)不規(guī)范的命名方式,避免同名不同意,同意不同名的現(xiàn)象。
b) 統(tǒng)一數(shù)據(jù)擴(kuò)展規(guī)則:對指標(biāo)代碼、元數(shù)據(jù)、子類等擴(kuò)展要素的擴(kuò)展規(guī)則進(jìn)行統(tǒng)一限定,保證后續(xù)數(shù)據(jù)的持續(xù)規(guī)范管理。
c) 標(biāo)準(zhǔn)化規(guī)范執(zhí)行:平臺通過對數(shù)據(jù)資產(chǎn)產(chǎn)生過程的監(jiān)控(包括命名規(guī)范、信息完整性、合理性、基礎(chǔ)信息完整性等以及存儲周期、數(shù)據(jù)安全敏感信息和加密信息、權(quán)限賦權(quán))以確保數(shù)據(jù)滿足整體規(guī)劃要求。
04
數(shù)據(jù)質(zhì)量稽核規(guī)則體系
數(shù)據(jù)質(zhì)量體系需要通過實(shí)踐和規(guī)劃的相互促進(jìn),不斷完善改進(jìn),為此,需要確保數(shù)據(jù)架構(gòu)合理,條理清晰,過程可控,知識積累傳承,并通過監(jiān)控和審計(jì)不斷促進(jìn)質(zhì)量水平的持續(xù)提升。
數(shù)據(jù)質(zhì)量管理是對采集入庫的數(shù)據(jù)進(jìn)行全面質(zhì)量管理。開發(fā)者制定相應(yīng)的技術(shù)手段和組織、流程、評價(jià)考核規(guī)則,通過平臺操作,及時(shí)發(fā)現(xiàn)并解決數(shù)據(jù)質(zhì)量問題,提升數(shù)據(jù)的完整性、及時(shí)性、準(zhǔn)確性及一致性,提升業(yè)務(wù)價(jià)值。
數(shù)據(jù)質(zhì)量規(guī)則配置如下:
a) 提供便捷的IDE界面,可通過圖形化或者標(biāo)準(zhǔn)SQL的方式,實(shí)現(xiàn)對于數(shù)據(jù)質(zhì)量規(guī)則的配置,允許對校驗(yàn)規(guī)則進(jìn)行維護(hù)、優(yōu)化等處理。
b) 根據(jù)預(yù)先定義的質(zhì)量規(guī)則,在應(yīng)用運(yùn)行時(shí)進(jìn)行自動化監(jiān)控。
c) 提供元數(shù)據(jù)質(zhì)量檢查機(jī)制,及時(shí)發(fā)現(xiàn)、報(bào)告和處理元數(shù)據(jù)的數(shù)據(jù)質(zhì)量問題。
d) 提供問題定位分析,對問題的節(jié)點(diǎn)進(jìn)行回溯,定位問題可能原因,分析其處理路徑上可能存在的問題;提供問題影響分析,能對問題的嚴(yán)重性、影響面做出判斷,并對重要問題提前進(jìn)行預(yù)警。
數(shù)據(jù)質(zhì)量監(jiān)控功能設(shè)計(jì)如下。
a) 提供數(shù)據(jù)映射分析,以拓?fù)鋱D的形式對各類數(shù)據(jù)實(shí)體、數(shù)據(jù)處理過程元數(shù)據(jù)進(jìn)行分層次的圖形化展現(xiàn),滿足開發(fā)、運(yùn)維或者業(yè)務(wù)上不同應(yīng)用場景的圖形查詢和輔助分析需要。
b) 根據(jù)預(yù)先定義的質(zhì)量規(guī)則,在應(yīng)用運(yùn)行時(shí)進(jìn)行自動化監(jiān)控。
c) 對數(shù)據(jù)采集層數(shù)據(jù)質(zhì)量進(jìn)行監(jiān)控,主要包括文件接口、數(shù)據(jù)庫接口、采集接口監(jiān)控。
d) 對數(shù)據(jù)處理過程進(jìn)行監(jiān)控,主要包括數(shù)據(jù)處理任務(wù)執(zhí)行的情況,包括是否按時(shí)調(diào)度,是否成功等狀態(tài)消息。
e)定期提供數(shù)據(jù)質(zhì)量監(jiān)控報(bào)告,根據(jù)系統(tǒng)健康狀態(tài)按模板生成文本、圖形等結(jié)果信息。
05
數(shù)據(jù)質(zhì)量稽核的整體過程
數(shù)據(jù)質(zhì)量體系需要通過實(shí)踐和規(guī)劃的相互促進(jìn),不斷完善改進(jìn),為此,需要確保數(shù)據(jù)架構(gòu)合理,條理清晰,過程可控,知識積累傳承,并通過監(jiān)控和審計(jì)不斷促進(jìn)質(zhì)量水平的持續(xù)提升。
設(shè)定稽核規(guī)則:通過不同的內(nèi)置規(guī)則,可以對數(shù)據(jù)進(jìn)行一定的計(jì)算處理,如空值、去重、最大、最小等,從而對數(shù)據(jù)有個(gè)直觀的認(rèn)識,發(fā)現(xiàn)數(shù)據(jù)缺陷,具體操作如圖2所示:

圖2 規(guī)則設(shè)置
創(chuàng)建稽核模型:通過流程化的操作,操作者首先確定數(shù)據(jù)來源,根據(jù)不同數(shù)據(jù)源和目標(biāo),進(jìn)行分區(qū)配置,從而建立對應(yīng)的數(shù)據(jù)稽核模型,具體如圖3和圖4所示。

圖3 模型設(shè)置

圖4 數(shù)據(jù)配置
稽核任務(wù)的創(chuàng)建:平臺在使用過程中,操作者首先選擇要進(jìn)行稽核的數(shù)據(jù)時(shí)間、范圍等要素,再加載對應(yīng)的數(shù)據(jù)稽核模型,從而完成任務(wù)創(chuàng)建,具體如圖5和圖6所示。

圖5 任務(wù)創(chuàng)建

圖 6 模型配置
5.1? 數(shù)據(jù)精度
數(shù)據(jù)精度決定后期業(yè)務(wù)分析的準(zhǔn)確性,在平臺使用分析中,操作者一般通過對比目標(biāo)值與來源的真實(shí)情況來進(jìn)行分析評估,流程如下:
a) 選擇用于比較的源數(shù)據(jù)和目標(biāo)數(shù)據(jù)的集合和字段。
b) 將目標(biāo)字段與源字段進(jìn)行關(guān)系映射。
d) 將源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集進(jìn)行分區(qū)配置。
e) 對分析模型進(jìn)行配置,包括名稱、參數(shù)、閾值等。
5.2? 數(shù)據(jù)剖析
數(shù)據(jù)剖析是檢查現(xiàn)有數(shù)據(jù)集中可用數(shù)據(jù),同時(shí)收集相關(guān)數(shù)據(jù)的統(tǒng)計(jì)信息的過程,主要包括以下內(nèi)容,具體如圖7和圖8所示。
a) 選擇需要進(jìn)行剖析的目標(biāo)數(shù)據(jù)集和字段。
b) 定義將應(yīng)用于所選字段的語法檢查邏輯。
c) 將目標(biāo)數(shù)據(jù)集進(jìn)行分區(qū)配置。
d) 對分析模型進(jìn)行配置,包括名稱、參數(shù)、閾值等。

圖7 數(shù)據(jù)結(jié)果剖析

圖8 數(shù)據(jù)結(jié)果詳情
5.3? 數(shù)據(jù)模型
在所有分析中,數(shù)據(jù)模型的建立是最重要的一環(huán),不同的數(shù)據(jù)模型可以分析不同的數(shù)據(jù)質(zhì)量。數(shù)據(jù)模型可以根據(jù)分析需求和數(shù)據(jù)類型,從5個(gè)維度進(jìn)行設(shè)計(jì),首先建立相應(yīng)的模型,其次定義模型詳細(xì)的源、目標(biāo)、以及映射關(guān)系等的屬性,最終在任務(wù)中可調(diào)用該模型進(jìn)行數(shù)據(jù)任務(wù)的設(shè)定。本文以平臺中的“數(shù)據(jù)準(zhǔn)確性校驗(yàn)?zāi)P?1”為例進(jìn)行說明。
5.3.1? 模型信息
模型信息是對模型的基本情況的展示,包括類型、源、源分區(qū)、源條件、目標(biāo)、目標(biāo)分區(qū)、目標(biāo)條件和責(zé)任人等信息,能夠清晰的呈現(xiàn)該模型的屬性,以方便使用,具體如圖9所示。

圖9模型信息說明
5.3.2? 模型精確度計(jì)算映射信息
source.id=target.id AND source.age=target.age AND source.desc=target.desc
該映射代表了源數(shù)據(jù)各字段均與目標(biāo)字段的一致性對比結(jié)果,其中source和target代表了不同的數(shù)據(jù)源,id、age、desc代表要對比的具體字段。
精度計(jì)算公式如下:

該公式分子代表了2個(gè)數(shù)據(jù)源(demo_tgt和demo_src)的匹配結(jié)果為一致的數(shù)量,分母代表了demo_tgt中的匹配的數(shù)據(jù)數(shù)量,demo_tgt和demo_src代表了2個(gè)對比數(shù)據(jù)源。該計(jì)算公式可以計(jì)算出稽查數(shù)據(jù)的準(zhǔn)確率,對應(yīng)代碼描述如下(只展示規(guī)則):


通過建立任務(wù)可以將模型應(yīng)用到不同數(shù)據(jù)的稽核中,給出數(shù)據(jù)準(zhǔn)確性的結(jié)果,圖10是針對10月28號到10月29號入庫的2批不同數(shù)據(jù)的稽核結(jié)果,橫坐標(biāo)是以小時(shí)為單位,可以看出不同時(shí)間對應(yīng)數(shù)據(jù)的稽核結(jié)果,以方便使用人員針對問題進(jìn)行后期處理。

圖10 準(zhǔn)確度檢驗(yàn)結(jié)果
從圖10可以看出隨著數(shù)據(jù)的不斷采集和入庫,數(shù)據(jù)稽核任務(wù)以小時(shí)為周期持續(xù)性進(jìn)行,圖10為2類數(shù)據(jù)準(zhǔn)確性校驗(yàn)?zāi)P偷奶幚斫Y(jié)果,因此,數(shù)據(jù)使用者可以實(shí)時(shí)查看數(shù)據(jù)準(zhǔn)確性,以方便及時(shí)發(fā)現(xiàn)處理數(shù)據(jù)問題。
5.4 數(shù)據(jù)質(zhì)量評分
評分是以分值來展示數(shù)據(jù)的質(zhì)量,從而形成直觀的數(shù)據(jù)質(zhì)量感受,評估一般包括以下3個(gè)層面:
a) 質(zhì)量評分=參與評分的各質(zhì)量維度評分總和/參與評估維度項(xiàng)。
b) 某個(gè)維度質(zhì)量評分=參與該維度評估的任務(wù)的評分總和/參與該維度評估的任務(wù)的總數(shù)。
c) 任務(wù)某個(gè)維度評分=該維度下參與評估各項(xiàng)規(guī)則得分之和。
五級維度數(shù)據(jù)質(zhì)量說明如下,具體規(guī)則和計(jì)算方法詳如表1所示。
a) 準(zhǔn)確性:度量數(shù)據(jù)是否與指定的目標(biāo)值匹配,如金額的校驗(yàn),校驗(yàn)成功的記錄與總記錄數(shù)的比值。
b) 完整性:度量數(shù)據(jù)是否缺失,包括記錄數(shù)缺失、字段缺失,屬性缺失。
c) 差異性:度量數(shù)據(jù)記錄是否重復(fù),屬性是否重復(fù);常見度量為hive表主鍵值是否重復(fù)。
d) 及時(shí)性:度量數(shù)據(jù)達(dá)到指定目標(biāo)的時(shí)效性。
e) 有效性:度量數(shù)據(jù)是否符合約定的類型、格式和數(shù)據(jù)范圍等規(guī)則。
表1 不同維度的計(jì)算方法

06
結(jié)束語
大數(shù)據(jù)是未來數(shù)字化的重要能力。數(shù)據(jù)質(zhì)量是保證業(yè)務(wù)順利執(zhí)行的重要要素,因此數(shù)據(jù)質(zhì)量稽核非常重要。數(shù)據(jù)稽核包括普通的數(shù)據(jù)完整度、完善性等核查,同時(shí)根據(jù)不同數(shù)據(jù)的來源及業(yè)務(wù)特點(diǎn),可以建立不同的特征模型進(jìn)行針對性的稽核,這樣可以保證數(shù)據(jù)業(yè)務(wù)特征的準(zhǔn)確性。因此未來數(shù)據(jù)稽核更關(guān)鍵的是針對性的稽核,尤其針對不同業(yè)務(wù)特點(diǎn)的定制化數(shù)據(jù)稽核是保證數(shù)據(jù)質(zhì)量的關(guān)鍵方法。
參考文獻(xiàn)
[1]胡尚華.稽查信息化的定位與策略思考[J].經(jīng)濟(jì)研究參考,2017(20)58-60+94.
[2]李紅霞.大數(shù)據(jù)環(huán)境下的海關(guān)稽查管理研究[A].中國會計(jì)學(xué)會高等工科院校分會:重慶工商大學(xué)會計(jì)學(xué)院,2017:6.
[3]解鐵錚.電信服務(wù)開通系統(tǒng)大數(shù)據(jù)分析子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D],中國科學(xué)院大學(xué),2017.
[4]徐啟建.基于Spark的交通監(jiān)控目標(biāo)大數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]北京郵電大學(xué),2018.
[5]趙笛.大數(shù)據(jù)與稅務(wù)稽查有效性整合研究[J],商業(yè)會計(jì),2018(21):99-100.
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)