日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

大數(shù)據(jù)質(zhì)量稽核的監(jiān)控實(shí)施方法

時(shí)間:2022-03-12來源:Beginner瀏覽數(shù):1948

摘要:

數(shù)據(jù)質(zhì)量的好壞直接關(guān)系到信息準(zhǔn)確度和業(yè)務(wù)有效性。只有解決數(shù)據(jù)質(zhì)量問題并保證數(shù)據(jù)資產(chǎn)的科學(xué)性,才能有效反映企業(yè)運(yùn)營和市場事實(shí)。科學(xué)有效的數(shù)據(jù)能夠讓企業(yè)經(jīng)營決策可靠精確。大數(shù)據(jù)時(shí)代,數(shù)據(jù)將會呈爆炸式增長,海量的數(shù)據(jù)一方面為運(yùn)營商帶來大量信息資產(chǎn),另一方面無用數(shù)據(jù)、干擾數(shù)據(jù)也呈指數(shù)級增長。因此,圍繞企業(yè)大數(shù)據(jù)的生命周期管理,實(shí)現(xiàn)數(shù)據(jù)的全過程質(zhì)量監(jiān)控非常重要。

01

概述

大數(shù)據(jù)平臺可用性是一項(xiàng)重要的平臺運(yùn)行指標(biāo),一個(gè)優(yōu)秀的大數(shù)據(jù)平臺,首先能夠讓操作者快速發(fā)現(xiàn)和理解數(shù)據(jù),最終實(shí)現(xiàn)數(shù)據(jù)的高效應(yīng)用。因此在整個(gè)過程中,平臺中數(shù)據(jù)獲取后的質(zhì)量管控非常重要,只有對采集的數(shù)據(jù)進(jìn)行嚴(yán)格的分析治理和質(zhì)量管控,發(fā)現(xiàn)并完善數(shù)據(jù)的質(zhì)量問題,才能解決用戶對數(shù)據(jù)可用性的疑慮,保證后期業(yè)務(wù)的準(zhǔn)確性和有效性。

數(shù)據(jù)質(zhì)量管理主要依靠管理制度和事后稽核。在平臺建設(shè)過程中,設(shè)計(jì)者通過改變模型管理和數(shù)據(jù)開發(fā)的模式,將后向管理變更為前向管理,從數(shù)據(jù)源頭保障數(shù)據(jù)質(zhì)量,具體流程如圖1所示。

圖1 數(shù)據(jù)質(zhì)量稽核流程說明

數(shù)據(jù)質(zhì)量稽核從流程上可以分為以下3個(gè)層級。

a) 元數(shù)據(jù)管理:最基礎(chǔ)性的管理機(jī)制,可以識別、評價(jià)、追蹤資源,達(dá)到有效管理。

b) 數(shù)據(jù)的標(biāo)準(zhǔn)化管理:建立標(biāo)準(zhǔn)化體系,保證數(shù)據(jù)的統(tǒng)一運(yùn)營和維護(hù)。

c) 數(shù)據(jù)質(zhì)量稽核:實(shí)現(xiàn)數(shù)據(jù)的深度質(zhì)量檢查,打造優(yōu)質(zhì)數(shù)據(jù)資產(chǎn)。

02

元數(shù)據(jù)檢查

元數(shù)據(jù)管理應(yīng)具備對元數(shù)據(jù)本身質(zhì)量進(jìn)行檢查的功能,保證元數(shù)據(jù)自身的數(shù)據(jù)質(zhì)量。元數(shù)據(jù)質(zhì)量檢查包含但不限于以下內(nèi)容:元數(shù)據(jù)一致性、元數(shù)據(jù)關(guān)系的健全性、元數(shù)據(jù)屬性的填充率、元數(shù)據(jù)名稱重復(fù)性和元數(shù)據(jù)關(guān)鍵屬性值的唯一性。大數(shù)據(jù)平臺一般會提供專門的界面進(jìn)行元數(shù)據(jù)質(zhì)量管控和呈現(xiàn)檢查結(jié)果。

a) 平臺將提供在開發(fā)階段定義好對象的元數(shù)據(jù)質(zhì)量規(guī)則,并要求開發(fā)者在開發(fā)過程中按照規(guī)則錄入元數(shù)據(jù)信息,并由系統(tǒng)進(jìn)行統(tǒng)一檢查。

b) 平臺提供元數(shù)據(jù)質(zhì)量檢查機(jī)制,及時(shí)發(fā)現(xiàn)、報(bào)告和處理元數(shù)據(jù)的數(shù)據(jù)質(zhì)量問題。檢查包括自動檢查和人工檢查2種方式。

c) 平臺提供可視化元數(shù)據(jù)血緣分析圖,可進(jìn)行影響分析、血緣分析,同時(shí)可以在血緣分析圖中修改元數(shù)據(jù)信息,增加質(zhì)量規(guī)則。

d) 對于一些必須手工維護(hù)的元數(shù)據(jù)可通過開發(fā)維護(hù)人員進(jìn)行手工維護(hù)、審批、發(fā)布。同時(shí)檢查所提供的元數(shù)據(jù)與生產(chǎn)環(huán)境上元數(shù)據(jù)的一致性,形成元數(shù)據(jù)質(zhì)量報(bào)告,產(chǎn)生手工維護(hù)的任務(wù)單,以確保元數(shù)據(jù)質(zhì)量和可用性。

03

數(shù)據(jù)的標(biāo)準(zhǔn)化管理

數(shù)據(jù)標(biāo)準(zhǔn)是大數(shù)據(jù)平臺數(shù)據(jù)治理的基礎(chǔ)性工作,是數(shù)據(jù)治理建設(shè)中的首要環(huán)節(jié),為大數(shù)據(jù)平臺提供統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)定義和平臺邏輯模型,是大數(shù)據(jù)平臺進(jìn)行數(shù)據(jù)治理的依據(jù)和根本,同時(shí)也是衡量大數(shù)據(jù)平臺數(shù)據(jù)資產(chǎn)運(yùn)營和管理的評估依據(jù),最終能實(shí)現(xiàn)對大數(shù)據(jù)平臺全網(wǎng)數(shù)據(jù)的統(tǒng)一運(yùn)營管理。

平臺通過建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),結(jié)合制度約束、系統(tǒng)控制等手段,實(shí)現(xiàn)大數(shù)據(jù)平臺中數(shù)據(jù)的完整性、有效性、一致性、規(guī)范性、開放性和共享性管理,提高大數(shù)據(jù)平臺的數(shù)據(jù)治理水平。

數(shù)據(jù)資產(chǎn)標(biāo)準(zhǔn)化主要包括以下內(nèi)容。

a) 標(biāo)準(zhǔn)化的命名規(guī)則:數(shù)據(jù)的名稱、編碼、層級、層的屬性名稱等協(xié)調(diào)一致,統(tǒng)一管理,改變各源系統(tǒng)不規(guī)范的命名方式,避免同名不同意,同意不同名的現(xiàn)象。

b) 統(tǒng)一數(shù)據(jù)擴(kuò)展規(guī)則:對指標(biāo)代碼、元數(shù)據(jù)、子類等擴(kuò)展要素的擴(kuò)展規(guī)則進(jìn)行統(tǒng)一限定,保證后續(xù)數(shù)據(jù)的持續(xù)規(guī)范管理。

c) 標(biāo)準(zhǔn)化規(guī)范執(zhí)行:平臺通過對數(shù)據(jù)資產(chǎn)產(chǎn)生過程的監(jiān)控(包括命名規(guī)范、信息完整性、合理性、基礎(chǔ)信息完整性等以及存儲周期、數(shù)據(jù)安全敏感信息和加密信息、權(quán)限賦權(quán))以確保數(shù)據(jù)滿足整體規(guī)劃要求。

04

數(shù)據(jù)質(zhì)量稽核規(guī)則體系

數(shù)據(jù)質(zhì)量體系需要通過實(shí)踐和規(guī)劃的相互促進(jìn),不斷完善改進(jìn),為此,需要確保數(shù)據(jù)架構(gòu)合理,條理清晰,過程可控,知識積累傳承,并通過監(jiān)控和審計(jì)不斷促進(jìn)質(zhì)量水平的持續(xù)提升。

數(shù)據(jù)質(zhì)量管理是對采集入庫的數(shù)據(jù)進(jìn)行全面質(zhì)量管理。開發(fā)者制定相應(yīng)的技術(shù)手段和組織、流程、評價(jià)考核規(guī)則,通過平臺操作,及時(shí)發(fā)現(xiàn)并解決數(shù)據(jù)質(zhì)量問題,提升數(shù)據(jù)的完整性、及時(shí)性、準(zhǔn)確性及一致性,提升業(yè)務(wù)價(jià)值。

數(shù)據(jù)質(zhì)量規(guī)則配置如下:

a) 提供便捷的IDE界面,可通過圖形化或者標(biāo)準(zhǔn)SQL的方式,實(shí)現(xiàn)對于數(shù)據(jù)質(zhì)量規(guī)則的配置,允許對校驗(yàn)規(guī)則進(jìn)行維護(hù)、優(yōu)化等處理。

b) 根據(jù)預(yù)先定義的質(zhì)量規(guī)則,在應(yīng)用運(yùn)行時(shí)進(jìn)行自動化監(jiān)控。

c) 提供元數(shù)據(jù)質(zhì)量檢查機(jī)制,及時(shí)發(fā)現(xiàn)、報(bào)告和處理元數(shù)據(jù)的數(shù)據(jù)質(zhì)量問題。

d) 提供問題定位分析,對問題的節(jié)點(diǎn)進(jìn)行回溯,定位問題可能原因,分析其處理路徑上可能存在的問題;提供問題影響分析,能對問題的嚴(yán)重性、影響面做出判斷,并對重要問題提前進(jìn)行預(yù)警。

數(shù)據(jù)質(zhì)量監(jiān)控功能設(shè)計(jì)如下。

a) 提供數(shù)據(jù)映射分析,以拓?fù)鋱D的形式對各類數(shù)據(jù)實(shí)體、數(shù)據(jù)處理過程元數(shù)據(jù)進(jìn)行分層次的圖形化展現(xiàn),滿足開發(fā)、運(yùn)維或者業(yè)務(wù)上不同應(yīng)用場景的圖形查詢和輔助分析需要。

b) 根據(jù)預(yù)先定義的質(zhì)量規(guī)則,在應(yīng)用運(yùn)行時(shí)進(jìn)行自動化監(jiān)控。

c) 對數(shù)據(jù)采集層數(shù)據(jù)質(zhì)量進(jìn)行監(jiān)控,主要包括文件接口、數(shù)據(jù)庫接口、采集接口監(jiān)控。

d) 對數(shù)據(jù)處理過程進(jìn)行監(jiān)控,主要包括數(shù)據(jù)處理任務(wù)執(zhí)行的情況,包括是否按時(shí)調(diào)度,是否成功等狀態(tài)消息。

e)定期提供數(shù)據(jù)質(zhì)量監(jiān)控報(bào)告,根據(jù)系統(tǒng)健康狀態(tài)按模板生成文本、圖形等結(jié)果信息。

05

數(shù)據(jù)質(zhì)量稽核的整體過程

數(shù)據(jù)質(zhì)量體系需要通過實(shí)踐和規(guī)劃的相互促進(jìn),不斷完善改進(jìn),為此,需要確保數(shù)據(jù)架構(gòu)合理,條理清晰,過程可控,知識積累傳承,并通過監(jiān)控和審計(jì)不斷促進(jìn)質(zhì)量水平的持續(xù)提升。

設(shè)定稽核規(guī)則:通過不同的內(nèi)置規(guī)則,可以對數(shù)據(jù)進(jìn)行一定的計(jì)算處理,如空值、去重、最大、最小等,從而對數(shù)據(jù)有個(gè)直觀的認(rèn)識,發(fā)現(xiàn)數(shù)據(jù)缺陷,具體操作如圖2所示:

圖2 規(guī)則設(shè)置

創(chuàng)建稽核模型:通過流程化的操作,操作者首先確定數(shù)據(jù)來源,根據(jù)不同數(shù)據(jù)源和目標(biāo),進(jìn)行分區(qū)配置,從而建立對應(yīng)的數(shù)據(jù)稽核模型,具體如圖3和圖4所示。

圖3 模型設(shè)置

圖4 數(shù)據(jù)配置

稽核任務(wù)的創(chuàng)建:平臺在使用過程中,操作者首先選擇要進(jìn)行稽核的數(shù)據(jù)時(shí)間、范圍等要素,再加載對應(yīng)的數(shù)據(jù)稽核模型,從而完成任務(wù)創(chuàng)建,具體如圖5和圖6所示。

圖5 任務(wù)創(chuàng)建

圖 6 模型配置

5.1? 數(shù)據(jù)精度

數(shù)據(jù)精度決定后期業(yè)務(wù)分析的準(zhǔn)確性,在平臺使用分析中,操作者一般通過對比目標(biāo)值與來源的真實(shí)情況來進(jìn)行分析評估,流程如下:

a) 選擇用于比較的源數(shù)據(jù)和目標(biāo)數(shù)據(jù)的集合和字段。

b) 將目標(biāo)字段與源字段進(jìn)行關(guān)系映射。

d) 將源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集進(jìn)行分區(qū)配置。

e) 對分析模型進(jìn)行配置,包括名稱、參數(shù)、閾值等。

5.2? 數(shù)據(jù)剖析

數(shù)據(jù)剖析是檢查現(xiàn)有數(shù)據(jù)集中可用數(shù)據(jù),同時(shí)收集相關(guān)數(shù)據(jù)的統(tǒng)計(jì)信息的過程,主要包括以下內(nèi)容,具體如圖7和圖8所示。

a) 選擇需要進(jìn)行剖析的目標(biāo)數(shù)據(jù)集和字段。

b) 定義將應(yīng)用于所選字段的語法檢查邏輯。

c) 將目標(biāo)數(shù)據(jù)集進(jìn)行分區(qū)配置。

d) 對分析模型進(jìn)行配置,包括名稱、參數(shù)、閾值等。

圖7 數(shù)據(jù)結(jié)果剖析

圖8 數(shù)據(jù)結(jié)果詳情

5.3? 數(shù)據(jù)模型

在所有分析中,數(shù)據(jù)模型的建立是最重要的一環(huán),不同的數(shù)據(jù)模型可以分析不同的數(shù)據(jù)質(zhì)量。數(shù)據(jù)模型可以根據(jù)分析需求和數(shù)據(jù)類型,從5個(gè)維度進(jìn)行設(shè)計(jì),首先建立相應(yīng)的模型,其次定義模型詳細(xì)的源、目標(biāo)、以及映射關(guān)系等的屬性,最終在任務(wù)中可調(diào)用該模型進(jìn)行數(shù)據(jù)任務(wù)的設(shè)定。本文以平臺中的“數(shù)據(jù)準(zhǔn)確性校驗(yàn)?zāi)P?1”為例進(jìn)行說明。

5.3.1? 模型信息

模型信息是對模型的基本情況的展示,包括類型、源、源分區(qū)、源條件、目標(biāo)、目標(biāo)分區(qū)、目標(biāo)條件和責(zé)任人等信息,能夠清晰的呈現(xiàn)該模型的屬性,以方便使用,具體如圖9所示。

圖9模型信息說明

5.3.2? 模型精確度計(jì)算映射信息

source.id=target.id AND source.age=target.age AND source.desc=target.desc

該映射代表了源數(shù)據(jù)各字段均與目標(biāo)字段的一致性對比結(jié)果,其中source和target代表了不同的數(shù)據(jù)源,id、age、desc代表要對比的具體字段。

精度計(jì)算公式如下:

該公式分子代表了2個(gè)數(shù)據(jù)源(demo_tgt和demo_src)的匹配結(jié)果為一致的數(shù)量,分母代表了demo_tgt中的匹配的數(shù)據(jù)數(shù)量,demo_tgt和demo_src代表了2個(gè)對比數(shù)據(jù)源。該計(jì)算公式可以計(jì)算出稽查數(shù)據(jù)的準(zhǔn)確率,對應(yīng)代碼描述如下(只展示規(guī)則):

通過建立任務(wù)可以將模型應(yīng)用到不同數(shù)據(jù)的稽核中,給出數(shù)據(jù)準(zhǔn)確性的結(jié)果,圖10是針對10月28號到10月29號入庫的2批不同數(shù)據(jù)的稽核結(jié)果,橫坐標(biāo)是以小時(shí)為單位,可以看出不同時(shí)間對應(yīng)數(shù)據(jù)的稽核結(jié)果,以方便使用人員針對問題進(jìn)行后期處理。

圖10 準(zhǔn)確度檢驗(yàn)結(jié)果

從圖10可以看出隨著數(shù)據(jù)的不斷采集和入庫,數(shù)據(jù)稽核任務(wù)以小時(shí)為周期持續(xù)性進(jìn)行,圖10為2類數(shù)據(jù)準(zhǔn)確性校驗(yàn)?zāi)P偷奶幚斫Y(jié)果,因此,數(shù)據(jù)使用者可以實(shí)時(shí)查看數(shù)據(jù)準(zhǔn)確性,以方便及時(shí)發(fā)現(xiàn)處理數(shù)據(jù)問題。

5.4 數(shù)據(jù)質(zhì)量評分

評分是以分值來展示數(shù)據(jù)的質(zhì)量,從而形成直觀的數(shù)據(jù)質(zhì)量感受,評估一般包括以下3個(gè)層面:

a) 質(zhì)量評分=參與評分的各質(zhì)量維度評分總和/參與評估維度項(xiàng)。

b) 某個(gè)維度質(zhì)量評分=參與該維度評估的任務(wù)的評分總和/參與該維度評估的任務(wù)的總數(shù)。

c) 任務(wù)某個(gè)維度評分=該維度下參與評估各項(xiàng)規(guī)則得分之和。

五級維度數(shù)據(jù)質(zhì)量說明如下,具體規(guī)則和計(jì)算方法詳如表1所示。

a) 準(zhǔn)確性:度量數(shù)據(jù)是否與指定的目標(biāo)值匹配,如金額的校驗(yàn),校驗(yàn)成功的記錄與總記錄數(shù)的比值。

b) 完整性:度量數(shù)據(jù)是否缺失,包括記錄數(shù)缺失、字段缺失,屬性缺失。

c) 差異性:度量數(shù)據(jù)記錄是否重復(fù),屬性是否重復(fù);常見度量為hive表主鍵值是否重復(fù)。

d) 及時(shí)性:度量數(shù)據(jù)達(dá)到指定目標(biāo)的時(shí)效性。

e) 有效性:度量數(shù)據(jù)是否符合約定的類型、格式和數(shù)據(jù)范圍等規(guī)則。

表1 不同維度的計(jì)算方法

06

結(jié)束語

大數(shù)據(jù)是未來數(shù)字化的重要能力。數(shù)據(jù)質(zhì)量是保證業(yè)務(wù)順利執(zhí)行的重要要素,因此數(shù)據(jù)質(zhì)量稽核非常重要。數(shù)據(jù)稽核包括普通的數(shù)據(jù)完整度、完善性等核查,同時(shí)根據(jù)不同數(shù)據(jù)的來源及業(yè)務(wù)特點(diǎn),可以建立不同的特征模型進(jìn)行針對性的稽核,這樣可以保證數(shù)據(jù)業(yè)務(wù)特征的準(zhǔn)確性。因此未來數(shù)據(jù)稽核更關(guān)鍵的是針對性的稽核,尤其針對不同業(yè)務(wù)特點(diǎn)的定制化數(shù)據(jù)稽核是保證數(shù)據(jù)質(zhì)量的關(guān)鍵方法。

參考文獻(xiàn)

[1]胡尚華.稽查信息化的定位與策略思考[J].經(jīng)濟(jì)研究參考,2017(20)58-60+94.

[2]李紅霞.大數(shù)據(jù)環(huán)境下的海關(guān)稽查管理研究[A].中國會計(jì)學(xué)會高等工科院校分會:重慶工商大學(xué)會計(jì)學(xué)院,2017:6.

[3]解鐵錚.電信服務(wù)開通系統(tǒng)大數(shù)據(jù)分析子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D],中國科學(xué)院大學(xué),2017.

[4]徐啟建.基于Spark的交通監(jiān)控目標(biāo)大數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]北京郵電大學(xué),2018.

[5]趙笛.大數(shù)據(jù)與稅務(wù)稽查有效性整合研究[J],商業(yè)會計(jì),2018(21):99-100.


(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
  • 相關(guān)主題
  • 相關(guān)大數(shù)據(jù)問答
  • 相關(guān)大數(shù)據(jù)知識
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢