- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-05-27來源:虛假的愛瀏覽數:656次
數據質檢監控中心,包含DQC和SLA兩套工具,其中DQC主要面向三類人群:負責監控數據質量數據產品、負責處理數據質量的數倉工程師、使用數據服務的數據分析師、業務產品經理;而SLA關注的是ETL產出時效治理,主要面向數倉工程師。而在需求場景上,DQC主要負責對數據資產質量和波動的監控,SLA主要負責對數據產出和任務調度結果和時長的監控。
美團資深產品,DataFun分享嘉賓,數據人聯盟創作者;
先后主導過業務型、工具型、治理型數據產品工作,8次馬拉松完賽經歷,喜歡《三體》,偶像章北海,立志成為一名受人尊敬的產品經理。
“數據人創作者聯盟”成員。
01
前言
上期我們介紹了數據資產治理類工具——數據資產中心的核心概念和工具設計,本期,我們來聊聊數據質量檢測和監控的核心工具——DQC和SLA。
02
基本概念
DQC,即Data Quality Control,數據質量檢測/數據質量控制,一般我們稱為數據質量監控。
SLA,即Service Level Agreement,也就是服務等級協議,指的是系統服務提供者(Provider)對客戶(Costomer)的一個服務承諾,我們通常稱為數據產出分級運維服務。
由定義可知,DQC關注數據口徑,負責數據準不準的監測,而SLA關注產出及時性和穩定性,這兩者有機結合,共同保障了數據質量。
03
問題分析
常見數據資產,如埋點、數據表、數據字段、數據指標,往往存在同字段不同表之間,相同維度下居然結果不一致,或者不同維度下比例失調不符合實際,此類常見問題,我們一把可以通過DQC設置表內字段監控,或者表間字段監控,或者指標波動監控來實時感知數據質量,及時發現并及時處理。
除了質量之外,一些核心報表資產,由于面向用戶的級別較高,業務關注度較廣,對產出的及時性要求較高,而如果這類報表上游較復雜,往往會出現上游一個任務節點重啟超時,甚至重啟失敗,造成整個下游任務掛起,最終報表產出嚴重超時,在業務側引發事故,此時,我們就需要第一時間感知到各個任務節點的產出結果、作業執行情況等數據,有問題第一時間報警處理,SLA便能解決這類問題。
當然,除了以上DQC和SLA主要面向的業務場景外,還有一類場景,舉個例子,我的前三期數據治理系列文章,分別從數據治理的策略,數據安全治理工具和數據資產治理工具入手,其實我們很容易發現,無論是數據安全治理,還是數據資產治理,我們的治理目標其實相對容易設定,整體都是圍繞著安全性、完整性、規范性、唯一性設計指標,比如數據資產安全等級一致率(即同一個數據字段,在上下游各數據表間的安全等級一致性的比率)、數據資產安全達標率、數據資產重復率、數據資產元信息完整率等等,但以上這些指標,常常都是各自團隊負責出報表或者出監控去處理,其實,如果我們從平臺化的思維去設計,本來數據治理中心就是一個整體,安全中心可以為其他中心提供權限服務,資產中心可以為其他中心提供資產托管和追查服務,同樣,DQC和SLA也能為其他中心提供指標監控、產出運維服務,所以,此時,DQC和SLA就不單單只是一個表級、字段級的質量監控工具了,我更愿意把他們稱為一個整體,即數據質檢中心,統一提供各類表、指標、字段的監控服務。
04
產品目標
綜上,數據質檢監控中心,包含DQC和SLA兩套工具,其中DQC主要面向三類人群:負責監控數據質量數據產品、負責處理數據質量的數倉工程師、使用數據服務的數據分析師、業務產品經理;而SLA關注的是ETL產出時效治理,主要面向數倉工程師。而在需求場景上,DQC主要負責對數據資產質量和波動的監控,SLA主要負責對數據產出和任務調度結果和時長的監控。進一步細分需求場景,其中主要面向一次性實時數據質量測評,希望獲得數據質量評分,或者進行數據質量抽檢,獲得質量報告需求的,我們通過質量檢測模塊來滿足;同理,面向具體數據資產,希望通過配置定時調度任務,監控每天數據或者業務波動,并根據報警等級跟進治理任務的,我們通過質量監控模塊來滿足:
質量檢測:面向數據資產評分、數據質量測評,能實時獲得質量評估報告的需求場景,主要功能包括檢測目標選定,檢測規則配置,質量評估報告生成等。
質量監控:面向具體數據資產,通過配置定時調度監控任務,分級報警處置,主要功能包括監控規則配置,分級預警配置,報警任務處置等。
05
產品架構
圖表1:質檢監控中心產品架構設計圖

06
產品設計
1. DQC
1.1 數據質檢
數據資產質量檢測一共分為三步,首先是按照數據資產類型,按照質檢監控中心統一規范,將數據接入質檢平臺,質檢平移臺支持對離線數倉和實時數倉提供資產規范性和安全性檢測;完成數據接入,接下來選擇需要檢測的目標項目,可以按照庫粒度,也可以按照項目組粒度,對選定目標范圍內的數據資產進行檢測評分,完成檢測后,如圖表2所示,給出檢測評分。
圖表2:數據資產測評示意圖

1.2 質量監控
① 監控配置
質檢監控中心支持對埋點、ETL離線表、指標和資源成本提供監控服務,如圖表3和圖表4所示,支持新建監控任務,查看檢測詳情,臨時開/關任務,關聯資產下游調度并執行分級阻斷等功能。
圖表3:ETL離線表資產監控任務列表

圖表4:ETL離線表資產監控任務配置

② 報警處置
質檢監控中心支持對監控閾值設置紅、黃、藍三級報警,如圖表5所示,其中針對紅色報警,需要專人專項跟進并反饋進度和處理結論。
圖表5:報警任務處置

2. SLA
① SLA列表
SLA負責對報表和數據表產出任務完成情況的監控報告,如圖表6和圖表7所示,SLA列表展示了監控任務的執行情況,提供SLA新建和配置,執行日志查詢以及下游ETL關聯的能力。
圖表6:SLA列表頁

圖表7:SLA詳情頁

07
下期預告
行文至此,我的數據治理工具建設系列文章就已經分享完了,回顧1-4期內容,我們分別以數據治理的完整性、規范性、唯一性、及時性、準確性和安全性這6性為目標,然后介紹資產中心、DQC、SLA和安全中心這四大治理工具,按理數據治理也就這些內容,沒有它途,但為什么我還想再開一期話題,這主要是我在參加各家單位組織的數據治理分享的時候發現,大家的治理方法、策略、手段和工具基本都是一致的,但卻很少有分享數據治理的落地核心問題,即組織問題,我每次參與這類分享的時候,我必問的一個問題,就是你們數據治理團隊,產研是如何組成的,分成幾個小組,各自什么定位和職責?我問這些問題,本質不是我想挖他們的組織架構,我其實是關心,數據治理在你們團隊內是如何定位和落地的,需求方是誰?供給方是誰?平臺方又是誰?誰為治理結果負責,又是誰來推動治理?因此,針對這幾個靈魂拷問,拋開各類工具和策略,我也簡單聊一聊我自己的一些感悟探索和認知迭代,我們下期見~