- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-11-08來源:強顏歡笑瀏覽數:665次
數據質量人人有責,這不僅僅只是一句口號,更是數據工作者的生命線。數據質量的好壞直接決定著數據價值高低。
數據質量管理是指在數據創建、加工、使用和遷移等過程中,通過開展數據質量定義、過程控制、監測、問題分析和整改、評估與考核等一系列管理活動,提高數據質量以滿足業務要求。
可按照“誰創建、誰負責;誰加工、誰負責;誰提供、誰負責”的原則界定數據質量管理責任,由數據流轉環節的各責任方對管轄范圍內的數據質量負責。對數據質量規則優先采取系統程序的自動化控制措施,并盡可能前移管控點,從源頭上控制數據質量。
在日常工作中,業務領導經常會通過報表看板等數據產品來了解各項業務的發展趨勢以及KPI的達成情況。倘若某天,他打開某張核心報表,發現當日的數據一直是空白的,詢問報表開發人員,開發經排查分析,發現是依賴的上游有延遲,上游數據預計要下午才能到達,導致業務領導在正常時點無法查看業務數據情況。
又或某天,業務人員點開報表發現當日AUM規模暴增,數據增長當然開心,但仔細推敲,發現這波動有點不合常理,于是通知數據負責人驗證下數據是否存在異常。經過幾個小時的排查分析,數據負責人報告說數據確實算的有些問題,業務業務以后對該報表數據的準確性將會打上問號。
若類似的數據問題經常出現,估計迎接你的不是美好明天,而是你的職業生涯的最后一天。
數據質量為什么至關重要?因為擁有高質量的數據可以讓您更好地了解任何情況,從而更精準地執行任何事情。反之亦然。
伴隨著技術的進步,組織或者企業能夠收集大量的數據,用好這些數據已成為焦點。然而,由于以下原因,很多組織或者企業并沒有實施數據質量計劃:
看起來,挑戰大于好處。
但是,數據質量務必重視,原因有三。
成本
數據質量差,是IT項目失敗的主要原因,也是客戶流逝背后的驅動因素之一。
合規
質量差的數據會帶來重大的法律或者聲譽風險。一些例子如下:
決策
質量好的數據意味著有準確及時的信息來管理從研發到銷售的產品和服務。質量差的數據導致錯誤的洞察力,從而做出錯誤的決策。決策的錯誤,公司會付出沉重的代價。
在企業,數據服務的方式有報表看板、標簽指標和數據接口等,而這些數據服務要想為業務帶來價值的,其首要前提就是要保證數據的準確性,輸出高質量的數據。
低質量的數據會誤導業務做出錯誤的決定,致使行動方向發生偏離。特別是在數據驅動的組織中,是否有準確的、可用的高質量的數據,將直接影響領導層能否做出正確的決策和戰略目標的實現。
因此需要特別重視數據的質量問題,針對數據質量進行專項治理。
在前面的場景案例中,我們可以發現有如下幾個數據質量問題:
發現滯后,數據開發晚于業務人員發現數據異常,導致影響已傳導到數據應用端。
那應該如何解決這些質量問題,保證數據的高質量交付呢?
首先,我們需要了解這些質量問題產生的根本原因,了解問題才能更好地去解決問題。通過對歷次數據質量問題進行復盤、總結,發現質量問題主要由下面幾類原因引發:
出現問題不可怕,可怕的是出現問題后,我們毫無感知,不能做到“早發現、早處理、早恢復”,以致問題直接傳導到業務方,影響業務的開展工作。
在大數據產品矩陣中,我們使用數據質量監控平臺來支持數據質量的監控、治理。
數據質量監控平臺,主要是對Hive數倉中的庫表數據的質量進行監控,包括表級別和字段級別的數據進行監控,以減少或避免由數據質量引起的事故和損失。
借助數據質量監控平臺,我們通過實施下面幾個關鍵步驟來進行數據質量的治理:
(1)配置監控規則
對高價值分的作業,我們要求強制配置基礎監控規則,如:主鍵唯一性校驗、數據非空校驗;另還可以根據業務場景需要,配置對應的業務規則監控,如:字段總值環比校驗、字段極值校驗等,監控平臺內置了約17種字段級校驗規則、5種表級校驗規則,供直接配置使用;
除內置了豐富的校驗規則,質量監控平臺還支持SQL自定義監控規則,極大地滿足各種數據監控場景。
(2)監控告警
當校驗規則識別異常時,需要通知負責人進行跟進處理,質量監控平臺支持以電話、郵件和短信等方式通知作業屬主。作業屬主收到告警后,需及時地處理和關閉告警,否則告警將一直掛在那,在后面的告警響應度中會被稽核到,上報其領導。
(3)全鏈路數據監控
根據作業的價值分級,針對高價值作業,開發人員可根據數據血緣,對上游作業依次配上監控,實現全鏈路的數據質量監控。
在執行了一系列的舉措來提高數據質量后,如何來驗證數據質量的治理效果呢?
根據企業本身的數據特點,設計并構建了一個數據質量七維評價模型,如下圖所示:
數據質量評價模型,分別從數據完整性、監控覆蓋率、告警響應度、作業準確性、作業穩定性、作業時效性、作業性能分等七個維度來考量平臺的數據質量,基于該模型,還設計了“數據質量分”這個指標,來直觀地反映平臺數據質量的建設水平及健康狀況。
數據質量七維模型的評價視角及其計算口徑:
1 數據完整性
2 監控覆蓋率
☆ ?確保數據遵循統一的數據標準或規范要求?★ ?指標公式:監控的高價值作業個數/高價值作業總個數?????其中,高價值作業是指作業價值分在80分以上的作業33 告警響應度
☆ ?通過日常管理、應急響應,降低或消除問題影響,避免數據損毀、丟失?★ ?指標公式:已處理告警個數(本周)/告警總個數(本周)44 作業準確性
☆ ?考量數據是否符合預設的質量要求,如唯一性約束、記錄量校驗等?★ ?指標公式:1 -?告警作業個數(本周)/監控作業總個數55 作業穩定性
☆ ?考量作業的運行穩定性,是否經常報錯,導致數據事故?★ ?指標公式:1 -?錯誤作業個數(本周)/作業總個數66 作業時效性
☆ ?考量數據項信息可被獲取和使用的時間是否滿足預期要求?★ ?指標公式:1 -?延遲的高價值作業個數(本周)/高價值作業總個數?????其中,基準時間為作業近30天平均完成時間加30分鐘,作業晚于基準即延遲77 作業性能分
☆ ?考量作業的執行效率和健康度,診斷作業是否傾斜等性能問題
?★ ?指標公式:1 - ?危急作業個數(本周)/作業總個數
從各質量維度的評價視角和指標公式可以發現,雖然數據質量監控的是表及字段的質量情況,但我們的質量分是設定在庫這個層級。這么設計主要是為了更好地責任劃分、統籌治理。
比如在銀行業,每個庫都有其對應的所屬分層(如明細層、匯總層、應用層等),且每個庫都有對應的庫負責人,所以到庫這個層級,我們能更好的分而治之,由庫負責人對庫的質量水平負責。
基于數據質量模型,我們還配套對應的數據質量監控報告。在報告中我們不僅能看到數據平臺的整體質量評分,了解質量發展趨勢,更能通過多維分析、單維深鉆來了解平臺的質量問題根源。
多維分析:詳細展示七個質量維度的評分及趨勢變化,每個維度下還配有TOP榜,用來展示低質量的庫排名,督促庫負責人進行優化、治理;
單維深鉆:每一個質量維度都能從整體下鉆到具體庫及表,深入了解該維度質量評分低的具體原因,以便針對性地解決問題、提高質量;
綜上,就是在數據質量治理方面的一些具體實踐。數據質量治理是一個長期的、持續性的工作,不可能期望一蹴而就。
在治理過程中,需要不斷優化質量短板,夯實質量基石。設目標、定責任,積極配合與行動,充分利用平臺工具,共同建設一個數據烏托邦,讓數據價值發揮耀眼光芒。
數據質量治理僅僅是數據治理的一個小環,而企業內部的數據質量問題并非不治之癥,根據行業最佳實踐開展管理體系提升,配備必要的軟件,總能把這個問題解決掉,所謂企業內部的數據質量問題最終會消弭于無形。