- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-01-06來源:一勺晚安瀏覽數:837次
? ? ??在日常工作中,業務領導經常會通過報表看板等數據產品來了解各項業務的發展趨勢以及KPI的達成情況。倘若某天,他打開某張核心報表,發現當日的數據一直是空白的,詢問報表開發人員,開發經排查分析,發現是依賴的上游有延遲,上游數據預計要下午才能到達,導致業務領導在正常時點無法查看業務數據情況。又或某天,業務人員點開報表發現當日AUM規模暴增,數據增長當然開心,但仔細推敲,發現這波動有點不合常理,于是通知數據負責人驗證下數據是否存在異常。經過幾個小時的排查分析,數據負責人報告說數據確實算的有些問題,業務業務以后對該報表數據的準確性將會打上問號。若類似的數據問題經常出現,估計迎接你的不是美好明天,而是你的職業生涯的最后一天。
? ? ??數據質量為什么至關重要?因為擁有高質量的數據可以讓您更好地了解任何情況,從而更精準地執行任何事情。反之亦然。伴隨著技術的進步,組織或者企業能夠收集大量的數據,用好這些數據已成為焦點。然而,由于以下原因,很多組織或者企業并沒有實施數據質量計劃: 沒有業務部門負責數據質量問題 數據質量需要跨職能合作 它要求組織認識到數據質量是一個重要問題 它需要數據質量準則 它需要投入財力和人力資源 它被認為是非常人力密集的 投資回報往往難以量化 看起來,挑戰大于好處。但是,數據質量務必重視,原因有三。 原因一:成本 數據質量差,是IT項目失敗的主要原因,也是客戶流逝背后的驅動因素之一。 原因二:合規 質量差的數據會帶來重大的法律或者聲譽風險。一些例子如下:
? ? ??原因三:決策 質量好的數據意味著有準確及時的信息來管理從研發到銷售的產品和服務。質量差的數據導致錯誤的洞察力,從而做出錯誤的決策。決策的錯誤,公司會付出沉重的代價。在企業,數據服務的方式有報表看板、標簽指標和數據接口等,而這些數據服務要想為業務帶來價值的,其首要前提就是要保證數據的準確性,輸出高質量的數據。低質量的數據會誤導業務做出錯誤的決定,致使行動方向發生偏離。特別是在數據驅動的組織中,是否有準確的、可用的高質量的數據,將直接影響領導層能否做出正確的決策和戰略目標的實現。因此需要特別重視數據的質量問題,針對數據質量進行專項治理。
? ? ??在前面的場景案例中,我們可以發現有如下幾個數據質量問題:
? ? ??出現問題不可怕,可怕的是出現問題后,我們毫無感知,不能做到“早發現、早處理、早恢復”,以致問題直接傳導到業務方,影響業務的開展工作。在大數據產品矩陣中,我們使用數據質量監控平臺來支持數據質量的監控、治理。數據質量監控平臺,主要是對Hive數倉中的庫表數據的質量進行監控,包括表級別和字段級別的數據進行監控,以減少或避免由數據質量引起的事故和損失。借助數據質量監控平臺,我們通過實施下面幾個關鍵步驟來進行數據質量的治理:
? ? ??對高價值分的作業,我們要求強制配置基礎監控規則,如:主鍵唯一性校驗、數據非空校驗;另還可以根據業務場景需要,配置對應的業務規則監控,如:字段總值環比校驗、字段極值校驗等,監控平臺內置了約17種字段級校驗規則、5種表級校驗規則,供直接配置使用;

? ? ??除內置了豐富的校驗規則,質量監控平臺還支持SQL自定義監控規則,極大地滿足各種數據監控場景。
? ? ??當校驗規則識別異常時,需要通知負責人進行跟進處理,質量監控平臺支持以電話、郵件和短信等方式通知作業屬主。作業屬主收到告警后,需及時地處理和關閉告警,否則告警將一直掛在那,在后面的告警響應度中會被稽核到,上報其領導。
? ? ??根據作業的價值分級,針對高價值作業,開發人員可根據數據血緣,對上游作業依次配上監控,實現全鏈路的數據質量監控。
? ? ? 在執行了一系列的舉措來提高數據質量后,如何來驗證數據質量的治理效果呢?根據企業本身的數據特點,設計并構建了一個數據質量七維評價模型,如下圖所示:

? ? ??數據質量評價模型,分別從數據完整性、監控覆蓋率、告警響應度、作業準確性、作業穩定性、作業時效性、作業性能分等七個維度來考量平臺的數據質量,基于該模型,還設計了“數據質量分”這個指標,來直觀地反映平臺數據質量的建設水平及健康狀況。數據質量七維模型的評價視角及其計算口徑:
單維深鉆:每一個質量維度都能從整體下鉆到具體庫及表,深入了解該維度質量評分低的具體原因,以便針對性地解決問題、提高質量;
? ? ??綜上,就是在數據質量治理方面的一些具體實踐。數據質量治理是一個長期的、持續性的工作,不可能期望一蹴而就。在治理過程中,需要不斷優化質量短板,夯實質量基石。設目標、定責任,積極配合與行動,充分利用平臺工具,共同建設一個數據烏托邦,讓數據價值發揮耀眼光芒。最后附上數據質量治理思維導圖:

? ? ??數據質量治理僅僅是數據治理的一個小環,而企業內部的數據質量問題并非不治之癥,根據行業最佳實踐開展管理體系提升,配備必要的軟件,總能把這個問題解決掉,所謂企業內部的數據質量問題最終會消弭于無形。