- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-07-31來源:成全新的幸福瀏覽數:602次
數據是數字化運營與數字化業務的核心源材料,要讓數據有效產生業務價值和實現業務目標,需要有高質量的數據。高質量數據對管理決策,業務支撐都有極其重要的作用,為運維數據挖掘、預測、數據分析算法的合理使用、多維查詢、即席分析、數據可視化等工作做好支撐,讓數據質量不再是空中樓閣。

大數據時代數據產生的價值越來越大,基于數據的相關技術、應用形式也在快速發展,開發基于數據的新型應用已經成為企業信息化建設的一個重點領域。當前各大廠商、用戶都在探索與數據相關的開發技術、應用場景和商業模式,最終目的就是挖掘數據價值,推動業務發展,實現盈利。目前數據應用項目非常多,但真正取得預期效果的項目少之又少,而且開發過程困難重重,其中的一個重要原因就是數據質量問題導致許多預期需求無法實現。如果沒有運維數據治理,再多的業務和技術投入都是徒勞的,因為很經典的一句話:Garbage in Garbage out。運維數據治理是保證數據質量的必需手段,從全球范圍來看,加強運維數據治理提升數據質量已成為企業提升管理能力的重要任務。
01運維數據質量管理
1. 運維數據質量管理釋義
數據是數字化運營與數字化業務的核心源材料,要讓數據有效產生業務價值和實現業務目標,需要有高質量的數據。高質量數據對管理決策,業務支撐都有極其重要的作用,為運維數據挖掘、預測、數據分析算法的合理使用、多維查詢、即席分析、數據可視化等工作做好支撐,讓數據質量不再是空中樓閣。數據質量不高表現為數據以多種格式,雜亂無序的存在于內外部的各個業務應用系統中,無統一數據源,數據分析可用的準確數據無法識別,展示信息不準,很難有效支持領導決策。遺憾的是,很多項目在初期沒有考慮數據質量的治理,很多數據質量問題在項目實施后期才發現,數據質量問題直接導致了數據類項目失敗。數據質量問題除了項目平臺設計缺失以外,還反映出組織架構與流程設計的問題,組織需要建立有效支撐數據質量管理架構、基于數據閉環的運營流程,以支撐數據質量管理。我們將運維數據質量管理定義為:圍繞運維數據生命周期,從組織、流程、平臺三個維度建立的識別、度量、監測、運營、改進的數據質量管理。
2. 運維數據質量面臨的挑戰
數據質量問題最直接的影響是數據分析場景不可用,一方面會導致數據分析處理邏輯失效或不可用,數據無法共享帶來數據孤島,運維工具間無法互聯互通;另一方面會導致數據洞察感知有誤。而錯誤的數據洞察感知,會影響數據決策,導致決策失誤。另外,基于數據驅動的運營模式是對現有經驗驅動運營模式的轉型,為了推動轉型的順利落地,需要讓數據驅動價值真正賦能員工,而數據質量問題將導致員工對運維數據分析的可靠性、實用性等產生信任危機,阻礙運維組織向數據驅動轉型。
提升數據質量是一個綜合性的治理工作,現階段面臨如下挑戰:
(1)數據源眾多,結構不標準。運維數據來自于多種監控工具、平臺軟件、應用系統、運維平臺等系統或工具,由于標準化不統一,大量不同的數據源之間存在著沖突、不一致或相互矛盾的現象;
(2)研發涉及的數據標準不夠。在當前系統更新升級加快和應用技術更新換代頻繁的背景下,數據源的軟硬件供應商或企業內部自研團隊,由于發展迅速,市場龐大,廠商眾多,直接產生的數據或者產品產生的數據標準不完善,或研發管理標準化或數據層面的標準化不夠,數據質量要求被忽略,缺乏全面的校驗流程,使得數據質量問題長期處理救火狀況;
(3)海量、高速的數據帶來的技術管理難度。運維規模大、非結構化、高速產生,對數據獲取、存儲、傳輸和計算等過程給質量管理帶來技術挑戰,采用傳統人工錯誤檢測與修復或分區腳本匹配處理的方法,無法解決當前數據質量的管理問題;
(4)缺乏數據質量管理的專業人才。數據質量管理是一個長期且持續優化的過程,需要建立專項的運維數據質量管理的崗位或團隊,從制度、流程、技術多個維度制定數據質量管理機制,能夠持續有效的進行數據審核糾錯,但當前運維組織普遍缺少這種崗位;
(5)數據質量管理投入不夠。數據質量成本比較高,短期見效不明顯。成本上,數據管理涉及到運維數據標準的制定、規范的落地、生命周期的管理等多個環節。見效上,數據質量產生的效益需要一個積累過程。
另外,還有其他一些因素也導致運維數據質量問題,比如因為新的基礎設施或平臺升級、運維操作不規范、應急數據維護方案不完善、數據質量標準化缺失或執行不力等也是當前運維數據質量急需解決的問題。
02運維數據質量管理分析指標
為形成有效運維數據資產,要明確數據質量管理目標、控制對象和指標、定義數據質量檢驗規則、執行數據質量檢核,生產數據質量報告。而影響數據質量的因素很多,要推進運維數據質量持續提升,要建立分析運維數據質量的指標。在大數據領域,數據質量分析指標的內容主要包括:完整性、一致性、準確性、唯一性、關聯性、及時性。其中,完整性主要解決所需數據是否都同時存在,一致性主要解決同樣的數據在不同系統是否一致,準確性主要解決數據是否反映客觀事實,唯一性主要解決數據有沒有重復與冗余,關聯性主要解決數據源之間的數據存在關聯關系,及時性主要解決數據是否可以在線獲得。結合運維數據的特點,影響數據的“完整性、一致性、準確性、唯一性、關聯性、及時性”分析指標的原因主要有:
1. 數據完整性
數據缺失是運維數據完整性的最主要表現,可能是整個數據記錄缺失,也可能是數據中某個字段信息的記錄缺失,或在數據流動過程中丟失了部分數據。數據缺失主要是由于數據模型設計不完整導致,比如唯一性約束不完整,數據屬性空值,功能設計缺陷導致數據漏記錄,數據維護或遷移方案不完善導致部分表數據漏修改。數據完整性要求運維人員更加靠近業務,推動運維前移到測試、研發設計階段。
2. 數據一致性
數據一致性主要體現在數據流動中,多個副本數據存在數據不一致、數據內容沖突的問題。數據不一致直接原因是同一份數據在不同信息系統中的數據模型不一致導致,比如數據結構不同、約束條件不對、數據編碼不一致、命名與定義不一致等。而造成不同系統模型不一致性的根因,一方面應該檢查是否制定并遵循了統一的運維數據規范。當然,由于不同系統對于數據應用不同,這里的一致性并不要求數據絕對相同,而是要求數據收集、處理的方法和標準的一致。在運維平臺建設中,像CMDB、身份賬戶、組織架構等信息的數據一致性尤其重要,因為這類數據是工具間互聯互通的紐帶。
3. 數據準確性
準確性是指數據信息是否存在異常或錯誤。生產環境是一個極為嚴肅的工作環境,運維數據可能用在效率與成本等運營分析上,也可能應用在生產故障應急這樣爭分奪秒的環節中,不準確的數據將導致決策失誤,帶來重大安全隱患或延誤戰機。準確性的評價指標包括:缺失值占比、錯誤值占比、異常值占比、抽樣偏差、數據噪聲等。以應急管理場景為例,如果監控告警數據長期不準確,一方面會導致基于監控響應不及時,且過多的誤告會導致員工不信任監控;另一方面錯誤的告警數據對于監控告警基線會產生錯誤的引導,影響基線的正確性。
4. 數據唯一性
唯一性用于識別和度量重復數據、冗余數據。重復數據會導致權益交易、運營計算、流程追溯、賬務核對等多方面的問題,比如在進行交易系統運營流水異常感知分析時,通常采用比不同的方法,對比上一工作日某個時段的交易的交易數量,如果在采集數據時因為重復采集的原因導致數據多了一倍,那在分析感知時將產生異常感知誤報。
5. 數據關聯性
數據關聯性包括數據結構層面的關聯與數據對象層面的關聯。前者主要指在數據模型中函數關系、相關系數、主外鍵關系、索引關系等。數據對象層面的關聯主要指運維對象之間的關系鏈路,比如從基礎設施、平臺軟件、應用系統、業務功能之間部署的縱向關系,上下游服務之間調用鏈路的橫向關系。因為架構越來越復雜,以可觀測為代表的解決方案越來越強調數據關聯關系。
6. 數據及時性
數據實時場景多是運維數據分析的特點。及時性是指運維工程師與運維平臺能夠在線獲得數據,所以當前運維數據平臺的解決方案越來越多的重視實時流式處理技術,并提供在線的數據同步和消費的能力。
03運維數據質量管理方法
1. 構建三位一體的運維數據質量管理
全面提升運維數據“完整性、一致性、準確性、唯一性、關聯性、及時性”指標是運維數據質量治理的技術目標導向,要從組織、流程、技術三個維度建立三位一體的運維數據治理方法。

圖:三位一體的運維數據治理方法
2. 建立體系化的運維數據質量組織管理
隨著運維數據的廣泛應用,運維發現有不少數據質量問題影響了數據洞察、決策的準確性,由此開始了運維數據治理工作,但由于缺乏體系化的組織管理,在數據質量管理存在方法論不夠、溝通成本高、職責不明確等問題,以下從職責、能力、文化三方面介紹質量管理的組織建設。
(1)組織職責
運維數據質量管理需要建立明確的數據質量管理職責,包括運維數據質量管理角色與運維數據質量業主角色。
(2)能力建設
運維平臺的互聯互通,故障發現與應急,系統性能與容量分析等對運維數據的質量要求很高,但實際應用過程中會發現數據質量問題。因此,運維組織中應用數據的團隊與工具建設團隊各自主導著數據質量的運營工作。
(3)文化建設
良好的運維數據質量文化表現為質量和運維目標的一致性,運維團隊專注于持續改進和自我激勵,并將質量觀念融入員工的日常工作。員工敢于指出錯誤并提出改進建議,每個人都了解其工作對于整個運維數據質量體系的重要性。只有建立良好的數據質量文化,才能讓流程與工具更好的落地。
3. 制定數據質量管理流程閉環
運維數據質量管理建設工作貫穿整個運維數據平臺建設的全過程,是數據數據或智能運維工作的指導和規范,要構建一個完整的運維數據質量管理流程閉環。運維數據質量管理的流程閉環包括事前質量標準,事中監測,事后分析。
(1)事前質量標準
運維數據質量是一個持續推進的過程,涉及運維、研發、測試、產品等多個內部團隊,以及外部供應商的標準化。要讓整個數據質量管理的流程閉環順暢的落地,需要建立完善的數據質量標準。在建立運維數據質量標準時,由于行業現有的數據質量標準偏向于理論,而不同企業的運維組織實際情況不一,運維工作流程不同,還要在組織建立細化可實施的質量標準。
(2)事中質量監測
事中的數據質量管理,是為了讓運維數據質量問題由被動發現向主動發現轉變,事中的質量監測是主動發現的重要手段。質量監測從管理角度可以考慮基于“完整性、一致性、準確性、唯一性、關聯性、及時性”6個質量評估指標的大方向,細分更為細化的監控指標,在技術實現可以參考運維業務功能監控的思路。
(3)事后質量分析
事后分析同樣需要圍繞“完整性、一致性、準確性、唯一性、關聯性、及時性”6個質量評估指標建議運維數據質量分析。運維數據質量運營崗需要建立持續性的事后質量分析機制。
4. 落地數據質量全生命周期的技術平臺
為快速體現運維數據治理效果,建議采用“小步快跑”的方式,識別重點應用場景的數據質量問題,通過對指標數據從業務源頭、責任源頭、技術源頭追根溯源,定位數據質量問題產生的根因,對指標數據的業務要求規范、數據責任歸屬、數據技術流向進行溯源,實現快速歸因和及時治理。技術平臺是為了數據質量組織能夠有效的落實質量管理工作流程,平臺的作用是賦能作用。從功能角度看,數據質量管理平臺應提供從標準定義、質量監控、績效評估、質量分析、質量報告、重大問題及時告警、流程整改發起、系統管理等運維數據質量管理全過程的功能。
在實現上,運維組織應該成立相關平臺建設項目組,梳理組織目前對運維數據質量管理的需求,并根據需求制定或選型技術平臺。通常來說,平臺還要以數據標準作為數據檢核依據,將數據采集、數據監測、質量分析、問題跟進的流程進行整合,形成數據質量全生命周期管理。
在技術平臺構成方面,建議將質量管理平臺能力與現有的運維平臺體系結合起來,根據投入與資源情況,選擇采用分而治之或集中治理兩個思路。分而治之重點是將數據質量的管理歸到具體的系統,比如CMDB系統負責配置質量治理,日志系統負責日志質量治理等;集中治理的方法是建立統一的數據平臺或數據管理平臺,由平臺提供統一的數據質量管理。
04小結
在企業運維數據治理過程中,數據質量管理已成為企業持續、例行的工作,企業數據質量管理水平直接影響數據應用的效果和數字化轉型的成效。本文中數據質量管理由三個部分構成,包括數據質量管理組織、數據質量管理流程、數據質量管理技術平臺。全面提升數據質量,使數據質量管理“系統化”、“持續化”、“常態化”。
本文摘編于《運維數據治理:構筑智能運維的基石》機械工業出版社出版,轉載請標明文章來源。
下一篇:5G建筑業數字化解決方案...