- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2023-09-08來源:一點一點瀏覽數:3407次
根據 Gartner 的數據質量市場調查,低質量數據每年使公司損失約 1500 萬美元,數據質量管理對于處理低質量數據帶來的問題是必要的。數據質量管理可以停止處理不準確數據浪費的時間和精力。低質量的數據可能會隱藏運營中的問題,并使合規性成為挑戰。好的數據質量管理對于理解數據至關重要。
一.什么是數據質量?
數據質量是指數據符合預期目的。當數據準確地展示現實世界的真實情況時,會被認為是高質量的。而數據質量管理是一組旨在維護高質量信息的實踐。數據質量管理從數據采集和高級數據流程的實施一直到數據的有效分發。它還需要對信息進行管理監督。有效的數據質量管理被認為對于任何一致的數據分析都是必不可少的,因為數據的質量對于從信息中獲得可操作且更重要的準確見解至關重要。
二.數據質量的重要性
如今,公司的大部分運營和戰略決策都嚴重依賴數據,因此質量的重要性更高。事實上,低質量數據是先進數據和技術計劃失敗的主要原因。更一般地說,低質量的數據會影響生產力、底線和整體投資回報率。
從客戶關系管理到供應鏈管理,再到企業資源規劃,有效的數據質量管理的好處可以對組織的績效產生連鎖反應。有了可用的質量數據,組織可以形成數據倉庫,以檢查趨勢和制定面向未來的戰略。
在整個行業范圍內,數據質量的積極投資回報率是眾所周知的。根據埃森哲的大數據調查,92%使用大數據進行管理的高管對結果感到滿意,89%的高管認為數據“非常”或“極其”重要,因為它將“像互聯網一樣徹底改變運營模式”。大企業的領導者清楚地了解優質數據的重要性。
高質量的數據有助于做出更好的決策:當今的市場必然是以消費者為中心。有了高質量的數據,企業將能夠做出更好的決策。?
更好的團隊協作:當一個組織的許多部門能夠持續訪問相同的高質量數據時,結果是更好、更有效的溝通。這使所有團隊成員更容易在優先級、對外信息以及品牌方面保持一致。這將共同確保更好的結果。?
更好地了解客戶:有了高質量的數據,公司就能夠更好地評估客戶的興趣和要求。這有助于組織通過根據客戶需求創造更好的產品來實現增長。然后,可以根據消費者的需求和來自數據的直接反饋來推動創建的營銷活動,而不僅僅是基于有根據的猜測。?
改進業務流程:良好的數據還意味著團隊可以確定運營工作流程中的故障點。對于供應鏈行業來說尤其如此,因為供應鏈依靠實時數據來確定適當的庫存和發貨后的位置。?
三.數據質量的評估
數據質量是根據多個維度進行評估的,這些維度可能因信息來源而異,有句俗話說,“垃圾進,垃圾出”,如果源頭數據質量沒有抓好,會導致數據分析應用難以進行,或者得到的分析結果價值也不大。因此在這條數據鏈路的供給側,站在數據生產者或數據管理者的角度,可以從完整性、準確性、有效性、一致性、唯一性這些角度來進行數據質量的評估,而這六個維度也可以作為六個指標。
完整性 Completeness:完整性用于度量哪些數據丟失了或者哪些數據不可用。
規范性 Conformity:規范性用于度量哪些數據未按統一格式存儲。?
一致性 Consistency:一致性用于度量哪些數據的值在信息含義上是沖突的。?
準確性 Accuracy:準確性用于度量哪些數據和信息是不正確的,或者數據是超期的。
唯一性 Uniqueness:唯一性用于度量哪些數據是重復數據或者數據的哪些屬性是重復的。
關聯性 Integration:關聯性用于度量哪些關聯的數據缺失或者未建立索引
以下是這六個指標的詳細定義:

來源#1:并購
當兩家公司以某種方式聯合起來時,他們的數據就會融入這種新的工作關系中。然而,就像兩個婚前有孩子的人建立新的關系一樣,事情有時會變得一團糟。
例如,兩家公司很有可能使用完全不同的數據系統。也許你們中的一個人有一個遺留數據庫,而另一個人已經更新了東西。或者使用不同的方法收集數據。甚至有可能關系中的一個合作伙伴有很多不正確的數據。
來源#2:從遺留系統過渡
對于非技術用戶來說,可能很難理解從一種操作系統切換到另一種操作系統所固有的困難。直覺上,外行會期望事情已經“設置好”,以便最終用戶可以輕松無痛地進行轉換。這絕對不符合現實
來源#3:用戶錯誤
這是一個可能永遠不會消失的問題,因為人類將始終參與數據輸入,并且人類會犯錯誤。人們經常打錯東西,這必須加以考慮。
五.數據質量的常見問題?
01:缺乏記錄唯一性
一個擁有200-500名員工的普通組織使用大約123個SaaS應用程序。用于捕獲、管理、存儲和使用數據的應用程序數量龐大且種類繁多,是導致數據質量差的主要原因。在這種情況下最常見的問題是為同一實體存儲多個記錄。
02:缺乏關系約束
一個數據集通常引用多個數據。但是,當兩個或多個不同的數據之間沒有定義和強制執行任何關系時,最終可能會得到很多不正確和不完整的信息
03:缺乏參照完整性
參照完整性意味著數據記錄與其引用對應物是真實的。要了解由于缺乏參照完整性而產生的問題,我們考慮一家零售公司的例子。一家零售公司可能將他們的銷售記錄存儲在Sales表中,每條記錄都提到在進行銷售時售出的產品。因此,可能希望在Sales表中找到銷售ID和產品ID。但是,如果Sales記錄引用Product表中不存在的ProductID,則很明顯數據集缺乏引用完整性
04:缺乏關系基數
關系基數是指兩個實體之間可以擁有的最大關系數。通常,可以在數據對象之間創建不同類型的關系,這取決于公司允許如何進行業務交易。
參考以下示例以了解不同數據對象之間的基數,例如Customer、Purchase、Location和Product:
一個客戶一次只能有一個位置
一個客戶可以進行多次購買
許多客戶可以來自一個位置
許多客戶可以購買許多產品
如果基數約束沒有明確定義,它可能會在數據集中引起許多數據質量問題
05:缺乏屬性的唯一性和意義
我們經常發現與數據集屬性或列相關的問題。很多時候數據模型沒有明確定義,因此結果信息被認為是不可用的。發現的常見問題有:
存在具有相同名稱的多個列,其中包含一條記錄的不同信息。
存在具有不同名稱的多個列,這在技術上意味著相同的事物,因此存儲相同的信息。
列標題不明確,會使數據輸入操作者混淆要在列中存儲的內容
06:缺乏驗證約束
大多數數據質量問題都是由于缺乏驗證約束造成的。驗證約束確保數據值有效且合理,并根據定義的要求進行標準化和格式化。例如,缺少對CustomerName的驗證約束檢查會導致以下錯誤:
名稱中的額外空格(前導、尾隨或中間的雙空格),
使用不適當的符號和字符,
名稱的長度太長
07:缺乏準確的公式和計算
數據集中的許多字段是從其他字段派生或計算得出的。因此,每次在相關字段中輸入或更新新數據時,都會設計、實施并自動執行公式。公式或計算中存在的任何錯誤都可能導致數據集的整個列中獲得不正確的信息
08:跨來源缺乏一致性
與數據相關的最常見挑戰之一是在所有節點或數據源中維護關于同一“事物”的一個定義。例如,如果一家公司使用CRM和一個單獨的計費應用程序,則客戶的記錄將出現在這兩個應用程序的數據庫中。隨著時間的推移,在所有數據庫中保持一致的客戶信息視圖是一項艱巨的任務
09:缺乏數據完整性
數據完整性是指數據集中存在必要的字段。數據集的完整性可以垂直(屬性級別)或水平(記錄級別)計算。通常,字段被標記為必填以確保數據集的完整性,因為并非所有字段都是必需的。
通常會在大量字段留空的數據集中發現此數據質量問題–大量記錄。但空并不一定意味著不完整。數據集的完整性只能通過首先對數據模型的每個字段進行如下分類來準確衡量:
字段是必填項嗎?意思是,它不能留空;例如,客戶的名稱。
該字段是可選的嗎?意思是,它不一定需要填寫;例如,客戶的愛好字段
10:缺乏數據流通
數據老化得非常快——無論客戶是否更換了他們的住址、電子郵件地址、聯系電話等。此類更改可能會影響數據集的流通性,并導致產生數周或數月的舊數據,從而導致根據過時的信息做出關鍵決策
11:缺乏數據素養技能
盡管為保護數據及其跨數據集的質量做出了所有正確的努力,但組織中缺乏數據素養技能仍然會對數據造成很大的損害。員工經常存儲錯誤的信息,因為他們不理解某些屬性的含義。此外,他們不知道自己行為的后果,例如在某個系統或某個記錄中更新數據會產生什么影響。
12:錯誤輸入和其他人為錯誤
錯誤輸入或拼寫錯誤是最常見的數據質量錯誤來源之一。眾所周知,人類在輸入10,000個數據時至少會犯400個錯誤。這表明即使存在唯一標識符、驗證檢查和完整性約束,人為錯誤仍有可能產生并使數據質量下降。
六.數據質量的常見監控指標 接入數據條數波動(近7天均值比較)
源系統表結構變更(表名、字段名、字段類型)
源系統表計算延遲,導致后續數據接入延遲
線上維表新增數值, 倉庫未及時更新
對接入RDBMS表的主鍵、外鍵檢查:是否重復
重要字段長度檢查
空值檢查
重要字段枚舉分布檢查:離散的,多數是維度字段,可以包含空值檢查
值域檢查:連續的,一般是事實字段,計算檢查MAX MIN SUM AVG
日期合法性檢查:是否有跨天日志,是否有不正常時間日志
數據與錯誤的比率:監控與整個數據集相比已知數據錯誤的數量。
空值數:計算數據集中有空字段的次數。
數據價值實現時間:評估從數據集中獲得洞察所需的時間。
數據轉換錯誤率:該指標跟蹤數據轉換操作失敗的頻率。
數據存儲成本:當存儲成本上升而使用的數據量保持不變,或者更糟糕的是,數據量減少時,這可能意味著所存儲的大部分數據的使用質量很低。
七.哪些人應該關注數據質量?
1.那些必須關注成本的人。例子包括零售商,石油和天然氣公司,在過去四年中價格下跌了一半;政府機構,其任務是少花錢多辦事;和醫療保健公司,它們必須在控制成本方面做得更好。通過清除由不良數據造成的浪費和隱藏的數據工廠來削減成本比不分青紅皂白地裁員更有意義——并在這個過程中加強公司。
2.那些尋求將數據用于工作的人。公司包括銷售或許可數據的公司、尋求通過數據貨幣化的公司、更廣泛地部署分析的公司、試驗人工智能的公司以及希望將運營數字化的公司。當然,組織可以使用載有錯誤的數據來實現這樣的目標,許多公司都這樣做了。但隨著數據的改善,成功的機會也會增加。
3.那些不確定數據的主要責任應該歸于何處的人。大多數業務人員欣然承認數據質量是個問題,但聲稱這是 IT 的職責范圍。IT 人員也欣然承認數據質量是一個問題,但他們聲稱這是業務領域的問題——以及一種不安的停滯結果。現在是結束這種愚蠢行為的時候了。高級管理層必須將數據的主要責任分配給業務部門。
4.那些厭倦了使用他們不信任的數據做出決策的人。更好的數據意味著更好的決策和更少的壓力。更好的數據還可以騰出時間專注于真正重要和復雜的決策
八.數據質量管理的角色和職責
數據質量管理過程是一個多方面的過程,涉及具有不同職責的各種專業人員。以下是數據質量管理工作組中最重要的一些角色:
1 數據質量經理
數據質量經理負責監督與數據質量相關的項目,并評估需要改進的地方。數據質量經理的職責包括:
與客戶合作,確定和定義數據質量管理項目的要求。
分析需要管理的數據以確定它與這些要求的符合程度。 創建指標來衡量特定項目目標的進展情況。 實施可提高數據質量的新政策或流程。 隨著時間的推移根據指標監控進度。
2 首席數據官 (CDO)
首席數據官 CDO 是C級主管,負責組織的數據資產。作為他們的核心職責,CDO 確保其公司的數據資產符合戰略目標。隨著越來越多的組織開始依賴數據驅動的決策制定,CDO 的角色近年來從戰略數據管理演變為業務流程管理。CDO 的職責因組織而異,但通常包括以下內容:
建立與數據質量管理相關的組織目標。
制定組織數據資產的使用和控制政策。 監督這些政策的實施并建立衡量合規性的機制。 優先考慮數據質量項目。 跨組織部門整合數據質量。 對員工進行最佳實踐培訓。 在內部和外部倡導改進組織數據實踐。 監督數據質量管理流程,以確保公司收集和使用的數據滿足業務要求。 制定有關如何使用數據實現業務目標的策略。 3 數據管理員數據管理員是一名專業人員,負責根據組織的數據治理策略制定有關數據使用和安全性的政策。此外,數據管理員可能負責分配資源以維護和更新數據庫,確保遵循政策,并監控和報告數據質量。數據管理員的職責可能因項目而異,具體取決于他們的角色范圍和他們在組織中的角色。
作為數據守門人,數據管理員在規劃項目、審查報告、參與開發會議、設計新流程以及在必要時倡導變更方面發揮積極的領導作用。數據管理員與跨不同職能部門的團隊合作,就如何在整個企業中最好地使用和管理數據相關信息建立共同點;這項工作通常需要就具有不同需求或優先事項的利益攸關方之間的跨職能差異進行談判。
4 數據分析師
數據分析師是收集、分析和解釋原始數據以發現模式的數據專業人員。數據分析師可以在許多行業找到,包括零售、金融、政府和醫療保健。他們的職責因行業而異,但通常包括:
從各種來源收集數據。
分析收集的數據。 設計和維護數據系統和數據庫。 根據他們的發現做出預測。 與跨部門的同事進行清晰的溝通。 與程序員、工程師和組織高管合作,以增強流程、修改系統和構建數據治理策略。 數據分析師必須具備出色的組織能力才能跟蹤大量信息。他們還必須與跨部門的人員進行有效溝通,例如不直接參與分析過程的 IT 人員或業務開發專業人員。 數據分析師與負責根據歷史趨勢創建預測模型并預測未來會發生什么的數據科學家密切合作。這兩個職位需要相似的技能組合,盡管一個可能更專注于統計分析,而另一個更專注于預測建模。
5 大數據工程師
大數據工程師是使用大數據技術分析大型數據集的 IT 專業人員。大數據工程師設計、構建、分析、測試、維護、監控和管理復雜的公司數據基礎設施系統。大數據工程師的工作包括管理關系數據庫、列式數據庫、分布式文件系統、緩存算法、信息檢索方法和其他相關技術。
6 數據架構師
數據架構師負責設計公司的數據架構。這包括收集業務利益相關者的需求、分析當前數據結構以確定需要做什么以及為未來構建架構。
數據架構師是戰略思想家,他們了解技術領域的任何變化將如何影響公司的數據環境。他們負責開發數據架構的所有技術方面,并確保它們與其他組織計劃保持一致。他們還管理與 IT 合作伙伴和供應商的關系,并且必須具備出色的溝通技巧。
九.數據質量的管理
01 什么是數據質量管理?
數據質量管理就是 指對數據從計劃,獲取,存儲,共享,維護,應用到消亡,這整個生命周期的每一個階段可能引發的數據質量問題,進行識別,測量,監控,預警等一系列管理活動,并通過改善和提高組織的管理水平,使數據質量獲得進一步的提高。
數據質量管理的終極目標:通過可靠的數據提升數據在使用中的價值,并最終為企業贏得經濟效益。我們可以簡單地將數據質量管理理解為一種業務原則,需要將合適的人員、流程和技術進行有機整合,改進數據質量各維度的數據問題,提高數據質量。實際上,企業數據治理的各個關鍵領域和關鍵活動都是圍繞如何提升數據質量,以獲得更大的業務成果或經濟利益而展開的。
數據質量管理是數據治理的重要組成部分,通常用在數據模型設計、數據資產管理、主數據管理、數據倉庫等解決方案中。?數據質量管理可以是反應性的被動管理,也可以是預防性的主動管理。很多公司將數據質量管理的技術與企業管理的流程相結合,用來提升主動管理數據質量的能力,這是一個很好的實踐
02 怎么做數據質量管理?
數據質量管理應秉持“預防為主,防治結合,持續優化”的理念,管理貫穿數據的生命周期,加強事前預防、事中控制、事后補救的各種措施,以實現業務數據質量的持續提升

上圖比較全面的列舉了數據質量管理各環節涉及的管理要素和活動。
1)事前預防
事前預防即防患于未然,是數據質量管理的上上之策。數據質量管理的事前預防可以從組織人員、標準規范、制度流程三個方面入手。
1、加強組織建設
企業需要建立一種文化,以讓更多的人認識到數據質量的重要性,這離不開組織機制的保障
(1)組織角色設置
企業在實施數據質量管理時,應考慮在數據治理整體的組織框架下設置相關的數據質量管理角色,并確定他們在數據質量管理中的職責分工
(2)加強人員培訓數據不準確的主要原因是人為因素,加強對相關人員的培訓,提升人員的數據質量意識,能夠有效減少數據質量問題的發生2、落實數據標準 數據標準的有效執行和落地是數據質量管理的必要條件。數據標準包括數據模型標準、主數據和參考數據標準、指標數據標準等。 3、制度流程保障(1)數據質量管理流程
數據質量管理是一個閉環管理流程,包括業務需求定義、數據質量測量、根本原因分析、實施改進方案、控制數據質量,如下圖所示。

① 業務需求定義
我的一貫主張是:企業不會為了治理數據而治理數據,背后都是為了實現業務和管理的目標,而數據質量管理的目的就是更好地實現業務的期望。
第一,將企業的業務目標對應到數據質量管理策略和計劃中。
第二,讓業務人員深度參與甚至主導數據質量管理,作為數據主要用戶的業務部門可以更好地定義數據質量參數。
第三,將業務問題定義清楚,這樣才能分析出數據數量問題的根本原因,進而制定出更合理的解決方案。
② 數據質量測量
數據質量測量是圍繞業務需求設計數據評估維度和指標,利用數據質量管理工具完成對相關數據源的數據質量情況的評估,并根據測量結果歸類數據問題、分析引起數據問題的原因。第一,數據質量測量以數據質量問題對業務的影響分析為指導,清晰定義出待測量數據的范圍和優先級等重要參數。第二,采用自上而下和自下而上相結合的策略識別數據中的異常問題。自上而下的方法是以業務目標為出發點,對待測量的數據源進行評估和衡量;自下而上的方法是基于數據概要分析,識別數據源問題并將其映射到對業務目標的潛在影響上。第三,形成數據治理評估報告,通過該報告清楚列出數據質量的測量結果。
③ 根本原因分析
產生數據質量問題的原因有很多,但是有些原因僅是表象,并不是根本原因。要做好數據質量管理,應抓住影響數據質量的關鍵因素,設置質量管理點或質量控制點,從數據的源頭抓起,從根本上解決數據質量問題。
④ 實施改進方案
沒有一種通用的方案來保證企業每個業務每類數據的準確性和完整性。企業需要結合產生數據問題的根本原因以及數據對業務的影響程度,來定義數據質量規則和數據質量指標,形成一個符合企業業務需求的、獨一無二的數據質量改進方案,并立即付諸行動。
⑤ 控制數據質量
數據質量控制是在企業的數據環境中設置一道數據質量“防火墻”,以預防不良數據的產生。數據質量“防火墻”就是根據數據問題的根因分析和問題處理策略,在發生數據問題的入口設置的數據問題測量和監控程序,在數據環境的源頭或者上游進行的數據問題防治,從而避免不良數據向下游傳播并污染后續的存儲,進而影響業務。
(2)數據質量管理制度數據質量管理制度設置考核KPI,通過專項考核計分的方式對企業各業務域、各部門的數據質量管理情況進行評估。以數據質量的評估結果為依據,將問題數據歸結到相應的分類,并按所在分類的權值進行量化。總結發生數據質量問題的規律,利用數據質量管理工具定期對數據質量進行監控和測量,及時發現存在的數據質量問題,并督促落實改正。數據質量管理制度的作用在于約束各方加強數據質量意識,督促各方在日常工作中重視數據質量,在發現問題時能夠追根溯源、主動解決。 2)事中控制數據質量管理的事中控制是指在數據的維護和使用過程中監控和管理數據質量。通過建立數據質量的流程化控制體系,對數據的創建、變更、采集、清洗、轉換、裝載、分析等各個環節的數據質量進行控制

1、加強數據源頭的控制 從數據的源頭控制好數據質量,讓數據“規范化輸入、標準化輸出”是解決企業數據質量問題的關鍵所在。企業可以考慮從以下幾個方面做好源頭數據質量的管理。
(1)維護好數據字典數據字典是記錄標準數據、確保數據質量的重要工具。數據會隨著時間累積,如果數據積累在電子表格等非正式數據系統中,那么這些寶貴的數據就可能會存在一定的風險,例如可能會隨著關鍵員工的離職而丟失。通過建立企業級數據字典對企業的關鍵數據進行有效標識,并清晰、準確地對每個數據元素進行定義,可以消除不同部門、不同人員對數據可能的誤解,并讓企業在IT項目上節省大量時間和成本。
(2)自動化數據輸入數據質量差的一個根本原因是人為因素,手動輸入數據,很難避免數據錯誤。因此,企業應該考慮自動化輸入數據,以減少人為錯誤。一個方案,只要系統可以自動執行某些操作就值得實施,例如,根據關鍵字自動匹配客戶信息并自動帶入表單。
(3)自動化數據校驗對于疾病,預防比治療更容易,數據治理也一樣。我們可以通過預設的數據質量規則對輸入的數據進行自動化校驗,對于不符合質量規則的數據進行提醒或拒絕保存。數據質量校驗規則包括但不限于以下幾類。
數據類型正確性:數字、整數、文本、日期、參照、附件等。
數據去重校驗:完全重復的數據項、疑似重復的數據項等。
數據域值范圍:最大值、最小值、可接受的值、不可接受的值。
數據分類規則:用來確定數據屬于某個分類的規則,確保正確歸類。
單位是否正確:確保使用正確的計量單位。?
(4)人工干預審核數據質量審核是從源頭上控制數據質量的重要手段,采用流程驅動的數據管理模式,控制數據的新增和變更,每個操作都需要人工進行審核,只有審核通過數據才能生效。例如:供應商主數據發生新增或變更,就可以采用人工審核的方式來控制數據質量.
2、加強流轉過程的控制?
數據質量問題不止發生在源頭,如果以最終用戶為終點,那么數據采集、存儲、傳輸、處理、分析中的每一個環節都有可能出現數據質量問題。所以,要對數據全生命周期中的各個過程都做好數據質量的全面預防。數據流轉過程的質量控制策略如下。(1)數據采集在數據采集階段,可采用以下質量控制策略: 明確數據采集需求并形成確認單; 數據采集過程和模型的標準化; 數據源提供準確、及時、完整的數據; 將數據的新增和更改以消息的方式及時廣播到其他應用程序; 確保數據采集的詳細程度或粒度滿足業務的需要; 定義采集數據的每個數據元的可接受值域范圍; 確保數據采集工具、采集方法、采集流程已通過驗證。
(2)數據存儲
在數據存儲階段,可采用以下質量控制策略: 選擇適當的數據庫系統,設計合理的數據表; 將數據以適當的顆粒度進行存儲; 建立適當的數據保留時間表; 建立適當的數據所有權和查詢權限; 明確訪問和查詢數據的準則和方法。
(3)數據傳輸在數據傳輸階段,可采用以下質量控制策略: 明確數據傳輸邊界或數據傳輸限制; 保證數據傳輸的及時性、完整性、安全性; 保證數據傳輸過程的可靠性,確保傳輸過程數據不會被篡改;
明確數據傳輸技術和工具對數據質量的影響。
(4)數據處理在數據處理階段,可采用以下質量控制策略: 合理處理數據,確保數據處理符合業務目標; 重復值的處理; 缺失值的處理; 異常值的處理; 不一致數據的處理。?
(5)數據分析 確保數據分析的算法、公式和分析系統有效且準確; 確保要分析的數據完整且有效; 在可重現的情況下分析數據; 基于適當的顆粒度分析數據; 顯示適當的數據比較和關系。 事中控制的相關策略
? 3、事中控制的相關策略
(1)質量規則的持續更新
數據質量管理不是一次性的工作,而是一個不間斷的過程,企業需要定期檢查數據質量規則對業務的滿足度,并不斷改進它們。另外,企業和業務環境在不斷變化,因此企業需要提出新的數據質量規則來應對這些變化。
(2)數據質量的持續監控
DQAF給出了一種數據質量的持續監控方法,叫作聯機測量,它強調利用數據質量管理工具的自動化功能,將定義好的數據質量規則作用于數據測量對象(數據源),實現對數據質量有效性的持續性檢查,以便發現數據質量問題和確定改進方案。
(3)使用先進的技術
我們可以利用人工智能技術來進行數據質量監控、評價和改善,以應對不斷增加的數據和日趨復雜的數據環境等的挑戰。人工智能技術在數據質量管理中的應用包括:
更好地識別和解析企業的數據;更好地了解和量化數據質量;
更好地進行數據質量問題分析;
更好地進行數據匹配和刪除重復數據;
更好地豐富企業的數據。
(4)數據質量預警機制數據質量預警機制用于對在數據質量監控過程中發現的數據質量問題進行預警和提醒。例如,通過微信、短信的形式提醒數據管理員發生了數據質量問題,通過電子郵件的形式向數據管理員發送數據質量問題列表等,以便相關人員及時采取改善或補救措施。
(5)數據質量報告數據質量報告有利于清晰地顯示數據質量測量和評估情況,方便相關數據質量責任人分析數據問題,制定處理方案。數據質量報告有兩種常見的形式:一種是以儀表板的形式統計數據質量問題,顯示數據質量KPI,幫助數據管理者分析和定位數據質量問題;另一種是生成數據質量問題日志,該日志記錄了已知的數據問題,能夠幫助企業預防數
3)事后補救是不是做好了事前預防和事中控制就不會再有數據質量問題發生了?答案顯然是否定的。事實上,不論我們采取了多少預防措施、進行了多么嚴格的過程控制,數據問題總是還有 “漏網之魚”。你會發現只要是人為干預的過程,總會存在數據質量問題,即使拋開人為因素,數據質量問題也無法避免。為了盡可能減少數據質量問題,減輕數據質量問題對業務的影響,我們需要及時發現它并采取相應的補救措施。
1、定期質量監控 定期質量監控也叫定期數據測量,是對某些非關鍵性數據和不適合持續測量的數據定期重新評估,為數據所處狀態符合預期提供一定程度的保證。定期監控數據的狀況,為數據在某種程度上符合預期提供保障,發現數據質量問題及數據質量問題的變化,從而制定有效的改進措施。定期質量監控就像人們定期體檢一樣,定期檢查身體的健康狀態,當某次體檢數據發生明顯變化時,醫生就會知道有哪些數據出現異常,并根據這些異常數據采取適當的治療措施。對于數據也一樣,需要定期對企業數據治理進行全面“體檢”,找到問題的“病因”,以實現數據質量的持續提升。
2、數據問題補救 盡管數據質量控制可以在很大程度上起到控制和預防不良數據發生的作用,但事實上,再嚴格的質量控制也無法做到100%的數據問題防治,甚至過于嚴格的數據質量控制還會引起其他數據問題。因此,企業需要不時進行主動的數據清理和補救措施,以糾正現有的數據問題。
(1)清理重復數據對經數據質量檢核檢查出的重復數據進行人工或自動處理,處理的方法有刪除或合并。例如:對于兩條完全相同的重復記錄,刪除其中一條;如果重復的記錄不完全相同,則將兩條記錄合并為一條,或者只保留相對完整、準確的那條。(2)清理派生數據派生數據是由其他數據派生出來的數據,例如:“利潤率”就是在“利潤”的基礎上計算得出的,它就是派生數據。而一般情況下,存儲派生出的數據是多余的,不僅會增加存儲和維護成本,而且會增大數據出錯的風險。如果由于某種原因,利潤率的計算方式發生了變化,那么必須重新計算該值,這就會增加發生錯誤的機會。因此,需要對派生數據進行清理,可以存儲其相關算法和公式,而不是結果。
(3)缺失值處理處理缺失值的策略是對缺失值進行插補修復,有兩種方式:人工插補和自動插補。對于“小數據”的數據缺失值,一般采用人工插補的方式,例如主數據的完整性治理。而對于大數據的數據缺失值問題,一般采用自動插補的方式進行修復。(4)異常值處理異常值處理的核心是找到異常值。異常值的檢測方法有很多,大多要用到機器學習技術
3、持續改進優化 數據質量管理是個持續的良性循環,不斷進行測量、分析、探查和改進可全面改善企業的信息質量。通過對數據質量管理策略的不斷優化和改進,從對于數據問題甚至緊急的數據故障只能被動做出反應,過渡到主動預防和控制數據缺陷的發生。

經過數據質量測量、數據問題根因分析以及數據質量問題修復,我們可以回過頭來評估數據模型設計是否合理,是否還有優化和提升的空間,數據的新增、變更、采集、存儲、傳輸、處理、分析各個過程是否規范,預置的質量規則和閾值是否合理。如果模型和流程存在不合理的地方或可優化的空間,那么就實施這些優化。事后補救始終不是數據質量管理的最理想方式,建議堅持以預防為主的原則開展數據質量管理,并通過持續的數據質量測量和探查,不斷發現問題,改進方法,提升質量。
十.總結
數據質量影響的不僅是信息化建設的成敗,更是影響企業業務協同、管理創新、決策支持的核心要素。對于數據質量的管理,堅持“垃圾進,垃圾出”的總體思想,堅持“事前預防、事中控制、事后補救”的數據質量管理策略?,持續提升企業數據質量水平。盡管可能沒有一種真正的萬無一失的方法來防止所有數據質量問題,但是使數據質量成為企業數據環境DNA的一部分將在很大程度上能夠獲得業務用戶和領導的信任。隨著大數據的發展,企業用數需求與日俱增,解決數據質量問題變得比以往任何時候都重要。技術的發展、業務的變化、數據的增加讓企業的數據環境日益復雜多變。因此,企業的數據質量管理是一個持續的過程,永遠也不會出現所謂的“最佳時機”,換句話說,企業進行數據質量管理的最佳時機就是現在!