大數據的建設和管理是一個專業且復雜的工程,涵蓋了業務梳理、標準制定、
元數據管理、數據模型管理、數據匯聚、清洗加工、中心存儲、資源目錄編制、共享交換、數據維護、數據失效等等過程。在任何一個環節中出錯,都將導致數據的錯誤。甚至,源頭數據本身就是錯誤的。所以,
數據質量問題不僅僅是一個技術問題,它也可能出現在業務和管理的過程中。

1、數據質量的技術因素
數據標準制定的質量問題:數據輸入規范不統一,不同的業務部門、不同的時間、甚至在處理相同業務的時候,由于數據輸入規范不同,造成數據沖突或矛盾。如果在數據的生成過程中包含主觀判斷的結果,必然會導致數據中含有主觀的偏見因素。并且,不是所有行業都有公認可信的數據標準,而組織標準制定過程中容易出現數據元描述及理解錯誤,代碼碼集定義不正確、不完整等情況。
數據模型設計的質量問題:由于對業務理解的不到位或技術實踐水平不到位,數據庫表結構、數據庫約束條件、數據校驗規則的設計不合理,造成
數據存儲混亂、重復、不完整、不準確。
數據源本身存在質量問題:在生產系統中有些數據就存在不規范、不完整、不準確、不一致等問題,而采集過程沒有對這些問題做清洗加工處理,或清洗加工的程序代碼不正確。
數據梳理過程的質量問題:在
數據采集之前,需要梳理組織機構、業務事項、信息系統、數據資源清單等信息,那么對業務的理解不到位,將造成梳理報告的不完整或不正確。
數據采集過程的質量問題:采集點、采集頻率、采集內容、映射關系等采集參數和流程設置的不正確,數據采集接口效率低,導致的數據采集失敗、數據丟失、數據映射和轉換失敗。
數據清洗加工的質量問題:數據清洗規則、數據轉換規則、數據裝載規則配置有問題,甚至未按照數據標準開展相應的清洗加工工作,自由發揮的空間過大。并且在數據匯聚的過程中,沒有及時建立數據的相關性,導致后期很難補充完善。
2、數據質量的業務因素
業務理解不到位:數據的業務描述、業務規則、相關性分析不到位,導致技術無法構建出合理、正確的數據模型。
業務流程的變更:業務流程一變,數據模型設計、數據錄入、數據采集、數據傳輸、數據清洗、數據存儲等環節都會受到影響,稍有不慎就會導致數據質量問題的發生。
數據輸入不規范:常見的數據錄入問題,如:大小寫、全半角、特殊字符等一不小心就會錄錯,甚至還會將數據輸入到錯誤的字段中,造成“張冠李戴”。人工錄入的數據質量與錄數據的業務人員密切相關,錄數據的人工作嚴謹、認真,數據質量就相對較好,反之就較差。
業務系統煙囪林立:過去 20 年中,只要是稍大一點的企業和政府部門,都建設了一批信息化系統來解決業務問題,但也導致了如今信息化整合的痛點和困難,變先發優勢為數據困境。
數據作假:操作人員為了提高或降低考核指標,對一些數據進行處理,使得數據真實性無法保證。
3、數據質量的管理因素
人才缺乏:組織以自身的業務發展的主要原則組建團隊,數據建設則依賴于外部服務公司,而自身沒有建立相應的管理手段和監督機制,從而無法準確判斷數據項目的建設成效。
流程管理不完善:缺乏有效的數據質量保障機制和問題處理機制,數據質量問題從發現、指派、處理、優化沒有一個統一的流程和制度支撐,數據質量問題無法閉環。
成員意識不開放:組織管理缺乏數據思維,沒有認識到數據質量的重要性,重系統而輕數據,認為系統是萬能的,數據質量差些也沒關系。組織成員沒有從組織戰略的視角來看待數據資產,而把數據看成是創造它的部門的資產,從而導致數據冗余、數據不一致、數據割裂,從而導致
數據價值難以發掘。
獎懲機制不明確:沒有明確數據歸口管理部門或崗位,缺乏數據認責機制,出現數據質量問題找不到權威源頭或找不到負責人。缺乏數據規劃,沒有明確的數據質量目標,沒有制定數據質量相關的政策和制度。
(部分內容來源網絡,如有侵權請聯系刪除)