隨著三網融合、移動互聯網、云計算、物聯網的快速發展,數據的生產者、生產環節都在急速攀升,隨之快速產生的數據呈指數級增長。在信息和網絡技術飛速發展的今天,越來越多的企業業務和社會活動實現了數字化。全球最大的零售商沃爾瑪,每天通過分布在世界各地的6000多家商店向全球客戶銷售超過2.67億件商品,每小時獲得2.5PB的交易數據。而物聯網下的傳感數據也慢慢發展成了大數據的主要來源之一。有研究估計,2015年全球數據量為8ZB,而到2020年則高達35.2ZB,是2015年數據量的44倍之多。此外,隨著移動互聯網、web2.0技術和電子商務技術的飛速發展,大量的多媒體內容在指數增長的數據量中發揮著重要作用。

大數據時代下的數據與傳統數據呈現出了重大差別,直接影響到數據在流轉環節中的各個方面,給
數據存儲處理分析性能、
數據質量保障都帶來了很大挑戰。大數據與傳統數據對比如表1所示。
由于以上特性,大數據的信息系統更容易產生數據質量問題:
(1)在數據收集方面,大數據的多樣性決定了數據來源的復雜性。來源眾多、結構各異、大量不同的數據源之間存在著沖突、不一致或相互矛盾的現象。在數據獲取階段保證數據定義的完整性、數據質量的可靠性尤為必要。
大數據與傳統數據特點對比
理,遠遠處理不了大數據環境下的數據問題。
(3)由于高速性,數據的大量更新會導致過時數據迅速產生,也更易產生不一致數據。
(4)由于發展迅速,市場龐大,廠商眾多,直接產生的數據或者產品產生的
數據標準不完善,使得數據有更大的可能產生不一致和沖突。
(5)由于數據生產源頭激增,產生的數據來源眾多,結構各異,以及系統更新升級加快和應用技術更新換代頻繁,使得不同的數據源之間、相同的數據源之間都可能存在著沖突、不一致或相互矛盾的現象,再加上數據收集與集成往往由多個團隊協作完成,期間增大了數據處理過程中產生問題數據的概率。
(部分內容來源網絡,如有侵權請聯系刪除)