大數(shù)據時代,數(shù)據資產及其價值利用能力逐漸成為構成企業(yè)核心競爭力的關鍵要素;然而,大
數(shù)據應用必須建立在質量可靠的數(shù)據之上才有意義,建立在低質量甚至錯誤數(shù)據之上的應用有可能與其初心南轅北轍、背道而馳。因此,數(shù)據質量正是企業(yè)應用數(shù)據的瓶頸,高質量的數(shù)據可以決定數(shù)據應用的上限,而低質量的數(shù)據則必然拉低數(shù)據應用的下限。
01. 數(shù)據質量定義
數(shù)據質量的高低代表了該數(shù)據滿足數(shù)據消費者期望的程度,這種程度基于他們對數(shù)據的使用預期。數(shù)據質量必須是可測量的,把測量的結果轉化為可以理解的和可重復的數(shù)字,使我們能夠在不同對象之間和跨越不同時間進行比較。 數(shù)據質量管理是通過計劃、實施和控制活動,運用質量管理技術度量、評估、改進和保證數(shù)據的恰當使用。
02. 數(shù)據質量維度
1、準確性:數(shù)據不正確或描述對象過期
2、合規(guī)性:數(shù)據是否以非標準格式存儲
3、完備性:數(shù)據不存在
4、及時性:關鍵數(shù)據是否能夠及時傳遞到目標位置
5、一致性:數(shù)據沖突
6、重復性:記錄了重復數(shù)據
03. 數(shù)據質量分析
數(shù)據質量分析的主要任務就是檢查數(shù)據中是否存在臟數(shù)據,臟數(shù)據一般是指不符合要求以及不能直接進行相關分析的數(shù)據。臟數(shù)據包括以下內容:
1、缺省值
2、異常值
3、不一致的值
4、重復數(shù)據以及含有特殊符號(如#、¥、*)的數(shù)據
我們已經知道了臟數(shù)據有4個方面的內容,接下來我們逐一來看這些數(shù)據的產生原因,影響以及解決辦法。
第一、缺省值分析
產生原因:
1、有些信息暫時無法獲取,或者獲取信息的代價太大
2、有些信息是被遺漏的,人為或者信息采集機器故障
3、屬性值不存在,比如一個未婚者配偶的姓名、一個兒童的固定收入
影響:
1、會丟失大量的有用信息
2、數(shù)據額挖掘模型表現(xiàn)出的不確定性更加顯著,模型中蘊含的規(guī)律更加難以把握
3、包含空值的數(shù)據回事建模過程陷入混亂,導致不可靠輸出
解決辦法:
通過簡單的統(tǒng)計分析,可以得到含有缺失值的屬性個數(shù),以及每個屬性的未缺失數(shù)、缺失數(shù)和缺失率。刪除含有缺失值的記錄、對可能值進行插補和不處理三種情況。
第二、異常值分析
產生原因:
業(yè)務系統(tǒng)檢查不充分,導致異常數(shù)據輸入數(shù)據庫
影響:
不對異常值進行處理會導致整個分析過程的結果出現(xiàn)很大偏差
解決辦法:
可以先對變量做一個描述性統(tǒng)計,進而查看哪些數(shù)據是不合理的。最常用的統(tǒng)計量是最大值和最小值,用力啊判斷這個變量是否超出了合理的范圍。如果數(shù)據是符合正態(tài)分布,在原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值,如果不符合正態(tài)分布,也可以用原理平均值的多少倍標準差來描述。
第三、不一致值分析
產生原因:
不一致的數(shù)據產生主要發(fā)生在
數(shù)據集成過程中,這可能是由于被挖掘的數(shù)據是來自不同的數(shù)據源、對于重復性存放的數(shù)據未能進行一致性更新造成。例如,兩張表中都存儲了用戶的電話號碼,但在用戶的號碼發(fā)生改變時只更新了一張表中的數(shù)據,那么兩張表中就有了不一致的數(shù)據。
影響:
直接對不一致的數(shù)據進行數(shù)據挖掘,可能會產生與實際相悖的數(shù)據挖掘結果。
解決辦法:
注意數(shù)據抽取的規(guī)則,對于業(yè)務系統(tǒng)數(shù)據變動的控制應該保證
數(shù)據倉庫中數(shù)據抽取最新數(shù)據
第四、重復數(shù)據及特殊數(shù)據
產生原因:
業(yè)務系統(tǒng)中未進行檢查,用戶在錄入數(shù)據時多次保存。或者因為年度數(shù)據清理導致。特殊字符主要在輸入時攜帶進入數(shù)據庫系統(tǒng)。
影響:
統(tǒng)計結果不準確,造成數(shù)據倉庫中無法統(tǒng)計數(shù)據
解決辦法:
在ETL過程中過濾這一部分數(shù)據,特殊數(shù)據進行數(shù)據轉換。
04. 數(shù)據質量管理
大多數(shù)企業(yè)都沒有一個很好的數(shù)據質量管理的機制,因為他們不理解其數(shù)據的價值,并且他們不認為數(shù)據是一個組織的資產,而把數(shù)據看作創(chuàng)建它的部門領域內的東西。缺乏數(shù)據質量管理將導致臟數(shù)據、冗余數(shù)據、不一致數(shù)據、無法整合、性能底下、可用性差、責任缺失、使用系統(tǒng)用戶日益不滿意IT的性能。
在做
數(shù)據分析之前一般都應該初步對數(shù)據進行評估。初步數(shù)據評估通過數(shù)據報告來完成的,數(shù)據報告通常在準備把數(shù)據存入數(shù)據倉庫是做一次,它是全面跨數(shù)據集的,它描述了數(shù)據結構、內容、規(guī)則、和關系的概況。通過應用統(tǒng)計方法返回一組關于數(shù)據的標準特征,包括數(shù)據類型、字段長度、列基數(shù)、粒度、值、格式、模式、規(guī)則、跨列和跨表的數(shù)據關系,以及這些關系的基數(shù)。初步評估報告的目的是獲得對數(shù)據和環(huán)境的了解,并對數(shù)據的狀況進行描述。
數(shù)據質量管理的50個檢查項,如下表:
寫在最后的話
數(shù)據報告中列出了很多的檢查項都是圍繞數(shù)據質量管理相關的檢查,所以做一個數(shù)據分析項目前一定要知道客戶的數(shù)據質量情況。如果數(shù)據質量很糟糕,最終影響的是項目分析的實際效果。例如,用戶業(yè)務系統(tǒng)中客戶信息只輸入了客戶名稱,要分析客戶類型就會存在缺省值。當然有一些維度屬性我們可以通過事實表反算數(shù)據進入維度表來補充維度屬性。個人建議在數(shù)據分析項目中一定要對維度屬性進行評估,在項目處理前利用簡單的模型告訴客戶能夠出具的效果。
(部分內容來源網絡,如有侵權請聯(lián)系刪除)