對于一個公司來說,最重要的資產(chǎn)是數(shù)據(jù),數(shù)據(jù)的核心價值可以理解為核心商業(yè)價值,我個人認(rèn)為是體現(xiàn)在兩方面,一是能為企業(yè)帶來更多的盈利,二是能為企業(yè)規(guī)避風(fēng)險。實現(xiàn)數(shù)據(jù)價值就需要進(jìn)行業(yè)務(wù)數(shù)據(jù)分析和價值挖掘,對于大多數(shù)數(shù)據(jù)分析師來說,數(shù)據(jù)分析方法和技術(shù)都不存在問題,只要有干凈完備的數(shù)據(jù),數(shù)據(jù)價值都可以得到呈現(xiàn),但是如果數(shù)據(jù)本身是錯的,分析出來的結(jié)論未必有用,保證數(shù)據(jù)質(zhì)量是大數(shù)據(jù)為企業(yè)帶來價值的先決條件。
一、什么是數(shù)據(jù)質(zhì)量管理
數(shù)據(jù)質(zhì)量(DataQuality)管理是貫穿數(shù)據(jù)生命周期的全過程,覆蓋質(zhì)量評估,數(shù)據(jù)去噪,數(shù)據(jù)監(jiān)控,數(shù)據(jù)探查,數(shù)據(jù)清洗,數(shù)據(jù)診斷等方面。數(shù)據(jù)度量和變化頻度提供了衡量數(shù)據(jù)質(zhì)量好壞的手段。數(shù)據(jù)度量主要包括完整性、唯一性、一致性、準(zhǔn)確性、合法性。變化頻度主要包括業(yè)務(wù)系統(tǒng)數(shù)據(jù)的變化周期和實體數(shù)據(jù)的刷新周期。
數(shù)據(jù)質(zhì)量管理準(zhǔn)則包括測量、提高組織數(shù)據(jù)的質(zhì)量和整合性的方法。數(shù)據(jù)質(zhì)量處理包括數(shù)據(jù)標(biāo)準(zhǔn)化、匹配、生存和質(zhì)量監(jiān)測。數(shù)據(jù)必須具備適當(dāng)?shù)馁|(zhì)量,以解決業(yè)務(wù)要求問題。
二、數(shù)據(jù)質(zhì)量管理的目的
解決企業(yè)內(nèi)部數(shù)據(jù)使用過程中遇到的數(shù)據(jù)質(zhì)量問題,提升數(shù)據(jù)的完整性、準(zhǔn)確性和真實性,為企業(yè)的日常經(jīng)營、精準(zhǔn)營銷、管理決策、風(fēng)險管控等提供堅實、可靠的數(shù)據(jù)基礎(chǔ)。
三、數(shù)據(jù)質(zhì)量問題根因分析
1、業(yè)務(wù)方面
1)業(yè)務(wù)需求不清晰,例如:數(shù)據(jù)的業(yè)務(wù)描述、業(yè)務(wù)規(guī)則不清晰,導(dǎo)致技術(shù)無法構(gòu)建出合理、正確的數(shù)據(jù)模型。
2)業(yè)務(wù)需求的變更,這個問題其實是對數(shù)據(jù)質(zhì)量影響非常大的,需求一變,數(shù)據(jù)模型設(shè)計、數(shù)據(jù)錄入、數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)裝載、數(shù)據(jù)存儲等環(huán)節(jié)都會受到影響,稍有不慎就會導(dǎo)致數(shù)據(jù)質(zhì)量問題的發(fā)生。
3)業(yè)務(wù)端數(shù)據(jù)輸入不規(guī)范,常見的數(shù)據(jù)錄入問題,如:大小寫、全半角、特殊字符等一不小心就會錄錯。人工錄入的數(shù)據(jù)質(zhì)量與錄數(shù)據(jù)的業(yè)務(wù)人員密切相關(guān),錄數(shù)據(jù)的人工作嚴(yán)謹(jǐn)、認(rèn)真,數(shù)據(jù)質(zhì)量就相對較好,反之就較差。
4)數(shù)據(jù)作假,操作人員為了提高或降低考核指標(biāo),對一些數(shù)據(jù)進(jìn)行處理,使得數(shù)據(jù)真實性無法保證。
2、管理方面
1)認(rèn)知問題。企業(yè)管理缺乏數(shù)據(jù)思維,沒有認(rèn)識到數(shù)據(jù)質(zhì)量的重要性,重系統(tǒng)而輕數(shù)據(jù),認(rèn)為系統(tǒng)是萬能的,數(shù)據(jù)質(zhì)量差些也沒關(guān)系。
2)沒有明確數(shù)據(jù)歸口管理部門或崗位,缺乏數(shù)據(jù)認(rèn)責(zé)機制,出現(xiàn)數(shù)據(jù)質(zhì)量問題找不到負(fù)責(zé)人。
3)缺乏數(shù)據(jù)規(guī)劃,沒有明確的數(shù)據(jù)質(zhì)量目標(biāo),沒有制定數(shù)據(jù)質(zhì)量相關(guān)的政策和制度。
4)數(shù)據(jù)輸入規(guī)范不統(tǒng)一,不同的業(yè)務(wù)部門、不同的時間、甚至在處理相同業(yè)務(wù)的時候,由于數(shù)據(jù)輸入規(guī)范不同,造成數(shù)據(jù)沖突或矛盾。
5)缺乏有效的數(shù)據(jù)質(zhì)量問題處理機制,數(shù)據(jù)質(zhì)量問題從發(fā)現(xiàn)、指派、處理、優(yōu)化沒有一個統(tǒng)一的流程和制度支撐,數(shù)據(jù)質(zhì)量問題無法閉環(huán)。
6)缺乏有效的數(shù)據(jù)管控機制,對歷史數(shù)據(jù)質(zhì)量檢查、新增數(shù)據(jù)質(zhì)量校驗沒有明確和有效的控制措施,出現(xiàn)數(shù)據(jù)質(zhì)量問題無法考核。
3、技術(shù)方面
1)數(shù)據(jù)模型設(shè)計的質(zhì)量問題,例如:數(shù)據(jù)庫表結(jié)構(gòu)、數(shù)據(jù)庫約束條件、數(shù)據(jù)校驗規(guī)則的設(shè)計開發(fā)不合理,造成數(shù)據(jù)錄入無法校驗或校驗不當(dāng),引起數(shù)據(jù)重復(fù)、不完整、不準(zhǔn)確。
2)數(shù)據(jù)源存在數(shù)據(jù)質(zhì)量問題,例如:有些數(shù)據(jù)是從生產(chǎn)系統(tǒng)采集過來的,在生產(chǎn)系統(tǒng)中這些數(shù)據(jù)就存在重復(fù)、不完整、不準(zhǔn)確等問題,而采集過程有沒有對這些問題做清洗處理,這種情況也比較常見。
3)數(shù)據(jù)采集過程質(zhì)量問題, 例如:采集點、采集頻率、采集內(nèi)容、映射關(guān)系等采集參數(shù)和流程設(shè)置的不正確,數(shù)據(jù)采集接口效率低,導(dǎo)致的數(shù)據(jù)采集失敗、數(shù)據(jù)丟失、數(shù)據(jù)映射和轉(zhuǎn)換失敗。
4)數(shù)據(jù)傳輸過程的問題,例如:數(shù)據(jù)接口本身存在問題、數(shù)據(jù)接口參數(shù)配置錯誤、網(wǎng)絡(luò)不可靠等都會造成數(shù)據(jù)傳輸過程中的發(fā)生數(shù)據(jù)質(zhì)量問題。
5)數(shù)據(jù)裝載過程的問題,例如:數(shù)據(jù)清洗規(guī)則、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)裝載規(guī)則配置有問題。
6)數(shù)據(jù)存儲的質(zhì)量問題,例如:數(shù)據(jù)存儲設(shè)計不合理,數(shù)據(jù)的存儲能力有限,人為后臺調(diào)整數(shù)據(jù),引起的數(shù)據(jù)丟失、數(shù)據(jù)無效、數(shù)據(jù)失真、記錄重復(fù)。
7)業(yè)務(wù)系統(tǒng)各自為政,煙囪式建設(shè),系統(tǒng)之間的數(shù)據(jù)不一致問題嚴(yán)重。
四、如何進(jìn)行數(shù)據(jù)質(zhì)量管理
1、數(shù)據(jù)分析
數(shù)據(jù)分析的兩種方法;
數(shù)據(jù)挖掘:幫助在大型數(shù)據(jù)集中發(fā)現(xiàn)特定的數(shù)據(jù)模式,可以通過數(shù)據(jù)挖掘來發(fā)現(xiàn)屬性間的一些完整性約束如函數(shù)依賴和商業(yè)規(guī)則。
數(shù)據(jù)派生:主要對單獨的某個屬性進(jìn)行實例分析。數(shù)據(jù)派生可以得到關(guān)于屬性的很多信息,比如數(shù)據(jù)類型,長度,取值空間,離散值,他們的出現(xiàn)頻率和不同值的個數(shù)等,通過應(yīng)用統(tǒng)計技術(shù),可以得到屬性間的平均值,中間值標(biāo)準(zhǔn)差等。
2、定義清洗轉(zhuǎn)換規(guī)則與工作流
根據(jù)數(shù)據(jù)源中不一致數(shù)據(jù)和“臟數(shù)據(jù)”多少的程度,需要執(zhí)行大量的數(shù)據(jù)轉(zhuǎn)換和清洗步驟。
3、驗證
定義的清洗規(guī)則和工作流的正確性和效率應(yīng)該進(jìn)行驗證和評估,真正的數(shù)據(jù)清洗過程需多次迭代的進(jìn)行分析設(shè)計和驗證。
4、清洗數(shù)據(jù)中的錯誤
注意先備份源數(shù)據(jù)。
5、干凈數(shù)據(jù)回流
干凈的數(shù)據(jù)替換數(shù)據(jù)源中原來的“臟數(shù)據(jù)”