基于實(shí)踐中遇到的大量而廣泛的
數(shù)據(jù)質(zhì)量問題,我們從人員、流程、技術(shù)和信息等多個(gè)方面總結(jié)了引起數(shù)據(jù)質(zhì)量問題的十個(gè)常見原因。
1、數(shù)據(jù)的多源性:當(dāng)同一個(gè)數(shù)據(jù)有多個(gè)數(shù)據(jù)來源時(shí),很可能會導(dǎo)致不同的值,這在系統(tǒng)設(shè)計(jì)和業(yè)務(wù)流程設(shè)計(jì)時(shí)都可能會引起這一問題。但是,很多企業(yè)往往會忽視數(shù)據(jù)多源性這個(gè)根源,因?yàn)槠髽I(yè)內(nèi)部的多個(gè)數(shù)據(jù)生產(chǎn)流程絕大部分時(shí)間依舊是獨(dú)立運(yùn)作,持續(xù)地產(chǎn)生著不同的數(shù)據(jù)值,導(dǎo)致這個(gè)根源很難被直接察覺。
2、數(shù)據(jù)生成過程中的主觀判斷:如果在數(shù)據(jù)的生成過程中包含主觀判斷結(jié)果,那么會導(dǎo)致數(shù)據(jù)中含有主觀偏見因素。通常認(rèn)為存儲在數(shù)據(jù)庫中的數(shù)據(jù)都是客觀事實(shí),卻忽略了采集這些“事實(shí)”的過程可能存在主觀的判斷。
3、計(jì)算資源有限:缺乏足夠的計(jì)算資源會限制相關(guān)數(shù)據(jù)的可訪問性。
4、安全性和可訪問性之間的權(quán)衡:數(shù)據(jù)的可訪問性與數(shù)據(jù)的安全性、隱私和保密性本質(zhì)上是矛盾的。對數(shù)據(jù)消費(fèi)者而言,必須能夠訪問高質(zhì)量的數(shù)據(jù);同時(shí),出于保護(hù)隱私、保密和安全性的考量,必須對訪問設(shè)置權(quán)限。因此,高質(zhì)量的數(shù)據(jù)可訪問性與數(shù)據(jù)的安全性之間就產(chǎn)生了沖突。
5、跨學(xué)科的數(shù)據(jù)編碼:由于缺乏不同專業(yè)領(lǐng)域的數(shù)據(jù)編碼互相映射或缺乏可解釋性,因此對于不同專業(yè)領(lǐng)域的編碼總是難以辨識和理解,這也導(dǎo)致了
數(shù)據(jù)采集的不全面和檢索不到相應(yīng)的信息。
6、復(fù)雜數(shù)據(jù)的表示方法:對于文本和圖像數(shù)據(jù)等數(shù)據(jù),其可分析性很差且沒有定義屬性,不能進(jìn)行匯總、處理數(shù)據(jù)以及判斷變化的趨勢,為數(shù)據(jù)的處理帶來不便。
7、數(shù)據(jù)量過大:過大數(shù)據(jù)量會使數(shù)據(jù)消費(fèi)者難以在合理的時(shí)間內(nèi)獲得所需的數(shù)據(jù)。
8、輸入規(guī)則過于嚴(yán)苛或被忽視:過于嚴(yán)苛的數(shù)據(jù)庫編寫規(guī)則或不必要的數(shù)據(jù)輸入規(guī)則引入,都可能會導(dǎo)致某些重要數(shù)據(jù)的丟失,或者產(chǎn)生錯(cuò)誤的數(shù)據(jù)。這是因?yàn)閿?shù)據(jù)采集者可能為了遵守這些規(guī)則,隨意改變某個(gè)或某些字段的值,或者由于某些值無法輸入對應(yīng)的字段而丟棄整條記錄。
9、數(shù)據(jù)需求的改變:當(dāng)數(shù)據(jù)消費(fèi)者的任務(wù)和組織環(huán)境發(fā)生變化時(shí),所謂“有用的”數(shù)據(jù)也隨之改變,只有滿足數(shù)據(jù)消費(fèi)者需求的數(shù)據(jù)才是高質(zhì)量的數(shù)據(jù)。
10、分布式異構(gòu)系統(tǒng):對于分布式、異構(gòu)的數(shù)據(jù)系統(tǒng),缺乏適當(dāng)?shù)恼蠙C(jī)制會導(dǎo)致其內(nèi)部出現(xiàn)數(shù)據(jù)定義、格式、規(guī)則和值的不一致性。跨系統(tǒng)的查詢和匯總數(shù)據(jù)往往需要太多的時(shí)間,降低了數(shù)據(jù)的可訪問性。
在對這十大類根源問題進(jìn)行分析后,可以制訂相應(yīng)的干預(yù)方案。比如針對數(shù)據(jù)多樣來源,我們可以制定一些規(guī)則,只保留一個(gè)數(shù)據(jù)源、只允許更新這個(gè)數(shù)據(jù)源的數(shù)據(jù),并只從這個(gè)數(shù)據(jù)源向其他副本同步數(shù)據(jù),如設(shè)定企業(yè)標(biāo)準(zhǔn)并建立好映射,來辨別同義詞和同形異義詞等。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)