一、前言
數(shù)據(jù)質(zhì)量保障的關(guān)鍵的步驟是數(shù)據(jù)質(zhì)量規(guī)則、數(shù)據(jù)質(zhì)量指標(biāo),數(shù)據(jù)探查,數(shù)據(jù)保障機(jī)制和數(shù)據(jù)清洗,不管是在做數(shù)據(jù)質(zhì)量或者打算做數(shù)據(jù)質(zhì)量工作的朋友都可以詳細(xì)研究下,應(yīng)該會(huì)有幫助。

二、數(shù)據(jù)質(zhì)量基礎(chǔ)
數(shù)據(jù)質(zhì)量管理(Data Quality Management),是指對(duì)數(shù)據(jù)從計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。
數(shù)據(jù)質(zhì)量最關(guān)鍵的6個(gè)維度:
1)完整性:指數(shù)據(jù)在錄入、傳遞過程中無缺失和遺漏,包括實(shí)體完整、屬性完整、記錄完整和字段值完整四個(gè)方面。
2)及時(shí)性:指及時(shí)記錄和傳遞相關(guān)數(shù)據(jù),滿足業(yè)務(wù)對(duì)信息獲取的時(shí)間要求。
3)有效性:指數(shù)據(jù)的值、格式和展現(xiàn)形式符合數(shù)據(jù)定義和業(yè)務(wù)定義的要求。
4)一致性:指遵循統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)記錄和傳遞數(shù)據(jù)和信息,主要體現(xiàn)在數(shù)據(jù)
記錄是否規(guī)范、數(shù)據(jù)是否符合邏輯。
5)唯一性:指同一數(shù)據(jù)只能有唯一的標(biāo)識(shí)符。
6)準(zhǔn)確性:指真實(shí)地、準(zhǔn)確地記錄原始數(shù)據(jù),無虛假數(shù)據(jù)及信息。
三、數(shù)據(jù)質(zhì)量規(guī)則,數(shù)據(jù)質(zhì)量指標(biāo)
數(shù)據(jù)質(zhì)量規(guī)則是數(shù)據(jù)質(zhì)量最核心的內(nèi)容,數(shù)據(jù)質(zhì)量規(guī)則和指標(biāo)設(shè)計(jì)的全與不全,是否合理,決定了數(shù)據(jù)的質(zhì)量的好壞。下面是我根據(jù)華為數(shù)據(jù)之道和工業(yè)企業(yè)數(shù)字化轉(zhuǎn)型之道加上我的經(jīng)驗(yàn)綜合出來的一個(gè)版本,如果這些規(guī)則都用到位,數(shù)據(jù)質(zhì)量應(yīng)該是有保障的。
|
對(duì)象
|
質(zhì)量特性
|
規(guī)則類型
|
指標(biāo)
|
|
單列
|
完整性
|
不可為空類
|
空值率
|
|
有效性
|
語法約束類
|
1-樣本記錄異常值比率
|
|
有效性
|
格式規(guī)范類
|
|
|
有效性
|
長度約束類
|
|
|
有效性
|
值域約束類
|
|
|
準(zhǔn)確性
|
事實(shí)參照標(biāo)準(zhǔn)類
|
樣本記錄中真實(shí)記錄的比率
|
|
跨列
|
完整性
|
應(yīng)為空值類
|
|
|
及時(shí)性
|
入庫及時(shí)類
|
滿足時(shí)間要求的樣本記錄的比率
|
|
一致性
|
單表等值一致約束類
|
|
|
一致性
|
單表邏輯一致約束類
|
|
|
跨行
|
唯一性
|
記錄唯一類
|
|
|
一致性
|
層級(jí)結(jié)構(gòu)一致約束
|
|
|
跨表
|
一致性
|
外關(guān)聯(lián)約束類
|
外鍵無對(duì)應(yīng)主鍵的樣本記錄比率
|
|
一致性
|
跨表等值一致約束類
|
|
|
一致性
|
跨表邏輯一致約束類
|
|
|
跨系統(tǒng)
|
一致性
|
跨系統(tǒng)記錄一致約束類
|
樣本記錄與其它系統(tǒng)的匹配率
|
|
及時(shí)性
|
入庫及時(shí)類
|
滿足時(shí)間要求的樣本記錄的比率
|
四、數(shù)據(jù)探查
數(shù)據(jù)探查是數(shù)據(jù)質(zhì)量保障非常重要要的一步,他是設(shè)計(jì)的基礎(chǔ),排除客觀原因,好的效率和質(zhì)量是可以通過設(shè)計(jì)來提升的,如果沒有數(shù)據(jù)探查,一般情況下數(shù)據(jù)類項(xiàng)目都會(huì)反復(fù)多次,有可能影響人員變動(dòng),交接困難,維護(hù)困難,項(xiàng)目完成周期長等問題。
下面只是其中幾個(gè)方面的數(shù)據(jù)探查,供參考,具體案例,請(qǐng)?jiān)诠娞?hào)獲取。
探查出的常見問題和分類請(qǐng)?jiān)诠娞?hào)獲取。
|
探查項(xiàng)
|
分析意義
|
分析點(diǎn)
|
分析點(diǎn)解釋
|
|
完整性分析
|
保證分析的可靠性
|
空值記錄數(shù)
|
探查字段在探查時(shí)間點(diǎn)沒有值的記錄條數(shù)
|
|
總記錄數(shù)
|
探查字段在探查時(shí)間點(diǎn)總記錄數(shù)
|
|
缺失率
|
探查字段在探查時(shí)間點(diǎn)缺失信息記錄數(shù)占總記錄數(shù)的比重
|
|
空值預(yù)警
|
探查字段在探查時(shí)間點(diǎn)缺失率高于10%則提出預(yù)警
|
|
主鍵唯一性
|
探查主鍵字段在探查時(shí)間點(diǎn)是否有重復(fù)記錄
|
|
值域分析
|
分析是否有異常數(shù)據(jù)
|
最大值
|
數(shù)值型,日期型字段在探查時(shí)間點(diǎn)的最大值
|
|
最小值
|
數(shù)值型,日期型字段在探查時(shí)間點(diǎn)的最小值
|
|
枚舉值分析
|
列出檢測(cè)字段所有的枚舉值
|
枚舉范圍
|
屬性字段的枚舉值定義
|
|
枚舉實(shí)際范圍值
|
屬性字段在探查時(shí)間點(diǎn)實(shí)際的枚舉值及其分布
|
|
異常比例
|
探查時(shí)間點(diǎn),不在枚舉定義范圍的枚舉值占總記錄數(shù)的比重
|
|
邏輯性探查
|
|
業(yè)務(wù)邏輯點(diǎn)
|
根據(jù)業(yè)務(wù)邏輯探查字段是否遵循業(yè)務(wù)邏輯
|
五、數(shù)據(jù)質(zhì)量保障機(jī)制
數(shù)據(jù)質(zhì)量持續(xù)提升就要靠保障機(jī)制了,只有自動(dòng)化,常態(tài)化,持續(xù)監(jiān)控?cái)?shù)據(jù)質(zhì)量,才能不斷提升數(shù)據(jù)的質(zhì)量,數(shù)據(jù)質(zhì)量保障主要有如下幾個(gè)關(guān)鍵步驟:
設(shè)計(jì)量化指標(biāo)—>設(shè)計(jì)質(zhì)量打分細(xì)則->設(shè)計(jì)分值考核->異常數(shù)據(jù)監(jiān)控->指標(biāo)展現(xiàn)->按規(guī)則推送提醒相關(guān)負(fù)責(zé)人

例:空值率>5%,記1分,每日空值率指標(biāo)預(yù)警,每日全部門通報(bào),影響年底考核。
此部分需要根據(jù)公司實(shí)際情況詳細(xì)設(shè)計(jì)。
六、數(shù)據(jù)清洗
數(shù)據(jù)清洗(Data cleaning)– 對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)一致性。主要有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類;
如果前端控制不到位,又想有高質(zhì)量的數(shù)據(jù),只能靠數(shù)據(jù)清洗,數(shù)據(jù)清洗是存量數(shù)據(jù)質(zhì)量提升的關(guān)鍵步驟,數(shù)據(jù)清洗后的數(shù)據(jù)可以更好的支持數(shù)據(jù)分析,數(shù)據(jù)洞見。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)