- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-04-17來源:常山瀏覽數:1125次
大家周末好,我是志明。
今天回憶并記錄一下前幾天群里看見的某個話題討論。
1、有位讀者問道:“為什么數據質量維度同時包括準確性和一致性,不應該是準確性包括一致性嗎,總感覺在中文字面上這兩個詞有重疊的地方”
聊天截圖如下:

2、第一眼看見這個問題,感覺這是一道語文題,有點咬文嚼字的感覺,就是問的“準確性”和“一致性”的各是什么意思嘛?
3、先看看百度的解釋:

https://baike.baidu.com/item/%E5%87%86%E7%A1%AE%E6%80%A7/5977032
https://baike.baidu.com/item/%E4%B8%80%E8%87%B4%E6%80%A7/9840083
4、再看看DAMA-DMBOK2的解釋:

DAMA-DMBOK2 中文版?P353

DAMA-DMBOK2 中文版?P353

DAMA-DMBOK2 中文版?P354
5、以上文字描述恐怕大部分人看完都是不太理解或一臉懵,特別是DAMA-DMBOK2的解釋,畢竟那些文字都是從英文原版書中直譯過來的。
6、我的理解:一致性關注點在數據是否合規,即是否負責遵循統一的規范和是否符合邏輯;而準確性則側重于關注數據的真實性,是否正確,是否存在異常。
7、舉個例子吧,比如某通訊錄表中數據如下:

一般人看這行數據并沒有問題,但是有經驗的人可能可以一樣發現這行數據存在的問題。
這行數據的“聯系電話”為“13800138000”,“一致性”是沒問題的,因為符合手機號的格式,也是一個正常的手機號,但是準確性就有問題了,因為眾所周知“13800138000”在早些年是中國移動手機充值卡充值電話,后在2015年10月1日起停止服務(http://www.chinamobile.com/aboutus/news/pannounce/gx/index_771_771_detail_29736.html),即便是停止服務了,該號碼也應該屬于中國移動內部保留號碼,不會向公眾開放選用,所以數據中這個值是肯定不正確的,符合”一致性”但有違“準確性”。
8、再舉個例子,比如某用戶信息數據如下:

以上主要關注“聯系電話”和“有效期”兩個字段值。
直觀的可以看出,聯系電話是不準確的,且不符合正常電話號的規則,除了滿足中國大陸手機號的位數,即“聯系電話”違反“一致性”和“準確性”,如果要防止此類臟數據入庫,可能上游系統需要優化聯系電話的校驗規則(如選用更通用的正則表達式),不能僅僅是11位數字就讓通過校驗。
再看“有效期”,從挨著的“注冊日期”字段可以分析出,這里的日期類型存儲的值為“yyyyMMdd”格式的字符串,而“有效期”的值“99999999”其實是不符合日期類型取值邏輯的,因為9999年99月99日,年為9999可以,月、日為99明顯不符合邏輯,但是這條數據就是對的,因為通過相關文檔可以了解,有效期默認就是“99999999”,由此看來,它在此處并不違反“一致性”,因為有約定。
那為什么說“聯系電話”符合11位數字又不算符合“一致性”呢,筆者認為,這應該屬于一個常識吧。
9、綜上,同一場景下,違反一致性的數據一定違反準確性,違反準確性的數據不一定違反一致性,但準確性的可解釋性有點復雜,同樣的數據,在A看來是正確的,而在B看呢,又是錯誤的,公說公有理婆說婆有理。
很多時候,數據質量的相關維度需要各個組織內部提前提煉和定義好,做好基于自己組織的合理解釋,而后再開展各項活動。
10、以上,不知您看完本文后,能否區分開“準確性”和“一致性”呢,如有不妥或不明之處,歡迎留言指正或討論。
下一篇:主數據管理理論與實施方法...