日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

如何理解數據質量中準確性和一致性的區別?

時間:2022-04-17來源:常山瀏覽數:1125

大家周末好,我是志明。

今天回憶并記錄一下前幾天群里看見的某個話題討論。

1、有位讀者問道:“為什么數據質量維度同時包括準確性和一致性,不應該是準確性包括一致性嗎,總感覺在中文字面上這兩個詞有重疊的地方

聊天截圖如下:

2、第一眼看見這個問題,感覺這是一道語文題,有點咬文嚼字的感覺,就是問的“準確性”和“一致性”的各是什么意思嘛?

3、先看看百度的解釋:

https://baike.baidu.com/item/%E5%87%86%E7%A1%AE%E6%80%A7/5977032

https://baike.baidu.com/item/%E4%B8%80%E8%87%B4%E6%80%A7/9840083

4、再看看DAMA-DMBOK2的解釋:

DAMA-DMBOK2 中文版?P353

DAMA-DMBOK2 中文版?P353

DAMA-DMBOK2 中文版?P354

5、以上文字描述恐怕大部分人看完都是不太理解或一臉懵,特別是DAMA-DMBOK2的解釋,畢竟那些文字都是從英文原版書中直譯過來的。

6、我的理解:一致性關注點在數據是否合規,即是否負責遵循統一的規范和是否符合邏輯;而準確性則側重于關注數據的真實性,是否正確,是否存在異常。

7、舉個例子吧,比如某通訊錄表中數據如下:


一般人看這行數據并沒有問題,但是有經驗的人可能可以一樣發現這行數據存在的問題。

這行數據的“聯系電話”為“13800138000”,“一致性”是沒問題的,因為符合手機號的格式,也是一個正常的手機號,但是準確性就有問題了,因為眾所周知“13800138000”在早些年是中國移動手機充值卡充值電話,后在2015年10月1日起停止服務(http://www.chinamobile.com/aboutus/news/pannounce/gx/index_771_771_detail_29736.html),即便是停止服務了,該號碼也應該屬于中國移動內部保留號碼,不會向公眾開放選用,所以數據中這個值是肯定不正確的,符合”一致性”但有違“準確性”。

8、再舉個例子,比如某用戶信息數據如下:


以上主要關注“聯系電話”和“有效期”兩個字段值。

直觀的可以看出,聯系電話是不準確的,且不符合正常電話號的規則,除了滿足中國大陸手機號的位數,即“聯系電話”違反“一致性”和“準確性”,如果要防止此類臟數據入庫,可能上游系統需要優化聯系電話的校驗規則(如選用更通用的正則表達式),不能僅僅是11位數字就讓通過校驗。

再看“有效期”,從挨著的“注冊日期”字段可以分析出,這里的日期類型存儲的值為“yyyyMMdd”格式的字符串,而“有效期”的值“99999999”其實是不符合日期類型取值邏輯的,因為9999年99月99日,年為9999可以,月、日為99明顯不符合邏輯,但是這條數據就是對的,因為通過相關文檔可以了解,有效期默認就是“99999999”,由此看來,它在此處并不違反“一致性”,因為有約定。


那為什么說“聯系電話”符合11位數字又不算符合“一致性”呢,筆者認為,這應該屬于一個常識吧。

9、綜上,同一場景下,違反一致性的數據一定違反準確性,違反準確性的數據不一定違反一致性,但準確性的可解釋性有點復雜,同樣的數據,在A看來是正確的,而在B看呢,又是錯誤的,公說公有理婆說婆有理。

很多時候,數據質量的相關維度需要各個組織內部提前提煉和定義好,做好基于自己組織的合理解釋,而后再開展各項活動。

10、以上,不知您看完本文后,能否區分開“準確性”和“一致性”呢,如有不妥或不明之處,歡迎留言指正或討論。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢