日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

數(shù)據(jù)質(zhì)量評(píng)估維度及方法

時(shí)間:2024-04-23來源:屌絲紳士瀏覽數(shù):515

從某種程度上來說“數(shù)據(jù)=金錢”,數(shù)據(jù)質(zhì)量的好壞直接決定著數(shù)據(jù)價(jià)值高低,直接或簡介影響一個(gè)企業(yè)的決策方向。數(shù)據(jù)質(zhì)量管理是指在數(shù)據(jù)創(chuàng)建、加工、使用和遷移等過程中,通過開展數(shù)據(jù)質(zhì)量定義、過程控制、監(jiān)測、問題分析和整改、評(píng)估與考核等一系列管理活動(dòng),提高數(shù)據(jù)質(zhì)量以滿足業(yè)務(wù)要求。

一、數(shù)據(jù)質(zhì)量關(guān)注點(diǎn)

一致性:值數(shù)內(nèi)容在系統(tǒng)內(nèi),系統(tǒng)間是否保持一致。如指標(biāo)是否同名同義,存儲(chǔ),精確度,加工邏輯等是否一致。

完整性:指數(shù)據(jù)的完整,完備性與及時(shí)性,是否存在數(shù)據(jù)遺漏,缺失及補(bǔ)充等。每日提供的數(shù)據(jù)應(yīng)該是完整的,無論在量上還是在特定的數(shù)據(jù)上,高質(zhì)量的數(shù)據(jù)是通過完整的數(shù)據(jù)統(tǒng)計(jì)出來的。

可靠性:指數(shù)據(jù)的穩(wěn)定性和準(zhǔn)確性等,數(shù)據(jù)提供過程中,數(shù)據(jù)產(chǎn)生依賴于系統(tǒng)間的性能,生產(chǎn)數(shù)據(jù)和加工數(shù)據(jù)的過程,都會(huì)影響數(shù)據(jù)的可靠性。

準(zhǔn)確性:數(shù)據(jù)域源頭的精確性,以及數(shù)據(jù)處理過程中是否存在算法和數(shù)據(jù)沖突等。數(shù)據(jù)的準(zhǔn)確性可能存在于個(gè)別記錄,也可能存在于整個(gè)數(shù)據(jù)集,只有準(zhǔn)確更高的數(shù)據(jù)才能提供高效、高優(yōu)的決策。

可理解性:數(shù)據(jù)的可讀性和可分析性,是否滿足業(yè)務(wù)需求,以及數(shù)據(jù)間是否存在相互關(guān)系,用戶拿到數(shù)據(jù)是可理解,可用,可決策的。

有效性:指數(shù)據(jù)是否有效可用,以及數(shù)據(jù)數(shù)據(jù)的訪問域安全性等。數(shù)據(jù)安全是數(shù)據(jù)質(zhì)量的一項(xiàng)重點(diǎn)管理方面,數(shù)據(jù)安全對(duì)于數(shù)據(jù)人來說是一條不可觸摸的紅線。

二、數(shù)據(jù)質(zhì)量評(píng)估維度

數(shù)據(jù)完整性:考量數(shù)據(jù)項(xiàng)信息是否全面、完整、無缺失。考核指標(biāo)表完整性和字段完整性。

監(jiān)控覆蓋率:確保數(shù)據(jù)遵循統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)或規(guī)范要求,考核指標(biāo):監(jiān)控覆蓋率,監(jiān)控覆蓋率=監(jiān)控的高價(jià)值任務(wù)個(gè)數(shù)/高價(jià)值任務(wù)總個(gè)數(shù)。其中統(tǒng)計(jì)的范圍只涉及有價(jià)值的任務(wù)。

任務(wù)準(zhǔn)確性:考量數(shù)據(jù)是否符合預(yù)設(shè)的質(zhì)量要求,如唯一性約束、記錄量校驗(yàn)等,考核指標(biāo):任務(wù)監(jiān)控告警率,監(jiān)控任務(wù)告警率=告警任務(wù)個(gè)數(shù)(本周)/監(jiān)控任務(wù)總個(gè)數(shù)。注:這里的告警任務(wù),都是數(shù)據(jù)質(zhì)量監(jiān)控任務(wù)。

告警響應(yīng)度:通過日常管理、應(yīng)急響應(yīng),降低或消除問題影響,避免數(shù)據(jù)損毀、丟失。指標(biāo)公式:統(tǒng)一的時(shí)間中期內(nèi),已處理告警個(gè)數(shù)/告警總個(gè)數(shù)。

任務(wù)性能:考量任務(wù)的執(zhí)行效率和健康度,診斷任務(wù)是否傾斜等性能問題。指標(biāo)公式:問題任務(wù)個(gè)數(shù)(統(tǒng)計(jì)周期內(nèi))/任務(wù)總個(gè)數(shù)。

任務(wù)穩(wěn)定性:考量任務(wù)的運(yùn)行穩(wěn)定性,是否經(jīng)常報(bào)錯(cuò),導(dǎo)致數(shù)據(jù)事故。指標(biāo)公式:失敗任務(wù)個(gè)數(shù)(統(tǒng)計(jì)周期內(nèi))/總?cè)蝿?wù)總個(gè)數(shù)。

任務(wù)時(shí)效性:考量數(shù)據(jù)項(xiàng)信息可被獲取和使用的時(shí)間是否滿足預(yù)期要求,考核指標(biāo)。任務(wù)延遲率,任務(wù)延遲率=延遲的高價(jià)值任務(wù)個(gè)數(shù)(統(tǒng)計(jì)周期內(nèi))/高價(jià)值任務(wù)總個(gè)數(shù),其中,基準(zhǔn)時(shí)間為任務(wù)近30天平均完成時(shí)間加30分鐘,任務(wù)晚于基準(zhǔn)即延遲。

三、數(shù)據(jù)質(zhì)量校驗(yàn)方法

(一)完整性

1、可以從數(shù)據(jù)量上進(jìn)行校驗(yàn)。一般情況下,成熟的業(yè)務(wù)場景,每日生成的數(shù)據(jù)基本恒定,如果莫一天數(shù)據(jù)地域日常數(shù)據(jù)的波動(dòng)閾值,可以預(yù)測數(shù)據(jù)基本是不完整的。

2、完整性的另一部分是字段的數(shù)據(jù)缺失,可以通過統(tǒng)計(jì)字段的空值率進(jìn)行校驗(yàn)。比如默寫字段在表中理論上是必然存在的,數(shù)據(jù)中如果出現(xiàn)了空值,則說明該字段的數(shù)據(jù)缺失。

(二)準(zhǔn)確性

1、常見的數(shù)量級(jí)的記錄錯(cuò)誤,這種錯(cuò)誤很容易發(fā)現(xiàn),通過對(duì)比表數(shù)據(jù)量級(jí)的波動(dòng),判斷當(dāng)日的數(shù)據(jù)是否準(zhǔn)確。

2、可以通過異常值進(jìn)行判斷。表中字段字符,或者數(shù)值出現(xiàn)了非法情況,可以判斷數(shù)據(jù)不準(zhǔn)確。

3、準(zhǔn)確性也可以通過數(shù)據(jù)類型,以及數(shù)據(jù)的長度進(jìn)行校驗(yàn)。

4、對(duì)于數(shù)據(jù)也可以通過數(shù)據(jù)的分部情況進(jìn)行驗(yàn)證。字符亂碼的問題或者字符被截?cái)嗟膯栴},可以使用分布來發(fā)現(xiàn)這類問題,一般的數(shù)據(jù)記錄基本符合正態(tài)分布或者類正態(tài)分布,那么那些占比異常小的數(shù)據(jù)項(xiàng)很可能存在問題,比如某個(gè)字符記錄占總體的占比只有0.1%,而其他的占比都在3%以上,那么很有可能這個(gè)字符記錄有異常。

(三)一致性:

1、如果數(shù)據(jù)記錄格式有標(biāo)準(zhǔn)的編碼規(guī)則,那么對(duì)數(shù)據(jù)記錄的一致性檢驗(yàn)比較簡單,只要驗(yàn)證所有的記錄是否滿足這個(gè)編碼規(guī)則就可以。比如身份證號(hào)都是18位,前面17位均是數(shù)字等。

2、對(duì)于可數(shù)的枚舉,可以通過映射校驗(yàn)。比如省份等,可以把這些唯一值映射到有效的32個(gè)省市的列表,如果無法映射,那么字段通不過一致性檢驗(yàn)。如“浙江”而不是“浙江省”。

3、一致性中邏輯規(guī)則的驗(yàn)證相對(duì)比較復(fù)雜,指標(biāo)的統(tǒng)計(jì)邏輯的一致性需要底層數(shù)據(jù)質(zhì)量的保證,同時(shí)也要有非常規(guī)范和標(biāo)準(zhǔn)的統(tǒng)計(jì)邏輯的定義,所有指標(biāo)的計(jì)算規(guī)則必須保證一致。常見的問題就是匯總數(shù)據(jù)和細(xì)分?jǐn)?shù)據(jù)加起來的結(jié)果對(duì)不上。如果需要審核這些數(shù)據(jù)邏輯的一致性,我們可以建立一些“有效性規(guī)則”,比如A>=B,如果C=B/A,那么C的值應(yīng)該在[0,1]的范圍內(nèi)等,數(shù)據(jù)無法滿足這些規(guī)則時(shí),就無法通過一致性檢驗(yàn)。

四、常見可配置的監(jiān)控規(guī)則

表級(jí)非空記錄:歷史全量表(無分區(qū)):表里沒有記錄條數(shù)時(shí)告警;分區(qū)表:分區(qū)等于T-1時(shí),無數(shù)據(jù)記錄條數(shù)告警。

表環(huán)比監(jiān)控:根據(jù)歷史周期計(jì)算數(shù)據(jù)量波動(dòng)的范圍,設(shè)置上下閾值,環(huán)比超出閾值,進(jìn)行告警。

目標(biāo)表原表校驗(yàn):如果目標(biāo)表的數(shù)據(jù)量同原表的數(shù)據(jù)量對(duì)比,超出環(huán)比的上下閾值,進(jìn)行告警。

表主鍵唯一:如果統(tǒng)計(jì)出的主鍵的記錄條數(shù)和表的記錄條數(shù)不一致,進(jìn)行告警。

非空校驗(yàn):表中有些字段不會(huì)出現(xiàn)空值的況,對(duì)該字段驚醒空值監(jiān)控,如果出現(xiàn)空值,進(jìn)行告警。

字符長度:如果數(shù)據(jù)中數(shù)據(jù)的長度超過預(yù)定長度的上下閾值進(jìn)行告警

枚舉值校驗(yàn):如果數(shù)據(jù)中出現(xiàn)枚舉范圍外的數(shù)據(jù),進(jìn)行告警,此種情況適用于枚舉值量小的情況。

字段環(huán)比監(jiān)控:如果表中某字段的值域超出波動(dòng)范圍的上下閾值,進(jìn)行告警,比如增長率,交易額等。

數(shù)據(jù)類型校驗(yàn):如果數(shù)字型字段,數(shù)據(jù)中出現(xiàn)字符,進(jìn)行告警。

字段數(shù)字極值監(jiān)控:如果字段的數(shù)值超過該數(shù)據(jù)設(shè)置的上下的極值,進(jìn)行告警。

字段字符非法校驗(yàn):如果字段的數(shù)據(jù)中出現(xiàn)了非法字符,進(jìn)行告警。

字段空置占比告警:如果字段中的空置率查出設(shè)定的上下閾值,進(jìn)行告警。

產(chǎn)出時(shí)間監(jiān)控:基于任務(wù)鏈路設(shè)置任務(wù)的SLA,任務(wù)超如設(shè)定時(shí)間未完成,進(jìn)行告警。

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
  • 相關(guān)主題
  • 相關(guān)大數(shù)據(jù)問答
  • 相關(guān)大數(shù)據(jù)知識(shí)
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢