日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國(guó)內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國(guó)數(shù)據(jù)治理市場(chǎng)份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場(chǎng)份額第一。

如何提高企業(yè)數(shù)據(jù)質(zhì)量?

時(shí)間:2022-03-04來(lái)源:互聯(lián)網(wǎng)瀏覽數(shù):310

大數(shù)據(jù)時(shí)代,數(shù)據(jù)資產(chǎn)及其價(jià)值利用能力逐漸成為構(gòu)成企業(yè)核心競(jìng)爭(zhēng)力的關(guān)鍵要素;然而,大數(shù)據(jù)應(yīng)用必須建立在質(zhì)量可靠的數(shù)據(jù)之上才有意義,建立在低質(zhì)量甚至錯(cuò)誤數(shù)據(jù)之上的應(yīng)用有可能與其初心南轅北轍背道而馳。因此,數(shù)據(jù)質(zhì)量正是企業(yè)應(yīng)用數(shù)據(jù)的瓶頸,高質(zhì)量的數(shù)據(jù)可以決定數(shù)據(jù)應(yīng)用的上限,而低質(zhì)量的數(shù)據(jù)則必然拉低數(shù)據(jù)應(yīng)用的下限。

一、數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量的高低代表了該數(shù)據(jù)滿(mǎn)足數(shù)據(jù)消費(fèi)者期望的程度,這種程度基于他們對(duì)數(shù)據(jù)的使用預(yù)期。數(shù)據(jù)質(zhì)量必須是可測(cè)量的,把測(cè)量的結(jié)果轉(zhuǎn)化為可以理解的和可重復(fù)的數(shù)字,使我們能夠在不同對(duì)象之間和跨越不同時(shí)間進(jìn)行比較。 數(shù)據(jù)質(zhì)量管理是通過(guò)計(jì)劃、實(shí)施和控制活動(dòng),運(yùn)用質(zhì)量管理技術(shù)度量、評(píng)估、改進(jìn)和保證數(shù)據(jù)的恰當(dāng)使用。

二、數(shù)據(jù)質(zhì)量維度
1、準(zhǔn)確性:數(shù)據(jù)不正確或描述對(duì)象過(guò)期
2、合規(guī)性:數(shù)據(jù)是否以非標(biāo)準(zhǔn)格式存儲(chǔ)
3、完備性:數(shù)據(jù)不存在
4、及時(shí)性:關(guān)鍵數(shù)據(jù)是否能夠及時(shí)傳遞到目標(biāo)位置
5、一致性:數(shù)據(jù)沖突
6、重復(fù)性:記錄了重復(fù)數(shù)據(jù)

三、數(shù)據(jù)質(zhì)量分析
數(shù)據(jù)質(zhì)量分析的主要任務(wù)就是檢查數(shù)據(jù)中是否存在臟數(shù)據(jù),臟數(shù)據(jù)一般是指不符合要求以及不能直接進(jìn)行相關(guān)分析的數(shù)據(jù)。臟數(shù)據(jù)包括以下內(nèi)容:
1、缺省值
2、異常值
3、不一致的值
4、重復(fù)數(shù)據(jù)以及含有特殊符號(hào)(如#、¥、*)的數(shù)據(jù)
我們已經(jīng)知道了臟數(shù)據(jù)有4個(gè)方面的內(nèi)容,接下來(lái)我們逐一來(lái)看這些數(shù)據(jù)的產(chǎn)生原因,影響以及解決辦法。

第一、缺省值分析
產(chǎn)生原因:
1、有些信息暫時(shí)無(wú)法獲取,或者獲取信息的代價(jià)太大
2、有些信息是被遺漏的,人為或者信息采集機(jī)器故障
3、屬性值不存在,比如一個(gè)未婚者配偶的姓名、一個(gè)兒童的固定收入
影響:
1、會(huì)丟失大量的有用信息
2、數(shù)據(jù)額挖掘模型表現(xiàn)出的不確定性更加顯著,模型中蘊(yùn)含的規(guī)律更加難以把握
3、包含空值的數(shù)據(jù)回事建模過(guò)程陷入混亂,導(dǎo)致不可靠輸出
解決辦法:
通過(guò)簡(jiǎn)單的統(tǒng)計(jì)分析,可以得到含有缺失值的屬性個(gè)數(shù),以及每個(gè)屬性的未缺失數(shù)、缺失數(shù)和缺失率。刪除含有缺失值的記錄、對(duì)可能值進(jìn)行插補(bǔ)和不處理三種情況。

第二、異常值分析
產(chǎn)生原因:業(yè)務(wù)系統(tǒng)檢查不充分,導(dǎo)致異常數(shù)據(jù)輸入數(shù)據(jù)庫(kù)
影響:不對(duì)異常值進(jìn)行處理會(huì)導(dǎo)致整個(gè)分析過(guò)程的結(jié)果出現(xiàn)很大偏差
解決辦法:可以先對(duì)變量做一個(gè)描述性統(tǒng)計(jì),進(jìn)而查看哪些數(shù)據(jù)是不合理的。最常用的統(tǒng)計(jì)量是最大值和最小值,用力啊判斷這個(gè)變量是否超出了合理的范圍。如果數(shù)據(jù)是符合正態(tài)分布,在原則下,異常值被定義為一組測(cè)定值中與平均值的偏差超過(guò)3倍標(biāo)準(zhǔn)差的值,如果不符合正態(tài)分布,也可以用原理平均值的多少倍標(biāo)準(zhǔn)差來(lái)描述。

第三、不一致值分析
產(chǎn)生原因:不一致的數(shù)據(jù)產(chǎn)生主要發(fā)生在數(shù)據(jù)集成過(guò)程中,這可能是由于被挖掘的數(shù)據(jù)是來(lái)自不同的數(shù)據(jù)源、對(duì)于重復(fù)性存放的數(shù)據(jù)未能進(jìn)行一致性更新造成。例如,兩張表中都存儲(chǔ)了用戶(hù)的電話(huà)號(hào)碼,但在用戶(hù)的號(hào)碼發(fā)生改變時(shí)只更新了一張表中的數(shù)據(jù),那么兩張表中就有了不一致的數(shù)據(jù)。
影響:直接對(duì)不一致的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,可能會(huì)產(chǎn)生與實(shí)際相悖的數(shù)據(jù)挖掘結(jié)果。
解決辦法:注意數(shù)據(jù)抽取的規(guī)則,對(duì)于業(yè)務(wù)系統(tǒng)數(shù)據(jù)變動(dòng)的控制應(yīng)該保證數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)抽取最新數(shù)據(jù)

第四、重復(fù)數(shù)據(jù)及特殊數(shù)據(jù)
產(chǎn)生原因:業(yè)務(wù)系統(tǒng)中未進(jìn)行檢查,用戶(hù)在錄入數(shù)據(jù)時(shí)多次保存。或者因?yàn)槟甓葦?shù)據(jù)清理導(dǎo)致。特殊字符主要在輸入時(shí)攜帶進(jìn)入數(shù)據(jù)庫(kù)系統(tǒng)。
影響:統(tǒng)計(jì)結(jié)果不準(zhǔn)確,造成數(shù)據(jù)倉(cāng)庫(kù)中無(wú)法統(tǒng)計(jì)數(shù)據(jù)
解決辦法:在ETL過(guò)程中過(guò)濾這一部分?jǐn)?shù)據(jù),特殊數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換。

四、數(shù)據(jù)質(zhì)量管理
大多數(shù)企業(yè)都沒(méi)有一個(gè)很好的數(shù)據(jù)質(zhì)量管理的機(jī)制,因?yàn)樗麄儾焕斫馄鋽?shù)據(jù)的價(jià)值,并且他們不認(rèn)為數(shù)據(jù)是一個(gè)組織的資產(chǎn),而把數(shù)據(jù)看作創(chuàng)建它的部門(mén)領(lǐng)域內(nèi)的東西。缺乏數(shù)據(jù)質(zhì)量管理將導(dǎo)致臟數(shù)據(jù)、冗余數(shù)據(jù)、不一致數(shù)據(jù)、無(wú)法整合、性能底下、可用性差、責(zé)任缺失、使用系統(tǒng)用戶(hù)日益不滿(mǎn)意IT的性能。
在做數(shù)據(jù)分析之前一般都應(yīng)該初步對(duì)數(shù)據(jù)進(jìn)行評(píng)估。初步數(shù)據(jù)評(píng)估通過(guò)數(shù)據(jù)報(bào)告來(lái)完成的,數(shù)據(jù)報(bào)告通常在準(zhǔn)備把數(shù)據(jù)存入數(shù)據(jù)倉(cāng)庫(kù)是做一次,它是全面跨數(shù)據(jù)集的,它描述了數(shù)據(jù)結(jié)構(gòu)、內(nèi)容、規(guī)則、和關(guān)系的概況。通過(guò)應(yīng)用統(tǒng)計(jì)方法返回一組關(guān)于數(shù)據(jù)的標(biāo)準(zhǔn)特征,包括數(shù)據(jù)類(lèi)型、字段長(zhǎng)度、列基數(shù)、粒度、值、格式、模式、規(guī)則、跨列和跨表的數(shù)據(jù)關(guān)系,以及這些關(guān)系的基數(shù)。初步評(píng)估報(bào)告的目的是獲得對(duì)數(shù)據(jù)和環(huán)境的了解,并對(duì)數(shù)據(jù)的狀況進(jìn)行描述。

五、總結(jié)
數(shù)據(jù)報(bào)告中列出了很多的檢查項(xiàng)都是圍繞數(shù)據(jù)質(zhì)量管理相關(guān)的檢查,所以做一個(gè)數(shù)據(jù)分析項(xiàng)目前一定要知道客戶(hù)的數(shù)據(jù)質(zhì)量情況。如果數(shù)據(jù)質(zhì)量很糟糕,最終影響的是項(xiàng)目分析的實(shí)際效果。例如,用戶(hù)業(yè)務(wù)系統(tǒng)中客戶(hù)信息只輸入了客戶(hù)名稱(chēng),要分析客戶(hù)類(lèi)型就會(huì)存在缺省值。當(dāng)然有一些維度屬性我們可以通過(guò)事實(shí)表反算數(shù)據(jù)進(jìn)入維度表來(lái)補(bǔ)充維度屬性。個(gè)人建議在數(shù)據(jù)分析項(xiàng)目中一定要對(duì)維度屬性進(jìn)行評(píng)估,在項(xiàng)目處理前利用簡(jiǎn)單的模型告訴客戶(hù)能夠出具的效果。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
  • 相關(guān)主題
  • 相關(guān)大數(shù)據(jù)問(wèn)答
  • 相關(guān)大數(shù)據(jù)知識(shí)
產(chǎn)品功能
平臺(tái)化

全面覆蓋數(shù)據(jù)治理9大領(lǐng)域,采用微服務(wù)架構(gòu),融合度高,延展性強(qiáng)

可視化

實(shí)現(xiàn)數(shù)據(jù)從創(chuàng)建到消亡全生命周期的可視化,也實(shí)現(xiàn)全角色的可視化

智能化

豐富的智能元素和功能,大大縮短數(shù)據(jù)管理周期、減少成本浪費(fèi)

customer

在線(xiàn)咨詢(xún)

在線(xiàn)咨詢(xún)

點(diǎn)擊進(jìn)入在線(xiàn)咨詢(xún)