日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

元數(shù)據(jù):數(shù)據(jù)治理的燃料

時間:2019-08-02來源:知乎瀏覽數(shù):693

實現(xiàn)數(shù)據(jù)質(zhì)量的最佳方法是組合或混合這三種技術(shù):解碼后的譜系,數(shù)據(jù)相似性譜系和手動譜系映射。
企業(yè)渴望從可提供競爭優(yōu)勢的數(shù)據(jù)中獲取洞察力。實現(xiàn)這一目標(biāo)的最常見障礙是數(shù)據(jù)質(zhì)量差。如果輸入到預(yù)測算法的數(shù)據(jù)是“臟的”(具有丟失或無效的值),則該算法產(chǎn)生的任何見解都不可信。


要實現(xiàn)數(shù)據(jù)質(zhì)量,僅清理現(xiàn)有的歷史數(shù)據(jù)是不夠的。您還需要通過建立一組稱為數(shù)據(jù)治理的功能和流程來確保所有新生成的數(shù)據(jù)都是干凈的。在受管數(shù)據(jù)環(huán)境中,每種類型的數(shù)據(jù)都有一名數(shù)據(jù)管理員,負(fù)責(zé)定義和實施數(shù)據(jù)清潔標(biāo)準(zhǔn)。并且,每個數(shù)據(jù)值都有一個明確定義的譜系:我們知道它來自何處,它在此過程中經(jīng)歷了哪些轉(zhuǎn)換,以及從該數(shù)據(jù)值派生的其他數(shù)據(jù)項。

數(shù)據(jù)沿襲為企業(yè)提供了許多好處:


通過向后追蹤譜系(以查找影響當(dāng)前數(shù)據(jù)的所有數(shù)據(jù))或轉(zhuǎn)發(fā)(以識別受當(dāng)前數(shù)據(jù)影響的所有其他數(shù)據(jù))從給定數(shù)據(jù)項執(zhí)行影響分析和根本原因分析的能力;
業(yè)務(wù)詞匯和術(shù)語的標(biāo)準(zhǔn)化,有助于跨業(yè)務(wù)部門的清晰通信;
歸功于對數(shù)據(jù)所做的任何更改的所有權(quán),責(zé)任和可追溯性,這歸功于譜系全面記錄了誰做出了哪些更改以及何時更改。
聽起來不錯,但數(shù)據(jù)沿襲信息來自哪里?查看數(shù)據(jù)庫中的特定數(shù)據(jù)值會告訴我們其當(dāng)前值,但它不會提供有關(guān)數(shù)據(jù)如何演變?yōu)槠洚?dāng)前值的信息。缺少的是有關(guān)數(shù)據(jù)的數(shù)據(jù)(沿襲元數(shù)據(jù)),它自動記住每個數(shù)據(jù)項所做的每次更改的時間和來源,無論是由軟件還是由人工數(shù)據(jù)庫管理員進(jìn)行的更改。


收集沿襲元數(shù)據(jù)有三種競爭技術(shù),每種技術(shù)都有其優(yōu)點(diǎn)和缺點(diǎn):
1.解碼后的血統(tǒng)
該方法不是檢查模式的數(shù)據(jù)值以尋找相似性,而是專注于操縱數(shù)據(jù)的代碼。此類工具(MANTA,Octopai,Spline)掃描所有邏輯以理解它并對其進(jìn)行反向工程,以了解數(shù)據(jù)如何變化以及哪些數(shù)據(jù)用作計算其他數(shù)據(jù)的輸入。這種方法提供最準(zhǔn)確,完整和詳細(xì)的沿襲元數(shù)據(jù),因為每一條邏輯都被處理。但它有一些缺點(diǎn):

為數(shù)十種語言開發(fā)足夠的支持可能并不容易,這些語言必須進(jìn)行分析才能涵蓋環(huán)境的基礎(chǔ)知識。它也可能會阻止您采用新技術(shù),因為您的已解碼的沿襲引擎尚不支持它。
代碼版本會隨著時間的推移而發(fā)生變化,因此您對當(dāng)前代碼數(shù)據(jù)流的分析可能會錯過已被取代的重要流程。
當(dāng)代碼是動態(tài)的(您根據(jù)程序輸入,表中的數(shù)據(jù),環(huán)境變量等)動態(tài)構(gòu)建表達(dá)式時,您需要一種方法來解碼動態(tài)代碼。
并非所有數(shù)據(jù)更改都是由代碼生成的。例如,假設(shè)您的網(wǎng)站發(fā)生緊急中斷,您的DBA會通過直接在生產(chǎn)數(shù)據(jù)庫上執(zhí)行一系列SQL命令來手動修復(fù)。Decoded Lineage工具永遠(yuǎn)不會檢測到這些更改,因為它們是由DBA而不是代碼生成的。
代碼可能對數(shù)據(jù)做錯了。例如,假設(shè)您的代碼存儲違反GDPR的個人識別信息,并且產(chǎn)品經(jīng)理明確要求相反。解碼的血統(tǒng)工具將忠實地捕獲代碼所做的事情,而不會引發(fā)紅旗。
假設(shè)兩個獨(dú)立進(jìn)程中的兩段代碼執(zhí)行相同的計算,以在數(shù)據(jù)庫中創(chuàng)建相同的重復(fù)數(shù)據(jù)。代碼分析無法發(fā)現(xiàn)這種情況,因為每段代碼都表現(xiàn)得很好。只有通過檢查數(shù)據(jù)庫才能發(fā)現(xiàn)并消除重復(fù)。


2.數(shù)據(jù)相似性譜系

此方法通過檢查數(shù)據(jù)和模式而無需訪問代碼來構(gòu)建沿襲信息。此類別中的工具(Tamr,Paxata,Trifacta)會在表中分析數(shù)據(jù)并讀取有關(guān)表,列等的數(shù)據(jù)庫元數(shù)據(jù),然后使用所有這些信息根據(jù)相似性創(chuàng)建沿襲。一方面,無論您的編碼技術(shù)如何,這種方法都將始終有效,因為無論哪種技術(shù)生成數(shù)據(jù),它都會分析結(jié)果數(shù)據(jù)。但它有幾個明顯的弱點(diǎn):

檢測大型數(shù)據(jù)庫中的數(shù)據(jù)相似性需要花費(fèi)大量時間和處理能力。
結(jié)果元數(shù)據(jù)將缺少許多細(xì)節(jié),例如轉(zhuǎn)換邏輯。
它無法檢測尚未執(zhí)行的沿襲元數(shù)據(jù)。例如,假設(shè)您有一個年終會計流程來調(diào)整收入和庫存。在該流程于12月31日運(yùn)行之前,您將無法獲得有關(guān)它的沿襲元數(shù)據(jù)。


3.手動譜系映射

這種方法通過映射和記錄人們頭腦中的業(yè)務(wù)知識來構(gòu)建沿襲元數(shù)據(jù)(例如,與應(yīng)用程序所有者,數(shù)據(jù)管理員和數(shù)據(jù)集成專家交談)。這種方法的優(yōu)點(diǎn)是它提供了規(guī)范的數(shù)據(jù)沿襲(數(shù)據(jù)應(yīng)該如何流動,而不是在實現(xiàn)錯誤后如何流動)。但是,因為元數(shù)據(jù)是基于人類的知識,它可能是矛盾的(因為兩個人不同意所需的數(shù)據(jù)流)或部分(如果你不知道數(shù)據(jù)集的存在,你不會問任何人它)。
正如你所看到的,沒有靈丹妙藥 - 每種方法都有其優(yōu)點(diǎn)和缺點(diǎn)。最佳解決方案結(jié)合了所有三種方法。
使用MANTA,Octopai或Spline等工具從解碼后的血統(tǒng)開始。
使用Tamr,Paxata或Trifacta等工具增加數(shù)據(jù)相似性譜系,以發(fā)現(xiàn)數(shù)據(jù)庫中的模式。
使用手動沿襲映射進(jìn)行擴(kuò)充,以捕獲規(guī)定的沿襲規(guī)則(例如,應(yīng)該如何實現(xiàn)數(shù)據(jù)流)。
成功組合這些技術(shù)后,您可以收集開始享受受管數(shù)據(jù)優(yōu)勢所需的全面血統(tǒng)元數(shù)據(jù)。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
產(chǎn)品功能
平臺化

全面覆蓋數(shù)據(jù)治理9大領(lǐng)域,采用微服務(wù)架構(gòu),融合度高,延展性強(qiáng)

可視化

實現(xiàn)數(shù)據(jù)從創(chuàng)建到消亡全生命周期的可視化,也實現(xiàn)全角色的可視化

智能化

豐富的智能元素和功能,大大縮短數(shù)據(jù)管理周期、減少成本浪費(fèi)

customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢