日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

談?wù)剶?shù)據(jù)湖分布式數(shù)據(jù)治理的數(shù)據(jù)目錄應(yīng)具備的四大能力

時(shí)間:2022-11-16來源:細(xì)嫩長腿歐巴瀏覽數(shù):163

在構(gòu)建數(shù)據(jù)平臺時(shí),數(shù)據(jù)團(tuán)隊(duì)必須做出的首要決定之一是選擇數(shù)據(jù)倉庫還是數(shù)據(jù)湖來為他們的分析提供存儲和計(jì)算能力。

在過去幾年中,數(shù)據(jù)湖已成為現(xiàn)代數(shù)據(jù)堆棧的必備要素。但是,雖然支持我們訪問和分析數(shù)據(jù)的技術(shù)已經(jīng)成熟,但在分布式環(huán)境中理解和信任這些數(shù)據(jù)的機(jī)制卻落后了。

數(shù)據(jù)發(fā)現(xiàn)可以幫助確保數(shù)據(jù)湖不會變成數(shù)據(jù)沼澤。數(shù)據(jù)發(fā)現(xiàn)可以通過提供跨不同域的數(shù)據(jù)的分布式實(shí)時(shí)洞察力來取代現(xiàn)代數(shù)據(jù)目錄,同時(shí)遵守一組統(tǒng)一的治理標(biāo)準(zhǔn)。數(shù)據(jù)發(fā)現(xiàn)通過根據(jù)一組特定消費(fèi)者攝取、存儲、聚合和使用數(shù)據(jù)的方式提供對數(shù)據(jù)的特定領(lǐng)域動態(tài)理解,從而取代了對數(shù)據(jù)目錄的需求。

在構(gòu)建數(shù)據(jù)平臺時(shí),數(shù)據(jù)團(tuán)隊(duì)必須做出的首要決定之一是選擇數(shù)據(jù)倉庫還是數(shù)據(jù)湖來為他們的分析提供存儲和計(jì)算能力。

雖然數(shù)據(jù)倉庫提供的結(jié)構(gòu)使數(shù)據(jù)團(tuán)隊(duì)可以輕松高效地操作數(shù)據(jù),即收集分析洞察力和支持機(jī)器學(xué)習(xí)功能,但該結(jié)構(gòu)可能會使它們在某些應(yīng)用程序中變得不靈活且成本高昂。

數(shù)據(jù)湖具有無限的靈活性和可定制性,可以支持廣泛的用例,但隨著這種更大的敏捷性,出現(xiàn)了許多與數(shù)據(jù)組織和治理相關(guān)的其他問題。因此,數(shù)據(jù)團(tuán)隊(duì)在轉(zhuǎn)向數(shù)據(jù)湖的路線往往難以回答有關(guān)其數(shù)據(jù)的關(guān)鍵問題,例如:


  • 數(shù)據(jù)存放在哪里?
  • 誰有權(quán)訪問它?
  • 這個(gè)數(shù)據(jù)是最新的嗎?
  • 如何使用這些數(shù)據(jù)?


隨著數(shù)據(jù)操作的成熟和數(shù)據(jù)管道變得越來越復(fù)雜,傳統(tǒng)的數(shù)據(jù)目錄往往無法回答這些問題。

這就是為什么一些最好的數(shù)據(jù)工程團(tuán)隊(duì)正在重新考慮他們構(gòu)建數(shù)據(jù)目錄的方法以及數(shù)據(jù)湖需要什么。

數(shù)據(jù)目錄可能在湖中失效

數(shù)據(jù)目錄作為元數(shù)據(jù)清單,并提供有關(guān)數(shù)據(jù)健康狀況、可訪問性和位置的信息。它們幫助數(shù)據(jù)團(tuán)隊(duì)回答有關(guān)在哪里查找數(shù)據(jù)、數(shù)據(jù)代表什么以及如何使用數(shù)據(jù)的問題。但是,如果我們不知道這些數(shù)據(jù)是如何組織的,那么所有最好的計(jì)劃或更確切地說是管道都是徒勞的。

對于現(xiàn)代數(shù)據(jù)團(tuán)隊(duì)來說,它越來越重要。隨著公司向數(shù)據(jù)湖發(fā)展,他們通常會損害在倉庫中存儲數(shù)據(jù)時(shí)隱含的組織和順序。數(shù)據(jù)倉庫使數(shù)據(jù)工程團(tuán)隊(duì)構(gòu)建或至少半構(gòu)建他們的數(shù)據(jù),這使得根據(jù)業(yè)務(wù)用戶的需求進(jìn)行分類、搜索和檢索變得容易。

從歷史上看,許多公司使用數(shù)據(jù)目錄來執(zhí)行數(shù)據(jù)質(zhì)量數(shù)據(jù)治理標(biāo)準(zhǔn),因?yàn)樗麄儌鹘y(tǒng)上依賴數(shù)據(jù)團(tuán)隊(duì)隨著數(shù)據(jù)資產(chǎn)的發(fā)展手動輸入和更新目錄信息。在數(shù)據(jù)湖中,數(shù)據(jù)是分布式的,因此很難記錄數(shù)據(jù)在其生命周期過程中的演變。

非結(jié)構(gòu)化數(shù)據(jù)是有問題的,因?yàn)樗c數(shù)據(jù)目錄相關(guān),因?yàn)樗鼪]有組織,即便被組織通常也不會被作為組織整體擁有。這可能適用于在數(shù)據(jù)倉庫中管理的結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),但在分布式數(shù)據(jù)湖的背景下,如果沒有某種自動化措施,隨著數(shù)據(jù)的發(fā)展手動實(shí)施數(shù)據(jù)治理是無法持續(xù)的。

隨著時(shí)間的推移理解不同數(shù)據(jù)資產(chǎn)之間的關(guān)系是一個(gè)關(guān)鍵,但傳統(tǒng)數(shù)據(jù)目錄往往缺乏維度。雖然包括數(shù)據(jù)湖在內(nèi)的現(xiàn)代數(shù)據(jù)架構(gòu)通常是分布式的,但數(shù)據(jù)目錄通常不是,將數(shù)據(jù)視為一維實(shí)體。非結(jié)構(gòu)化數(shù)據(jù)沒有大多數(shù)數(shù)據(jù)目錄所依賴的那種預(yù)定義模型,必須經(jīng)過多次轉(zhuǎn)換才能使用。

盡管如此,公司仍需要知道他們的數(shù)據(jù)存放在哪里以及誰可以訪問它,并能夠衡量其整體健康狀況,即使是存儲在湖中而不是倉庫中。如果沒有對數(shù)據(jù)沿襲的可見性,當(dāng)下游出現(xiàn)數(shù)據(jù)問題時(shí),團(tuán)隊(duì)將花費(fèi)大量的時(shí)間進(jìn)行故障排除。

數(shù)據(jù)發(fā)現(xiàn)可以通過跨數(shù)據(jù)堆棧的不同部分提供分布式、實(shí)時(shí)的數(shù)據(jù)洞察來取代或補(bǔ)充現(xiàn)代數(shù)據(jù)目錄,同時(shí)遵守通用治理和可訪問性標(biāo)準(zhǔn)。

傳統(tǒng)的數(shù)據(jù)目錄通常可以滿足倉庫中結(jié)構(gòu)化數(shù)據(jù)的需求,但是數(shù)據(jù)工程師如何在數(shù)據(jù)湖的復(fù)雜水域中航行呢?

雖然許多數(shù)據(jù)目錄具有以 UI 為中心的工作流,但數(shù)據(jù)工程師需要以編程方式與目錄進(jìn)行交互。他們使用目錄來管理模式和元數(shù)據(jù),并且需要一種 API 驅(qū)動的方法來完成范圍廣泛的數(shù)據(jù)管理任務(wù)。

此外,數(shù)據(jù)可以通過多個(gè)入口點(diǎn)進(jìn)入一個(gè)湖泊,工程師需要一個(gè)能夠適應(yīng)并說明每個(gè)入口點(diǎn)的目錄。與數(shù)據(jù)在輸入前進(jìn)行清理和處理的倉庫不同,數(shù)據(jù)湖在不對端到端健康狀況做任何假設(shè)的情況下接收原始數(shù)據(jù)。

在湖中,存儲數(shù)據(jù)既便宜又靈活,但這讓我們了解擁有什么以及如何使用這些數(shù)據(jù)成為真正的挑戰(zhàn)。數(shù)據(jù)可能以多種方式存儲,例如 JSON 或 Parquet,數(shù)據(jù)工程師根據(jù)要完成的工作以不同方式與數(shù)據(jù)交互。他們可能將 Spark 用于聚合作業(yè)或?qū)?Presto 用于報(bào)告或臨時(shí)查詢——這意味著損壞或不良數(shù)據(jù)有很多機(jī)會導(dǎo)致故障。如果沒有沿襲,數(shù)據(jù)湖中的那些故障可能會變得混亂且難以診斷。

在湖中,可以通過多種方式與數(shù)據(jù)進(jìn)行交互,而目錄必須能夠提供對正在使用的內(nèi)容和未使用的內(nèi)容的理解。當(dāng)傳統(tǒng)目錄不足時(shí),我們可以將數(shù)據(jù)發(fā)現(xiàn)作為前進(jìn)的道路。

未來:數(shù)據(jù)發(fā)現(xiàn)

現(xiàn)代數(shù)據(jù)發(fā)現(xiàn)需要構(gòu)建四種關(guān)鍵能力解決傳統(tǒng)數(shù)據(jù)目錄不足的問題:

使用機(jī)器學(xué)習(xí),數(shù)據(jù)發(fā)現(xiàn)自動跟蹤表和字段級沿襲,映射上游和下游依賴關(guān)系。隨著數(shù)據(jù)的發(fā)展,數(shù)據(jù)發(fā)現(xiàn)可確保對數(shù)據(jù)及其使用方式的理解也在發(fā)生變化。

與傳統(tǒng)的數(shù)據(jù)目錄不同,數(shù)據(jù)發(fā)現(xiàn)要提供對數(shù)據(jù)當(dāng)前狀態(tài)的實(shí)時(shí)可見性,而不是其“編目”或理想狀態(tài)。由于發(fā)現(xiàn)涵蓋消費(fèi)者如何攝取、存儲、聚合和使用數(shù)據(jù),因此可以收集洞察力,例如哪些數(shù)據(jù)集已經(jīng)過時(shí)并且可以棄用,給定的數(shù)據(jù)集是否符合使用質(zhì)量,或者給定的表何時(shí)可用最后更新。

數(shù)據(jù)發(fā)現(xiàn)需要具有靈活性和動態(tài)性,使數(shù)據(jù)發(fā)現(xiàn)非常適合將沿襲帶入數(shù)據(jù)湖,能夠在正確的時(shí)間顯示正確的信息,并在許多可能的輸入和輸出之間建立聯(lián)系。使用沿襲,可以在數(shù)據(jù)管道中斷時(shí)更快地解決問題,因?yàn)閷z測到模式更改等經(jīng)常被忽視的問題并映射相關(guān)依賴項(xiàng)。

數(shù)據(jù)發(fā)現(xiàn)還需要支持自助服務(wù),使團(tuán)隊(duì)無需專門的支持團(tuán)隊(duì)即可輕松利用和理解他們的數(shù)據(jù)。為確保這些數(shù)據(jù)值得信賴和可靠,團(tuán)隊(duì)還應(yīng)該專注于數(shù)據(jù)可觀察性,它使用機(jī)器學(xué)習(xí)和自定義規(guī)則在數(shù)據(jù)湖或下游管道出現(xiàn)問題時(shí)提供實(shí)時(shí)警報(bào)和監(jiān)控。

現(xiàn)代數(shù)據(jù)發(fā)現(xiàn)使公司不僅可以了解在其生命周期過程中正在使用、應(yīng)用、存儲和棄用哪些數(shù)據(jù),還可以了解如何使用、應(yīng)用、存儲和棄用數(shù)據(jù),這對于數(shù)據(jù)治理至關(guān)重要,并提供可用于優(yōu)化整個(gè)數(shù)據(jù)湖的見解.

從優(yōu)化的角度來看,數(shù)據(jù)發(fā)現(xiàn)工具還可以讓利益相關(guān)者輕松識別最重要的數(shù)據(jù)資產(chǎn)以及未使用的數(shù)據(jù)資產(chǎn),這兩者都可以為團(tuán)隊(duì)優(yōu)化提供見解他們的管道。

數(shù)據(jù)湖的分布式發(fā)現(xiàn)

隨著公司不斷增加數(shù)據(jù)的攝取、存儲和利用,提高透明度和可發(fā)現(xiàn)性的技術(shù)將成為關(guān)鍵。

一些最好的目錄越來越多地在分布式、特定于域的發(fā)現(xiàn)中分層,為數(shù)據(jù)團(tuán)隊(duì)提供生命周期的所有階段完全信任和利用數(shù)據(jù)所需的可見性。

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢