日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

一站式數(shù)據(jù)治理解決方案及平臺架構(gòu)

時間:2022-07-11來源:久愛我瀏覽數(shù):404

數(shù)據(jù)治理是一個比較大的概念。它包括政策、規(guī)則、組織結(jié)構(gòu)、治理過程,以及一些技術(shù)的支持。領(lǐng)域包括數(shù)據(jù)質(zhì)量、數(shù)據(jù)成本、數(shù)據(jù)可用性以及數(shù)據(jù)安全等方面。所以,在影響數(shù)據(jù)治理計劃的驅(qū)動因素是多樣的,比如說數(shù)據(jù)法規(guī)、隱私政策的限制,數(shù)據(jù)質(zhì)量良莠不齊、數(shù)據(jù)治理成本高,或者是資源受限等等。

“一站式數(shù)據(jù)治理解決方案及平臺架構(gòu)”的分享會分為四個部分展開:?

首先,明確數(shù)據(jù)治理的概念,從平臺視角出發(fā),介紹在字節(jié)跳動內(nèi)部數(shù)據(jù)治理所服務(wù)的目標;?

其次,介紹字節(jié)跳動內(nèi)部數(shù)據(jù)治理的現(xiàn)狀與我們需要解決的問題;?

第三,介紹當前我們的解決方案;

最后,分享一站式數(shù)據(jù)治理的平臺架構(gòu)。?

數(shù)據(jù)治理的概念

數(shù)據(jù)治理是一種數(shù)據(jù)管理的概念,確保組織能在數(shù)據(jù)的全生命周期中具有高質(zhì)量的數(shù)據(jù)質(zhì)量能力,并且實現(xiàn)對數(shù)據(jù)的完全管理,以支持業(yè)務(wù)的目標。在這里面有些關(guān)鍵詞:在一些組織、一些公司內(nèi)部關(guān)注的是數(shù)據(jù)全生命周期,希望它有一個較高的質(zhì)量,目標則是用來支持業(yè)務(wù)。所以數(shù)據(jù)治理的目標主要由以下幾點構(gòu)成:

第一,最大化數(shù)據(jù)價值

第二,管理數(shù)據(jù)的風險。

第三,降低數(shù)據(jù)的成本。

數(shù)據(jù)治理是一個比較大的概念。它包括政策、規(guī)則、組織結(jié)構(gòu)、治理過程,以及一些技術(shù)的支持。領(lǐng)域包括數(shù)據(jù)質(zhì)量、數(shù)據(jù)成本、數(shù)據(jù)可用性以及數(shù)據(jù)安全等方面。所以,在影響數(shù)據(jù)治理計劃的驅(qū)動因素是多樣的,比如說數(shù)據(jù)法規(guī)、隱私政策的限制,數(shù)據(jù)質(zhì)量良莠不齊、數(shù)據(jù)治理成本高,或者是資源受限等等。此外,治理實施的方式和范圍也不同,比如:有可能是由統(tǒng)一的組織,諸如數(shù)據(jù)治理委員會在整個企業(yè)或者公司的范圍內(nèi)發(fā)起一些治理目標與計劃,來推動整個組織的數(shù)據(jù)治理;也可能是在一些部門、團隊內(nèi)部去進行有限范圍內(nèi)的治理。數(shù)據(jù)治理計劃的目標實現(xiàn)必須得用適當?shù)墓ぞ邅斫鉀Q,數(shù)據(jù)治理的方式也越來越傾向于朝著系統(tǒng)化和工具化的方向來發(fā)展。

字節(jié)跳動數(shù)據(jù)治理背景

在字節(jié)跳動內(nèi)部,作為統(tǒng)一的數(shù)據(jù)治理平臺方,我們的目標是:“建立一站式、全鏈路的數(shù)據(jù)治理解決方案平臺”,治理平臺肩負了四個使命:

第一,讓數(shù)據(jù)價值最大化。這里面包括全生命周期數(shù)據(jù)質(zhì)量的保障,既要做到高價值,又能實現(xiàn)低成本。

第二,提供全鏈路解決方案。數(shù)據(jù)治理在實際過程中會由多個不同角色共同參與,包括了管理者視角和執(zhí)行者視角。我們希望不同的角色在我們的平臺里,都能夠運用一些工具、手段來推進治理的執(zhí)行。

第三,工具和方法論的結(jié)合。字節(jié)跳動內(nèi)部數(shù)據(jù)治理平臺的建設(shè)是以方法論來引導(dǎo)建設(shè),希望工具能夠提供非常完備的治理能力。

第四,提供增強型的治理能力。在系統(tǒng)的能力上可以主動發(fā)現(xiàn)一些隱患問題,做一些推薦或者建議的策略來提升治理效率。在字節(jié)內(nèi)部,不同角色對數(shù)據(jù)治理的視角不同。比如,管理者或者是責任者的視角,他們可能會考慮如何去制定一些治理的目標,如何能夠讓組織、團隊來去完成這些治理的指標;他們可能會關(guān)注于這個目標什么時候能夠完成、進度如何;他們也會思考,當他們真得去做了這些治理之后,些數(shù)據(jù)或者資產(chǎn)是否能夠持續(xù)健康。而從執(zhí)行者的視角上,則要考慮有數(shù)據(jù)治理目標下達之后,我該如何去做;我自己有哪些資產(chǎn),資產(chǎn)有什么問題;我去做治理的時候,怎么樣能夠提高治理效率;我能不能及時發(fā)現(xiàn)數(shù)據(jù)資產(chǎn)的問題,并快速治理。

數(shù)據(jù)治理流程鏈路

因此在整個數(shù)據(jù)治理的流程中,遵循如下幾個步驟:

第一:我有什么?比如我的計算任務(wù),資產(chǎn)的存儲,質(zhì)量的一些規(guī)則,SLA的承諾或者一些異常報警,哪些是屬于我的。

第二,清晰知曉治理目標。要知道我要去治理什么,從哪些開始下手,哪些資產(chǎn)是有問題的,我的一些規(guī)則是否是設(shè)置的合理的。

第三,怎么治理。比如在面臨一個具體的治理問題,別人是如何治理的,他們是不是有一些相關(guān)的經(jīng)驗可以借鑒;在具體的實施過程里,如何去提效治理。

第四,衡量治理效果。也就是我們的治理是否達到了一些目標,或者獲得了哪些收益。

最后,總結(jié)與復(fù)盤。做完了整個治理鏈路流程之后的總結(jié),如經(jīng)驗總結(jié)、問題歸納等等。

數(shù)據(jù)治理解決方案

基于上述是數(shù)據(jù)治理流程鏈路中涉及到的方方面面,在平臺側(cè)我們是如何解決每個流程中對應(yīng)的問題呢?整體從思路上,劃分為三個維度:

一站式

在建立一站式解決方案里,我們細分了三層。

第一層:視圖層。這個視圖層就是來滿足我們能夠知道,我們有哪些資產(chǎn),我們有什么,我們的目標是什么,該怎么制定,這個我們稱之為治理全景層。

第二層:方案層。也就是真正實施去推動這個治理過程的這一層。在這一層里面我們提出了兩種治理的路徑,一種是主動式的規(guī)劃路徑,另二種是系統(tǒng)發(fā)現(xiàn)式的路徑。系統(tǒng)規(guī)劃式路徑:契合于從上而下的視角來去滿足于治理的目標,針對它做一些規(guī)劃,做了一些規(guī)劃之后對相應(yīng)的資產(chǎn)進行診斷。診斷之后診斷出資產(chǎn)的問題來進行相應(yīng)的一些問題推進執(zhí)行,最后到一些收益的統(tǒng)計和總結(jié)。這是一個主動規(guī)劃的部分。 系統(tǒng)發(fā)現(xiàn)式路徑:系統(tǒng)發(fā)現(xiàn)這個路徑其實主要解決的是,我怎么能夠日常的去將我這些資產(chǎn)或者治理問題,能夠持續(xù)的進行。日常化治理而不是一個運動式治理方式。這個是基于我們平臺里面的一些全局規(guī)則來定義,通過系統(tǒng)來去訂閱,定期在系統(tǒng)里面去進行運行掃描,發(fā)現(xiàn)一些資產(chǎn)的問題,通過一些消息的方式推送到這些資產(chǎn)的責任人,進行一些比如說根因的登記,問題的登記,事故的復(fù)盤,最后進行一些總結(jié)和經(jīng)驗的共享等等;?

第三層:工具能力層。即為了滿足于上面的視圖層和方案層,我們在工具側(cè)提供的一些能力,包括一些垂直的治理場景和質(zhì)量,安全成本,穩(wěn)定性,報警起夜等等方面。還有一些基礎(chǔ)服務(wù)來支撐這些我們工具的建設(shè)。比如我們會抽出一些消息的中心,云數(shù)據(jù)的中心,規(guī)則引擎或者數(shù)據(jù)服務(wù)等等。上述是我們一站式的思路。

全鏈路

全鏈路是指我們希望治理能夠達到一個閉環(huán)的狀態(tài)。

在整個鏈路里面,可能針對于不同的角色,會有一些不同的使用方式,或者是一些運行方式。在整個的路徑里面會有從資產(chǎn)的視圖來看我們有哪些東西。在這些資產(chǎn)視圖基礎(chǔ)之上去定一些目標和規(guī)劃。比如說有些外部驅(qū)動的指標,業(yè)務(wù)驅(qū)動的一些指標或者是一些合規(guī)或者是政策類的指標等等,來制定我們治理的目標。針對這些目標,我們?nèi)プ鲆恍┓桨傅闹贫āEe個例子,比如去做一些存儲資產(chǎn)的降低,可能通過一些規(guī)則來去圈選出來資產(chǎn)有問題的部分。之后推進這個治理的實施,可能在一些治理決策者或者一些團隊的負責人方面,他可能會去進行一些拉群的督辦,或者是一些定時的訂閱提醒等等。在推進治理方案過程中,還希望資產(chǎn)的責任人,也就是治理的實施者在我們這個平臺工具里面能夠具體去實施治理的動作,如一些基于SLA的申報、參數(shù)的優(yōu)化、存儲規(guī)則的設(shè)置、規(guī)則的調(diào)優(yōu)等等。進行了一系列治理之后,我們肯定要有一個驗收的環(huán)節(jié),可能會是一個整體指標的驗收,業(yè)務(wù)是否達標了,指標是否合理,最后進行一些經(jīng)驗的總結(jié),這個是全鏈路的部分。當然在全鏈路里面也包括了剛才所說的這種系統(tǒng)式、掃描式的路徑。這個也是通過一些規(guī)則的制定,在系統(tǒng)里面去發(fā)起規(guī)則的定義和訂閱。通過系統(tǒng)的掃描去發(fā)現(xiàn)一些問題,發(fā)現(xiàn)問題之后經(jīng)過一些實施的治理,可能再反哺到我們具體的一些規(guī)則的制定上面去。比如說更進一步配置一些監(jiān)控規(guī)則,來預(yù)防治理的一些問題。這個是全鏈路的部分。

全規(guī)則

全規(guī)則目標是提供比較完備的治理規(guī)則能力,能夠服務(wù)于剛才所說的這種規(guī)劃式資產(chǎn)組合與響應(yīng)式資產(chǎn)掃描。這個是在平臺的能力完備性方面的一些考慮。目前我們提供了存儲計算、質(zhì)量報警等四個維度,現(xiàn)在有數(shù)十個這種治理的規(guī)則可供任意的圈選和組合。其中包括一些全局的規(guī)則和自定義的規(guī)則。

比如全局規(guī)則,比如近7天的產(chǎn)出為空的任務(wù),是否有暴力掃描的任務(wù)。或者是一些定義,比如生命周期可以任意選擇一個時間段來去進行掃描或者近xxx天任務(wù)為空,把這些任務(wù)圈選出來,這些是自定義的部分。同時還有一些統(tǒng)計類和挖掘類。統(tǒng)計類就是基于數(shù)據(jù)建設(shè)對元數(shù)據(jù)的應(yīng)用和加工。舉個例子,比如近90天無訪問表,或者是數(shù)據(jù)傾斜任務(wù)的圈選。挖掘類其實是在元數(shù)據(jù)的基礎(chǔ)上進行一些更深層次的挖掘,去找到一些數(shù)據(jù)的問題,比如相似的庫表,相似的任務(wù)等。

一站式數(shù)據(jù)治理平臺架構(gòu)

上面介紹了我們應(yīng)對數(shù)據(jù)治理的解決方案,包括全規(guī)則、全鏈路和一站式。接下來,介紹具體的平臺架構(gòu)。

整體架構(gòu)

首先在整體的架構(gòu)部分,這是治理平臺內(nèi)整體的架構(gòu)圖。

其中灰色的部分是在平臺透出給用戶的產(chǎn)品能力,包括治理全景。治理全景對應(yīng)于剛才在一站式的視圖層能夠告訴用戶,有哪些資產(chǎn),這些資產(chǎn)的情況是怎么樣的。然后是治理的工作臺。工作臺的部分是針對于治理的實施者,他能夠快速定位或者跳躍到相關(guān)一些治理的方案和平臺去進行治理。這個是一些包括待辦項和這些資產(chǎn)的分析等等。之后是一些診斷規(guī)劃的部分。也就是服務(wù)于主動式規(guī)劃這條路徑的一個模塊。它會對我們這些資產(chǎn)進行一些規(guī)則式的組合,來進行一個最終的診斷。還有一些資源的優(yōu)化,報警與訂閱和SLA保障等幾個垂直類的治理場景。最后有一個復(fù)盤管理部分,是做經(jīng)驗總結(jié)和沉淀的一個模塊,以系統(tǒng)的方式進行記錄。

中間的部分是基于全規(guī)則的思想,將存儲規(guī)則、計算規(guī)則、質(zhì)量規(guī)則和報警規(guī)則,呈現(xiàn)在平臺里,讓用戶來進行自由圈選,達到靈活、全面的目的。

下面綠色層是系統(tǒng)組件層面的一些抽象服務(wù),我們會針對數(shù)據(jù)治理的典型場景,在底層的基礎(chǔ)設(shè)計上做一些抽象,達到靈活適新的規(guī)則或者治理場景的目的。

元數(shù)據(jù)建設(shè)

在數(shù)據(jù)治理里面,我們認為元數(shù)據(jù)其實是治理的核心,治理其實是需要元數(shù)據(jù)來去驅(qū)動的。在我們治理工作里面,元數(shù)據(jù)建設(shè)治理主要有以下五個方面:第一,元數(shù)據(jù)的采集。我們會采集底層組件架構(gòu)的一些數(shù)據(jù),yarn隊列,Hive、Spark、Flink等各種組件的數(shù)據(jù),以及一些平臺級的元數(shù)據(jù)采集,包括調(diào)度系統(tǒng),數(shù)據(jù)地圖、血緣、權(quán)限、任務(wù)、存儲、數(shù)據(jù)應(yīng)用等平臺的一些元數(shù)據(jù),在采集之后,會進行一些系統(tǒng)化的加工,我們遵循于數(shù)據(jù)倉的層級規(guī)范的建設(shè)來提升數(shù)據(jù)的應(yīng)用性。同時,在加工的過程中也完全遵循于數(shù)據(jù)治理理念保障數(shù)據(jù)都是高質(zhì)可靠。第二,元數(shù)據(jù)應(yīng)用。在元數(shù)據(jù)應(yīng)用部分我們會通過元數(shù)據(jù)倉庫為基礎(chǔ),給上游的產(chǎn)品平臺提供更多應(yīng)用的能力支持。第三,分析部分。我們會制定很多業(yè)務(wù)的核心指標和一些內(nèi)部指標,通過一些治理場景用戶的行為分析來發(fā)掘一些潛在的數(shù)據(jù)問題。另外就是會在各個維度去建設(shè)各類分析看板。第四,挖掘部分。這個是在數(shù)據(jù)上更高一層的應(yīng)用,我們會推動一些挖掘算法和機制,去發(fā)現(xiàn)一些可治理的問題,比如我們可能會對于一些數(shù)據(jù)資產(chǎn)的相似性進行挖掘。基于歷史數(shù)據(jù)對未來的一些預(yù)測,比如說一些數(shù)據(jù)表行數(shù)的不動值預(yù)測,一些提效的推薦類挖掘。最后是元數(shù)據(jù)的開放部分。我們會和字節(jié)跳動內(nèi)部各個數(shù)據(jù)團隊來去合作共建按需開放,提供元數(shù)據(jù)能力。

產(chǎn)品模塊

下面介紹平臺側(cè)的產(chǎn)品模塊,同樣也可以在DataLeap產(chǎn)品中看到。

第一、治理全景。解決有哪些資產(chǎn)問題。目前在平臺上有一些大盤,包括數(shù)據(jù)的SLA大盤、存儲大盤、計算大盤、報警大盤等等,這些大盤針對于不同的治理場景會有一些不同維度的展示,包括一些數(shù)據(jù)趨勢,一些占比列表,或者是一些聚合明細等數(shù)據(jù)。支撐治理全景的是我們底層的元數(shù)據(jù)倉庫以及剛才說的數(shù)據(jù)應(yīng)用的部分,對數(shù)據(jù)進行一些加工。

第二、健康分。我們希望健康分能夠衡量資產(chǎn)的健康度,讓資產(chǎn)持續(xù)健康。在健康分的建設(shè)里面,我們遵循幾個步驟。第一是首先在健康分的建設(shè)里面,通過元數(shù)據(jù)倉庫提供健康分的各維度的分析建設(shè),包括一些成員排名。第二個部分是有了這些健康分之后提供更多的維度分析,以及扣分項分析,成本分析,能夠?qū)⒔】捣植鸾猓鸱殖煽芍卫淼倪@樣的項目,有了這些可治理的項目之后,具體關(guān)聯(lián)到一些數(shù)據(jù)治理的操作和方案的設(shè)計。比如,我們可以針對于一些健康分的扣分項,來跳轉(zhuǎn)到一些垂直治理的場景界面來去進行一些操作設(shè)置或者是做一些規(guī)劃式治理方案的關(guān)聯(lián)。這個是健康分的一些思路。在健康分的設(shè)計方面,我們遵循了一個三層架構(gòu)的思路。首先第一層是比較大宏觀的資產(chǎn)層。包括存儲的健康分,計算健康分,數(shù)據(jù)質(zhì)量等等。第二層是針對于這一類自辦的一些聚合類指標,包括比如說存儲健康分里面的無效數(shù)據(jù),或者是高效存儲的問題。計算健康分里面無效任務(wù)和高效計算的問題。數(shù)據(jù)質(zhì)量方面的SLA或者是監(jiān)控保障的問題。最后一層是比較詳細的規(guī)則層。包括存儲里面TTL設(shè)置,或者是無查詢的一些資產(chǎn)。比如說計算里面的連續(xù)失敗任務(wù)或者是資源利用率比較低的一些任務(wù)。數(shù)據(jù)質(zhì)量里面的一些SLA的事故數(shù)或者是一些監(jiān)控的缺失、無效報警等等。在有了資產(chǎn)全景和看板之后,我們其實可以進行一些治理操作,對應(yīng)于一站式里面的第二層治理操作的部分。前面介紹到我們其實有兩種路徑,第一類是規(guī)劃類的路徑,可能是從一個比較高的視角來去拆解治理的問題。這個路徑里面,我們是要目標明確,過程可拆解,收益可量化,結(jié)果可驗收。

系統(tǒng)設(shè)計

最后我們來說一下系統(tǒng)是如何來支撐規(guī)劃式的架構(gòu)呢?

規(guī)劃式架構(gòu):

在底層的基礎(chǔ)架構(gòu)設(shè)計方面主要有幾個模塊。

首先在后端是一個主邏輯的操作部分,包括了剛才所說的規(guī)則,治理規(guī)則、治理域,一些圈選的能力,資產(chǎn)的查詢和收益的統(tǒng)計,治理目標的制定,治理結(jié)果的查看,治理的催辦和具體的治理操作。

支撐于后端邏輯的部分,有幾個抽象的服務(wù)模塊。第一個模塊是數(shù)據(jù)查詢服務(wù),主要解決的一個問題是底層不同存儲異構(gòu)的適配。將這些原數(shù)據(jù)經(jīng)過一些上層應(yīng)用的加工,放到不同應(yīng)用的存儲里面來適應(yīng)不同的查詢類型。通過這個服務(wù)來進行一些解耦。這個服務(wù)里面數(shù)據(jù)的來源就是事件的收集服務(wù),我們會做一些格式的轉(zhuǎn)換,消息的處理,包括一些底層組件的關(guān)聯(lián)和系統(tǒng)回調(diào)和數(shù)據(jù)采集等等。

同時與這個服務(wù)有關(guān)聯(lián)的就是治理具體實施的模塊,這個和系統(tǒng)里面治理的操作有關(guān)。

舉個例子,比如進行一些表的生命周期設(shè)置,或者是刪除表等等操作。這些操作都會以消息的形式,經(jīng)由執(zhí)行模塊去進行一些任務(wù)的下發(fā)和底層的組件進行調(diào)用。通過一些狀態(tài)來把治理是否得到一些收益,消息是否成功,也由剛才的事件收集服務(wù)來放到查詢服務(wù)里面,形成收益可查詢的數(shù)據(jù)。

最后在治理規(guī)則和治理域的部分,提供了全規(guī)則能力,這部分我們提供了一些規(guī)則引擎的服務(wù),包括對規(guī)則進行一些解析、查詢轉(zhuǎn)換,查詢提交以及結(jié)果匯總,這個是底層架構(gòu)對于上述功能的一些支持。

響應(yīng)式架構(gòu):

接下來是響應(yīng)式的流程,這個和主動式的流程非常像。包括消息觸發(fā),問題分析,推進治理,問題登記,總結(jié)復(fù)盤等等流程。響應(yīng)式流程的框架和規(guī)劃其實也是非常像。主要有幾個不同的部分。第一是左側(cè)有個消息服務(wù),因為我們這個路徑其實是以消息來處發(fā)的,我們會打通與研發(fā)平臺,質(zhì)量平臺,自然平臺等很多處發(fā)消息和報警的一些平臺,將他們的消息和報警統(tǒng)一收歸到我們這個服務(wù)里面進行下發(fā)。下發(fā)的渠道可以有,比如說字節(jié)跳動用的飛書,或者郵件、電話、短信等等。這些消息形成的一些數(shù)據(jù)也會經(jīng)由數(shù)據(jù)的收集放到查詢服務(wù)里面,去做一些報警的展示。另外在消息這里,我們會和復(fù)盤模塊進行強關(guān)聯(lián),對問題進行登記核準復(fù)盤。

最后是工作臺,主要為了提效,解決待治理項,比如說現(xiàn)在有一些待治理的部分需要去處理,能夠盡快去發(fā)起這個治理或者說我個人的一些資產(chǎn)情況,這個是工作臺的核心思想。

治理場景的部分主要有質(zhì)量、數(shù)據(jù)SLA、資源和報警的部分。

在資源優(yōu)化場景上的目標主要是能夠提供自主分析和低門檻優(yōu)化能力。現(xiàn)在主要集中在存儲和計算兩個方面,并提供了很多的垂直治理的能力。比如,可以在平臺里面直接設(shè)置一些這種溫存、降副本、TTL設(shè)置。計算方面,可以直接跳轉(zhuǎn)任務(wù)詳情做分析,任務(wù)下線和參數(shù)調(diào)整建議等等。最后也談?wù)勎覀兊奈磥砉ぷ髡雇鐖D所示:

第一個方面是繼續(xù)加強我工具閉環(huán)能力。第二個方面是從通用數(shù)據(jù)治理的問題解決到更精細化的一些治理,包括自定義的指標、方案,以業(yè)務(wù)的視角來看待實際的問題。最后是增強型的數(shù)據(jù)治理,我們希望是能夠在數(shù)據(jù)側(cè)通過一些統(tǒng)計類、挖掘類,上升為一些算法和智能型的這種平臺。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢