日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據治理工具產品實踐

時間:2022-06-16來源:終究會落幕瀏覽數:286

大家好,下面給大家分享數據治理工具的產品實踐。整個分享我將從下面這四個方面進行介紹,分別是網易內部業務線過往的數據治理回顧,當前面臨的數據治理痛點,針對痛點,數據治理平臺整體的產品策略以及未來的規劃。

過往數據治理回顧

首先,對于內部業務線,包括嚴選、傳媒和音樂,都做過數據治理專項活動,也取得了初步的成效。

對于進行數據治理專項活動的背景,一方面隨著業務的發展,內部業務線的計算和存儲達到瓶頸,但業務方很難判斷,是應該繼續擴容增加資源,還是對劣質數據進行治理來降低資源危機,但這個過程中,如何定義劣質數據,定義了劣質資源后,要怎么對其進行治理,都是亟待確定和解決的問題;另一方面,數據本身的加工鏈路長,數據的加工處理沒有統一的標準,整個團隊內到底有哪些數據,數據的負責人是誰,這些數據是通過哪些任務產出的,這些數據有沒有被有效的使用,數據的存在是否有意義,這些都是管理者比較關心的問題,但數據團隊都很難回答。

對于各個業務線面臨的共同問題,在專項治理活動中,我們給出了針對性的策略。首先將表和任務具體化到責任人,由責任人進行資產梳理,對于沒有人認領的資產,比如沒有負責人、負責人離職或者負責人為項目等情況,那么就由各個業務線指定專門的治理負責人進行專項治理;然后對于存儲資源,首先對無用數據進行規則定義,明確到底達到什么指標可以作為無用數據,比如近90天訪問次數均為0等,確定好無用數據的規則后,將項目內無用數據掃描出來,業務方對無用數據進行二次確認,產品上提供操作入口快速下線,同時提供下線列表或累計下線數據等,進行閉環分析;對于計算資源,會對離線任務、自助查詢任務消耗的成本進行分析,包括任務的執行時長、預估消耗的費用、消耗的CU等內容,便于業務進行優化,也給任務的下線治理提供依據,成本分析會默認保留近半年的數據,在對任務進行優化后,也可以進行對比分析;最后,對于存儲和計算優化后,治理效果要可量化和評估,比如確認下線的存儲有多少,對任務優化后節約的資源有多少,便于管理者和治理負責人對治理成果進行評估。

對于治理效率量化可評估這一策略,我們內部有一套自己的成本度量體系。基于底層的表信息、計算任務信息和任務/表之間的血緣信息,匯總為計算、存儲的元數據倉庫,結合網易內部自己的賬單體系,體系中對計算和存儲均進行了定價,從而將調度任務、自助查詢每次執行消耗的計算成本預估出來,對于存儲成本,一方面包含數據表本身的存儲成本,另一方面產出該表的計算任務也會分攤該數據表的成本,最終得到數據表總的存儲成本。將計算和存儲成本轉化為費用,更加一目了然的對治理效果進行量化評估。

上述專項治理中提到的策略,在數據治理工具平臺均進行了產品功能的落地,通過平臺化的功能,進一步提高治理效率。對任務/表具體化到責任人策略,平臺提供項目內所有表的列表,支持查詢、轉交責任人等功能;對于無用數據下線功能,平臺基于對無用數據的規則定義進行掃描,提供對無用數據下線的入口,確認下線后,默認會將數據表移到灰度空間保存一定時間,到期之后,平臺才真正對數據進行刪除;對于數據表的生命周期管理,提供功能入口,針對內外部表均可設置,并且對于外部表,支持可選是否刪除目錄文件;對于計算任務的成本分析,對項目內所有調度和Query任務進行掃描,分析任務成本,默認保留近半年的成本記錄,便于對任務優化前后進行對比分析。

在治理效果衡量體系中,提供待治理和已治理的負責人紅黑榜單,便于管理員和個人進行查看,對于產生的費用和下線的存儲等內容,從項目和個人角度,提供資產大盤,更加清晰的了解治理的效果。

同時,為了更好地觸達負責人進行數據治理,建立了郵件和內部工具的通知機制,通知內容分為了兩個視角,一方面是治理負責人,可以了解當前自己還有哪些數據需要進行治理,治理后可以給項目節省多少年費用;另一方面是項目的管理員/負責人,可以知道當前項目下一共還有多少數據需要治理,治理后總共可以節省多少年費用,也可以知道整個項目中治理做的好的負責人Top5,以及還有哪些人占據的成本最多,可以以此為依據,催促負責人進行治理工作。

在專項治理活動中,通過上述的多種策略,初步取得了治理成效。2020年,為云音樂和嚴選分別優化了47.6%和61%的表,也為傳媒業務線節省了約38%的計算資源,數據治理各個業務線的專項活動策略得到了業務方的肯定。

當前的數據治理痛點

第一章主要講解了內部業務線數據治理專項活動采取的策略以及初步取得的成效,接下來重點闡述當前數據治理仍然面臨的痛點和那些怎么也填不完的數據"坑"。

當前的業務數據治理,主要面臨這樣幾個關鍵的痛點:首先業務數據本身沒有規范化創建和管理,比如外部表定義目錄不規范,有些分區目錄location的是表的目錄,在對表生命周期進行管理時,若選擇刪除目錄,那么文件就會有被誤刪的風險;數據開發團隊人員更換頻繁,面對眾多的業務需求,疲態應對,處于只開發不治理的循環中,數據治理的動力不足,項目內遺留大量的歷史數據;還有就是當計算和存儲等資源達到瓶頸后,被領導催著進行治理,缺乏長效的數據治理機制,導致階段性治理和資源告急循環往復;然后是治理的效果量化指標粗糙,哪些負責人下線了哪些數據,為項目節省了多少存儲,具體節省了多少費用,沒有有效的可評估的數據,這也衍生了治理者的消極心態。

雖然在上一章也有講到,數據治理專項活動取得了初步的成效,但依然還存有很多成本問題需要持續進行治理,包括嚴選、傳媒和云音樂都各自有一定比重的表處于待下線狀態,占據了相當一部分的存儲空間。

數據治理這條道路,真的可以用前路漫漫,道阻且長來形容了。針對成本,包括計算和存儲成本,數據量持續在增加,源源不斷的帶來存儲成本,隊列的資源也持續緊張,任務優化也亟待解決;對于質量,數據的加工鏈路長,任何一個環節都可能帶來質量問題;對于規范,基于ODS、DWD層直接制作的報表數量居高不下,模型的復用率低;對于安全,項目內的管理員數量眾多,太多人有比較高的權限,權限太大應該要怎么控制,以及離職等人員閑置下來的權限應該怎么收回;對于價值,API、BI等這些下游應用系統,引用表和計算成本要如何進行估量,怎么根據下游應用來量化數據價值。這些都是在數據治理過程中需要持續關注和解決的問題。

產品整體策略

第二章講到了當前面臨的數據治理痛點,以及從成本、質量、規范、安全和價值各個方面都有亟待解決的問題。本章將針對上述面臨的問題,提出治理方案,并將數據治理過程進行體系化建設,整體形成閉環。

數據治理本就是一個階段化的工作,做不到一口能吃個"胖子",達不到一開始就能把治理工作做到極致,數據治理整體可以分為這樣三個階段:治理的范圍、治理的價值和體系化的治理。首先要讓決策者能夠看見和關注,對數據治理的范圍進行系統性的梳理,明確需要進行數據治理的范圍;其次需要有一套抓手,能夠讓真正做治理工作的負責人看到問題,并且有可量化的體系,對治理成效可評估;最后將治理過程中的策略能夠落地到產品功能上,通過短期業務線的宣傳運營和長期的閉環機制,整體達到體系化的治理。

下面針對上述提到的階梯化治理的各個過程進行詳細的介紹。初階段是明確治理范圍,整個是圍繞數據的全生命周期展開的,在數據生產階段,需要對需求進行分析,明確業務口徑,對數據進行規范采集、任務開發和監控運維;在數據消費階段,涉及到快速的查找數據,對數據的分析和對數據質量的探查;在數據管理過程中,包含權限和成本管理等。整個流程涉及到成本、標準、質量、安全和價值,各個階段都會面臨對數據的治理工作。

明確了數據治理范圍后,然后是對于數據治理價值的量化。基于數據的全生命周期,包含了成本、質量、安全、標準和價值五個方面,針對每個方面,都要有可量化的指標項,對于成本,包括計算和存儲成本的費用量化,對無用數據的下線治理等;對于價值,需要能夠評估每個數據模型、數據報告和API的價值;對于質量,會包含監控任務覆蓋了多少稽核規則,涵蓋了多少強弱規則;對于標準,需要對指標和模型進行規范化定義;對于安全,會包含數據安全登記和數據權限的治理等工作。

數據治理不是一個臨時性要做的工作,從數據生命周期的全過程到治理體系的健康運行,需要一個長效的治理機制來保證,最后就是體系化的數據治理。最開始是發現問題,包含成本、標準、質量、安全和價值五個方面,明確需要進行治理的內容;然后基于需要治理的內容配套專題的治理工具,比如對無用數據的推薦下線,對表生命周期的管理,對計算任務的優化等;最后在治理工作過程中,持續有治理抓手,包括推送整個項目、個人的資產賬單,數據治理的紅黑榜,并將資產健康分和個人的任務優先級或資源申請等掛鉤,然后內部也舉辦了數據治理大賽、業務線專項治理活動等來持續運營產品功能。整體通過發現問題-->解決手段-->持續運營和持續沉淀形成資產治理的閉環。

未來規劃

第三章主要基于之前提到的數據治理痛點,給出了治理的整體策略方案,下面講一下數據治理工具的未來規劃。

關于資產治理產品的架構,繪制了一個房子圖,如圖所示,數據資產治理平臺的使命是降本提效、省錢省力,愿景是能夠打造成一款全流程、自動化、可落地、高質量的大數據評估和優化工具,成為數據治理的利刃。在這個過程中,以資產健康分為主要抓手,涵蓋成本、質量、安全、標準和價值,各個模塊均包含需要治理的內容,并且針對資產健康分的不同等級,也會和任務的優先級、申請資源等權限掛鉤。同時配合通知機制,從管理員和用戶個人不同角度,對資產治理工作進行觸達,調動治理的積極性,提供便捷的治理入口,形成體系化的治理體系。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢