日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

元數據與元數據平臺 | 附13份資料

時間:2022-05-25來源:他說她多情瀏覽數:272

元數據的定義 如果按照傳統的定義,元數據是關于數據的數據,是為了描述數據的相關信息而存在的數據,例如記錄數據的存儲位置、模型定義、生命周期、血緣關系等信息。例如我們看一部電影,電影本身就是數據,那么元數據就是用來描述這部電影的數據。

元數據與元數據平臺 (一)元數據的定義 如果按照傳統的定義,元數據是關于數據的數據,是為了描述數據的相關信息而存在的數據,例如記錄數據的存儲位置、模型定義、生命周期、血緣關系等信息。例如我們看一部電影,電影本身就是數據,那么元數據就是用來描述這部電影的數據。如下圖所示:

數據倉庫體系中,元數據代表了一種統計數據從元數據、數據倉庫到數據應用的全鏈路信息,記錄了統計數據從產生到展示的全部過程。可以說,有了元數據,開發人員便可以方便的找到統計數據背后的計算邏輯與過程,用于指導開發工作并追蹤數據問題,可以極大的提升工作的效率。元數據按照用途的不同可以分為兩個部分:技術元數據和業務元數據。技術元數據是存儲關于數據倉庫體系建設細節的數據,常見的用如下幾種: 存儲信息:例如表名、字段名、字段備注、分區、責任人、文件大小、表類型、生命周期等; 運行信息:例如Hadoop上運行MR的Job信息、實例名稱、輸入輸出、運行參數、執行時間、優先級等;再例如Hive上運行的SQL內容、查詢表名、掃描文件大小等; 開發信息:例如數據開發方式、任務調度時間、上下游依賴、運行節點信息等; 質量信息:例如運行狀態、報警信息、質量評分等。 業務元數據記錄了從業務角度所關心的數據信息,通常面向產品及運營人員使用,因而記錄的信息是十分簡潔易的,主要包括: 數據信息:例如維度、字段涵義、安全等級、計算邏輯、指標定義等; 應用信息:例如展示平臺、應用產品等。 (二)元數據存在的意義 在傳統意義上,元數據有兩方面的用處:

幫助數據平臺了解自己本身的情況:例如我有哪些數據、我存儲的數據有多大、如何找到我所需要的數據、我的數據何時產出等信息,當我們拿到這些信息后,就可以做對應的運維報警等工作;

幫助數據平臺制定數據統計的標準:例如數據口徑如何統一、計算指標如何統一、數據之間的關系如何、數據的上下游關聯數據是什么等信息,打通了上下游數據之間的關聯關系,就可以為數據質量及維護可視化奠定基礎。

可以說,元數據有重要的應用價值,對于數據管理,提供諸如計算、存儲、成本、質量、安全、模型等方面有重大的利用價值。阿里巴巴在OneData體系中,建設的相關平臺是:數據地圖。因為平臺屬于內部使用,因此不便于對外透露。但你可以設想一下,一個平臺,擁有的數據表,在百萬數量級,是一種怎樣的體驗。可以說,跨部門、跨平臺之間的數據信息同步,基本上都是要數據地圖平臺來進行的,對于維護百萬張臨時表和幾萬張常用表來說,區分它們的安全級別、使用頻率、重復性、數據質量等信息,真的需要一個團隊去專門的維護。數據地圖在整個數據體系中,承擔的是一種管理者的角色,通過圖形化的方式來展示數據信息,并標明數據計算中所必要的各種信息參數,不僅數據開發人員可以使用,對于產品和運營來說也是非常友好的。它包含的內容有如下幾個部分:

快速的搜索定位:通過搜索引擎的方式來查找相關數據,支持精確查詢、模糊查詢、表名查詢、字段查詢、備注查詢等方式;

標準化的圖形展示:采用圖形化的方式來組織頁面邏輯,例如采用類似Wifi圖標的形式來標注數據質量級別,肉眼可見的便捷,方便使用者所需要的關鍵信息;

積累歷史數據信息:在很多場景下,歷史數據是不需要重復計算的,直接拉取能夠極大的避免重復開發。例如針對新用戶的統計,可以拉取歷史用戶信息,和每日用戶登錄日志進行關聯,用于生產每日新增用戶;

直接關聯分析工具:因為數據的信息直接存儲在平臺上,因而可以調用報表插件來快速看到直觀的報表信息,不需要二次加工開發,很大的提升了開發的效率。

數據平臺本身仍在不斷的完善和開發中,更多的功能和更強的能力會被開發出來,以上提到的是其中的幾個場景。(三)元數據平臺該如何搭建 標準的建設思路圖如下:

其實根據數據團隊規模的不同,并不一定要建設如此復雜和精確的元數據平臺,對于中小型團隊而言,能夠滿足技術元數據的相關指標已經足夠,完整的元數據平臺投入的人力物力不是一般的大,并且通常情況下針對跨部門、跨業務線的合作,這種平臺的價值才能被真正的提現出來。首先要樹立清楚自身的業務數據邏輯,例如在搜索統計中,針對CPM的統計有三種方式,分別為CPM1(搜索展現)、CPM2(廣告展現)、CPM3(有廣告的搜索展現),那么每一種的統計方式都要有定義,后續再理解指標概念時便不會有偏差。其次要了解清楚底層數據的來源,例如網頁日志分為哪幾種,客戶端日志是實時采集還是延遲采集,這對于保障數據的統一性而言非常重要。再次要建立一批Dim信息表,這些表要記錄每一種主屬性所對應的其他維度信息,例如用戶屬性對應的有行業、客戶類型、注冊時間等信息,這些表是靜態的,但需要有非常明確的定義和解釋。然后要做相關的指標采集,例如Hive表信息如何定時讀取對應的Mysql庫,例如每一個字段的定義是否有人工準確標注,例如表的運行情況能否從運維那里要一個接口來讀取,例如表之間的血緣關系是否有閉環圖檢查等等。最后還要有統一的對外接口,方便其他平臺來讀取和使用,例如實時平臺來讀取維度信息等。
(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢