日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

數(shù)據(jù)質量監(jiān)控平臺與框架總結

時間:2022-04-01來源:挨踢妹瀏覽數(shù):944

導讀

隨著業(yè)務發(fā)展和數(shù)據(jù)量的增加,大數(shù)據(jù)應用開發(fā)已成為部門應用開發(fā)常用的開發(fā)方式,由于部門業(yè)務特點的關系,spark和hive應用開發(fā)在部門內部較為常見。當處理的數(shù)據(jù)量達到一定量級和系統(tǒng)的復雜度上升時,數(shù)據(jù)的唯一性、完整性、一致性等等校驗就開始受到關注,而通常做法是根據(jù)業(yè)務特點,額外開發(fā)job如報表或者檢查任務,這樣會比較費時費力。

目前遇到的表大部分在幾億到幾十億的數(shù)據(jù)量之間,并且報表數(shù)量在不斷增加,在這種情況下,一個可配置、可視化、可監(jiān)控的數(shù)據(jù)質量工具就顯得尤為重要了。以下介紹幾個國內外主流的技術解決方案及框架。

一.Apache Griffin(Ebay開源數(shù)據(jù)質量監(jiān)控平臺)

Griffin起源于eBay中國,并于2016年12月進入Apache孵化器,Apache軟件基金會2018年12月12日正式宣布Apache Griffin畢業(yè)成為Apache頂級項目。

數(shù)據(jù)質量模塊是大數(shù)據(jù)平臺中必不可少的一個功能組件,Apache Griffin(以下簡稱Griffin)是一個開源的大數(shù)據(jù)數(shù)據(jù)質量解決方案,它支持批處理和流模式兩種數(shù)據(jù)質量檢測方式,可以從不同維度(比如離線任務執(zhí)行完畢后檢查源端和目標端的數(shù)據(jù)數(shù)量是否一致、源表的數(shù)據(jù)空值數(shù)量等)度量數(shù)據(jù)資產(chǎn),從而提升數(shù)據(jù)的準確度、可信度。對于batch數(shù)據(jù),我們可以通過數(shù)據(jù)連接器從Hadoop平臺收集數(shù)據(jù)。對于streaming數(shù)據(jù),我們可以連接到諸如Kafka之類的消息系統(tǒng)來做近似實時數(shù)據(jù)分析。在拿到數(shù)據(jù)之后,模型引擎將在spark集群中計算數(shù)據(jù)質量。

1.1 工作流程

在Griffin的架構中,主要分為Define、Measure和Analyze三個部分:

各部分的職責如下:

Define:主要負責定義數(shù)據(jù)質量統(tǒng)計的維度,比如數(shù)據(jù)質量統(tǒng)計的時間跨度、統(tǒng)計的目標(源端和目標端的數(shù)據(jù)數(shù)量是否一致,數(shù)據(jù)源里某一字段的非空的數(shù)量、不重復值的數(shù)量、最大值、最小值、top5的值數(shù)量等)

Measure:主要負責執(zhí)行統(tǒng)計任務,生成統(tǒng)計結果

Analyze:主要負責保存與展示統(tǒng)計結果

基于以上功能,我們大數(shù)據(jù)平臺計劃引入Griffin作為數(shù)據(jù)質量解決方案,實現(xiàn)數(shù)據(jù)一致性檢查、空值統(tǒng)計等功能。

1.2 特點

度量:精確度、完整性、及時性、唯一性、有效性、一致性。

異常監(jiān)測:利用預先設定的規(guī)則,檢測出不符合預期的數(shù)據(jù),提供不符合規(guī)則數(shù)據(jù)的下載。

異常告警:通過郵件或門戶報告數(shù)據(jù)質量問題。

可視化監(jiān)測:利用控制面板來展現(xiàn)數(shù)據(jù)質量的狀態(tài)。

實時性:可以實時進行數(shù)據(jù)質量檢測,能夠及時發(fā)現(xiàn)問題。

可擴展性:可用于多個數(shù)據(jù)系統(tǒng)倉庫的數(shù)據(jù)校驗。

可伸縮性:工作在大數(shù)據(jù)量的環(huán)境中,目前運行的數(shù)據(jù)量約1.2PB(eBay環(huán)境)。

自助服務:Griffin提供了一個簡潔易用的用戶界面,可以管理數(shù)據(jù)資產(chǎn)和數(shù)據(jù)質量規(guī)則;同時用戶可以通過控制面板查看數(shù)據(jù)質量結果和自定義顯示內容。

1.3 數(shù)據(jù)質量模型

Apache Griffin 是一個模型驅動的解決方案,用戶可以根據(jù)選定的目標數(shù)據(jù)集或源數(shù)據(jù)集(作為黃金參考數(shù)據(jù))選擇各種數(shù)據(jù)質量維度來執(zhí)行他們的數(shù)據(jù)質量驗證。它在后端有相應的庫支持,用于以下測量:

精確度:度量數(shù)據(jù)是否與指定的目標值匹配,如金額的校驗,校驗成功的記錄與總 記錄數(shù)的比值。

完整性:度量數(shù)據(jù)是否缺失,包括記錄數(shù)缺失、字段缺失,屬性缺失。

及時性:度量數(shù)據(jù)達到指定目標的時效性。

唯一性:度量數(shù)據(jù)記錄是否重復,屬性是否重復;常見度量為hive表主鍵值是否重復。

有效性:度量數(shù)據(jù)是否符合約定的類型、格式和數(shù)據(jù)范圍等規(guī)則。

一致性:度量數(shù)據(jù)是否符合業(yè)務邏輯,針對記錄間的邏輯的校驗,如:pv一定是大于uv的,訂單金額加上各種優(yōu)惠之后的價格一定是大于等于0的。

1.4 官方及參考資料

Apache Griffin的github項目鏈接 https://github.com/apache/griffin

Apache Griffin 官方網(wǎng)站 https://griffin.apache.org/

二. Deequ(Amazon開源數(shù)據(jù)質量監(jiān)控平臺)

Deequ 是亞馬遜開源的一個構建在 Apache Spark 之上的庫,用于定義“數(shù)據(jù)單元測試”,用于測量大型數(shù)據(jù)集中的數(shù)據(jù)質量。同時它還提供了python接口PyDeequ, PyPi, Documents。PyDeequ,這是一個基于 Deequ(一種在亞馬遜開發(fā)和使用的開源工具)之上的開源 Python 包裝器。Deequ 是用 Scala 編寫的,而 PyDeequ 可以使用 Python 和 PySpark(許多數(shù)據(jù)科學家選擇的語言)的數(shù)據(jù)質量和測試功能。PyDeequ 能與許多數(shù)據(jù)科學庫一起使用,使 Deequ 擴展其功能。此外,PyDeequ 可以與 Pandas DataFrames 進行流暢的接口,而不是在 Apache Spark DataFrames 內進行限制。

Deequ 可以計算數(shù)據(jù)質量指標,定義和驗證數(shù)據(jù)質量約束,并了解數(shù)據(jù)分布的變化。使開發(fā)人員專注于描述數(shù)據(jù)的外觀,而不是自己實施檢查和驗證算法。Deequ 通過checks提供支持。Deequ 基于 Apache Spark 之上實現(xiàn),旨在擴展通常位于數(shù)據(jù)湖、分布式文件系統(tǒng)或數(shù)據(jù)倉庫中的大型數(shù)據(jù)集(數(shù)十億行)。PyDeequ 可以訪問以上功能,也可在 Python Jupyte notebook環(huán)境中使用它。

2.1 特點

指標計算——Deequ 計算數(shù)據(jù)質量指標,即完整性、最大值或相關性等統(tǒng)計數(shù)據(jù)。Deequ 使用 Spark 從 Amazon Simple Storage Service (Amazon S3) 等來源讀取數(shù)據(jù),并通過一組優(yōu)化的聚合查詢計算指標。可直接訪問根據(jù)數(shù)據(jù)計算的原始指標。

約束驗證——用戶可專注于定義一組要驗證的數(shù)據(jù)質量約束。Deequ 負責導出要對數(shù)據(jù)進行計算的所需指標集。Deequ 生成數(shù)據(jù)質量報告,其中包含約束驗證的結果。

約束建議 - 用戶可選擇定義自己的自定義數(shù)據(jù)質量約束,或使用自動約束建議方法來分析數(shù)據(jù)以推斷有用的約束。

Python 包裝器——可使用 Python 語法調用每個 Deequ 函數(shù)。包裝器將命令轉換為底層 Deequ 調用并返回它們的響應。

2.2 架構 三. DataWorks(阿里巴巴數(shù)據(jù)質量監(jiān)控平臺)

DataWorks(數(shù)據(jù)工場,原大數(shù)據(jù)開發(fā)套件)是阿里云重要的PaaS(Platform-as-a-Service)平臺產(chǎn)品,可提供數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、數(shù)據(jù)地圖、數(shù)據(jù)質量和數(shù)據(jù)服務等全方位的產(chǎn)品服務,一站式開發(fā)管理的界面,幫助企業(yè)專注于數(shù)據(jù)價值的挖掘和探索。

DataWorks支持多種計算和存儲引擎服務,包括離線計算MaxCompute、開源大數(shù)據(jù)引擎E-MapReduce、實時計算(基于Flink)、機器學習PAI、圖計算服務Graph Compute和交互式分析服務等,并且支持用戶自定義接入計算和存儲服務。DataWorks可提供全鏈路智能大數(shù)據(jù)及AI開發(fā)和治理服務。

DataWorks,可對數(shù)據(jù)進行傳輸、轉換和集成等操作,從不同的數(shù)據(jù)存儲引入數(shù)據(jù),并進行轉化和開發(fā),最后將處理好的數(shù)據(jù)同步至其它數(shù)據(jù)系統(tǒng)。

3.1 架構 3.2 數(shù)據(jù)質量

數(shù)據(jù)質量是支持多種異構數(shù)據(jù)源的質量校驗、通知及管理服務的一站式平臺。

數(shù)據(jù)質量依托DataWorks平臺,提供全鏈路的數(shù)據(jù)質量方案,包括數(shù)據(jù)探查、對比、質量監(jiān)控、SQL掃描和智能報警等功能。

數(shù)據(jù)質量監(jiān)控可以全程監(jiān)控數(shù)據(jù)加工流水線,根據(jù)質量規(guī)則及時發(fā)現(xiàn)問題,并通過報警通知負責人及時處理。

數(shù)據(jù)質量以數(shù)據(jù)集(DataSet)為監(jiān)控對象。目前,數(shù)據(jù)質量支持EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute數(shù)據(jù)表和DataHub實時數(shù)據(jù)流的監(jiān)控。當離線數(shù)據(jù)發(fā)生變化時,數(shù)據(jù)質量會對數(shù)據(jù)進行校驗,并阻塞生產(chǎn)鏈路,以避免問題數(shù)據(jù)污染擴散。同時,數(shù)據(jù)質量支持管理歷史校驗結果,用戶可對數(shù)據(jù)質量進行分析和定級。

在流式數(shù)據(jù)場景下,數(shù)據(jù)質量能夠基于DataHub數(shù)據(jù)通道進行監(jiān)控和斷流,第一時間告警給訂閱用戶。數(shù)據(jù)質量支持設置橙色、紅色告警等級和告警頻次,最大限度地減少冗余報警。

四. DataMan(美團點評數(shù)據(jù)質量監(jiān)控平臺)

DataMan系統(tǒng)建設總體方案基于美團的大數(shù)據(jù)技術平臺。自底向上包括:檢測數(shù)據(jù)采集、質量集市處理層;質量規(guī)則引擎模型存儲層;系統(tǒng)功能層及系統(tǒng)應用展示層等。整個數(shù)據(jù)質量檢核點基于技術性、業(yè)務性檢測,形成完整的數(shù)據(jù)質量報告與問題跟蹤機制,創(chuàng)建質量知識庫,確保數(shù)據(jù)質量的完整性(Completeness)、正確性(Correctness)、當前性(Currency)、一致性(Consistency)。

??End


(部分內容來源網(wǎng)絡,如有侵權請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢