睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一，入選IDC企業數據治理實施部署指南。同時，在IDC發布的《中國數據治理市場份額》報告中，連續四年蟬聯數據治理解決方案市場份額第一。

在線免費試用 DEMO體驗視頻介紹

睿治智能數據治理平臺

IDC蟬聯數據治理解決方案市場第一

談談集成模式數據治理的實現方法

時間：2025-05-07來源：志明瀏覽數：163次

一概述

組織經常將數據治理、數據質量和訪問控制作為孤立的工作來處理，導致系統碎片化、流程低效以及用戶采用率低。專用工具和解決方案通常根據短期業務優先級進行選擇，無法提供一致的用戶體驗，從而導致功能冗余、架構脫節、策略不一致以及投資利用不足。常見的治理挑戰包括：碎片化的用戶體驗：用戶必須瀏覽多個不相連的系統，從而降低了生產力和采用率。數據目錄采用率低：用戶很少使用與日常工作流程無關的工具。成本效率低下：功能重疊的多種工具增加了許可和運營成本。維護復雜：定制解決方案難以擴展和維護。政策執行不一致：不同的系統造成治理漏洞和風險暴露。為了應對這些挑戰，基于實際的合作伙伴關系和可擴展的設計原則，開發了一種集成數據治理方法。這種方法通過與大型企業（包括一家財富 10 強醫療保健公司）的合作以及與領先技術提供商的協作而不斷完善。二一體化數據治理技術架構通過統一的端到端數據治理方法應對這些挑戰。通過將數據目錄、元數據管理、數據質量、訪問控制、血緣和可觀察性集成到單一的、緊密結合的架構中，集成數據治理技術架構將企業數據目錄置于中心位置，協調治理要素之間的交互。利用現代平臺的原生功能并簡化技術布局，顯著提升了數據資產的價值，并提供無縫的用戶體驗。

下面是一個高級架構圖，展示了這些組件如何交互，其中數據目錄是設計的中心。該目錄可根據需要與原生平臺服務（Databricks、Snowflake、AWS Glue 等）和第三方工具（例如用于訪問治理的 TrustLogix、用于數據質量的 Ataccama）集成。數據流和治理流程是端到端協調的：

圖 1：統一數據治理架構在這種架構中，用戶（數據分析師或科學家）主要與數據目錄界面交互，以發現數據資產、了解其質量和上下文，并在需要時請求訪問。與此同時，繁重的工作在幕后進行。企業數據目錄：目錄（例如 Alation、Collibra、Atlan）充當元數據的中心樞紐。它從數據源收集技術元數據，存儲業務上下文（詞匯表、所有權、分類），并提供用于數據發現的用戶界面。在集成治理框架中，數據目錄扮演著三重角色。它不僅僅是一個注冊表，更是具有三大關鍵功能的中央治理樞紐：·信息提供者（發現和上下文）：首先，目錄是所有數據資產的信息門戶。它為數據消費者提供豐富的上下文——技術細節（模式、數據類型、配置文件）、業務上下文（描述、術語表、所有者）以及相關信息（鏈接報告、儀表板、代碼筆記本等）。通過搜索和瀏覽，用戶可以發現哪些數據存在。因此，目錄可以推動數據素養和數據發現?！ぴL問編排器（安全與合規網關）：

第二個功能是作為訪問編排器或守門人。集成目錄承擔著協調數據訪問請求和強制合規的角色。它不會取代底層安全系統，而是以用戶友好的方式與它們交互。這意味著目錄必須了解誰有權訪問什么（它可以從平臺收集這些信息），并允許授權用戶請求或獲取訪問權限。我們將目錄變成了一個內部數據市場，在其中積極執行治理策略。主動元數據概念至關重要——元數據不僅僅是被動的，它還用于自動化操作（例如授予訪問權限或觸發工作流）。·規則存儲庫和協作平臺：

第三，目錄充當業務用戶可訪問的治理規則和知識的協作平臺。這包括業務術語表、數據定義和數據質量規則。業務利益相關者（數據所有者、管理員、分析師）可以直接貢獻知識：定義業務術語并將其鏈接到數據字段，為地址數據集設置規則（例如“郵政編碼必須為五位數”），或記錄數據使用協議。目錄以人類可讀的形式存儲這些規則和定義。但除了記錄之外，這些定義還可以與執行相關聯——例如，目錄中定義的業務規則（例如“如果客戶在 12 個月內沒有交易，則被視為不活躍”）可以轉換為管道中的數據質量檢查。由于非技術用戶可以訪問目錄，它使數據治理委員會和領域專家能夠參與規則制定，而無需了解技術實現。

圖 2：數據治理神經中樞的表示通過履行這三大功能，集成架構中的數據目錄將成為數據治理的神經中樞。它不僅對數據進行編目，還主動管理數據的使用和質量。值得注意的是，人工智能和自動化增強了這三大功能：人工智能可以豐富信息（通過自動標記或建議關系），可以自動化部分訪問控制（例如根據策略自動批準某些請求），并可以幫助識別新規則或異常以將其輸入規則存儲庫。實際上，目錄從一個被動的數據字典轉變為一個主動的數據治理平臺。中央元存儲和開放表格式：集成的基礎要素是使用中央元存儲和開放表格式。傳統上，不同的分析平臺和引擎需要單獨的模式定義，從而導致重復（數據倉庫中一個模式，數據湖中另一個模式，等等）。我們的方法主張使用開放、可共享的表格式和通用元數據存儲，以統一整個生態系統的模式和存儲。共享數據定義：通過在中央元存儲（如 AWS Glue 數據目錄或 Hive Metastore 或用于多云的 Databricks Unity Catalog）中注冊所有數據資產，我們確保每個工具都引用相同的表定義。這意味著數據訪問程序，無論它們是在 Spark、Presto、Databricks 還是 Snowflake（通過外部表）中運行，都可以看到一致的數據視圖。例如，Glue 中定義的優化行列式（ORC）或 Parquet 表可以由 AWS Athena、AWS EMR Spark 和 Redshift Spectrum 平等查詢。這消除了在不同系統中手動復制數據定義語言（DDL）的容易出錯的做法。它還簡化了治理：當模式發生變化或添加新表時，它會在一個地方更新并立即反映在所有地方（包括從元存儲中提取的數據目錄）。開放表格式（例如 Delta Lake）：Delta Lake?（一種開源表格式）等技術進一步增強了這種可移植性。Delta Lake 為數據湖存儲帶來了原子性、一致性、隔離性和持久性 (ACID) 事務和模式演進，并已成為許多 Lakehouse 架構的事實標準。由于 Delta Lake 是開源的，因此多個查詢引擎（Databricks、Apache Spark、Flink、Presto 或 Trino 等）都可以讀取它。集成架構充分利用了這一優勢：以開放格式（例如 Delta、Parquet、優化行列式 (ORC) 甚至較新的 Apache Iceberg）存儲數據意味著我們不會被鎖定在一種處理引擎中。如果明天某個團隊想要使用不同的工具（例如 Google BigQuery 或 Azure Synapse），只要它支持這些開放格式，他們就可以以最小的阻力訪問數據。 Databricks 最近甚至宣布推出采用通用格式 (UniForm)的 Delta Lake 3.0 ，以彌合 Delta、Iceberg 和 Hudi 之間的兼容性，凸顯了業界提高跨引擎互操作性的舉措。數據錄入目錄：中央元存儲充當數據目錄的技術元數據輸入器。集成后，目錄不僅會提取表名和列，還會提取表位置、格式等詳細信息，有時還會提取行數或配置文件統計信息（如果可用）。某些目錄還會持續與元存儲同步，以便任何更改都會在目錄中自動更新（主動元數據同步）。這確保了目錄作為治理中心始終反映數據的當前狀態。總而言之，共享元存儲與開放表格式的結合，通過確保元數據的單一真實版本以及跨工具的廣泛數據訪問，為統一治理奠定了堅實的基礎。數據質量框架：一個用于定義、執行和監控數據質量 (DQ) 規則的強大框架。企業無需使用孤立的 DQ 工具，而是可以利用平臺原生的數據質量功能（例如 Databricks 的 Lakehouse 監控和預期功能，或 Snowflake 的數據質量功能），并將其輸出與目錄集成。原生和第三方 DQ 工具非常適合監控靜態數據，并且通常附帶標準 DQ 檢查庫。對于更復雜的規則和動態數據場景，通常需要自定義配置。輕量級服務或自定義后處理器也可用于計算其他指標或將結果推送到目錄。DQ 框架支持關鍵質量維度（準確性、完整性、一致性、及時性、有效性、唯一性），當超過閾值時會產生分數或警報。DQ 洞察不再是靜態報告——審計日志和結果會實時發布到目錄中，從而減少對 Excel 和 PDF 導出的依賴，并通過最大限度地減少數據移動來增強實時治理和合規性。例如，通過自定義 DQ 處理器將 Snowflake 和 Databricks 檢查與 Alation 集成，將 DQ 洞察實時發布到目錄中，并支持自定義的業務特定邏輯。這種集成設計方法減少了許可證開銷，增強了可審計性并確保了靈活性和可擴展性，同時將數據質量嵌入到本機處理環境中。

圖 3：集成設計方法訪問控制和安全：治理架構包含一個集成的訪問管理層。這可以是云原生訪問控制（例如用于數據權限的 Azure Purview 和 Databricks Unity Catalog，或 Snowflake 的基于角色的訪問控制 (RBAC)），也可以是像 TrustLogix 這樣覆蓋細粒度訪問策略的跨平臺安全工具。· 訪問策略集中定義，并通過數據目錄界面呈現——打造數據市場體驗，用戶可以通過受管控的工作流程發現數據并請求訪問權限。批準后，將使用底層平臺 API（例如 Snowflake GRANT、Unity Catalog 角色分配）自動應用權限，并且目錄會記錄所有訪問權限，以便審計。· 原生訪問控制平臺提供強大的執行機制。例如，Unity Catalog 使用視圖支持架構、表、列級和行級權限。Snowflake RBAC 允許基于角色的細粒度權限。AWS Lake Formation 和 Azure Purview 在云數據湖中原生提供基于策略的控制?！?對于多平臺環境，TrustLogix 等工具充當統一的策略層，抽象并執行跨系統屏蔽或聚合等規則 - 例如“分析師只能訪問聚合數據”?！?此集成允許目錄（例如 Alation）充當訪問管理網關——用戶可以直接在界面中查看權限狀態、發起訪問請求并接收更新。這減少了后門共享，并確保了跨平臺一致且合規的流程。· 可擴展性和自動化：審批可以在目錄中處理，也可以與工作流引擎（例如 ServiceNow、Jira）集成。輕量級自動化（例如通過云函數）支持快速實施，無需進行大量定制。這種方法簡化了用戶訪問，縮短了數據權限的周轉時間，并確保所有數據訪問都得到批準、可追溯且合規——符合聯合治理原則。血緣和可觀察性：為了實現端到端治理，了解數據流動和變化方式至關重要。集成方法引入了數據沿襲（源、轉換和輸出之間的關系）和可觀察性（數據管道、使用情況和異常的監控）。原生沿襲功能（例如 Databricks 的 Unity Catalog 中的功能，或 Snowflake 的查詢歷史記錄）可被捕獲，同時可以使用OpenLineage等開放標準或Manta、Ataccama、Marquez或Microsoft Purview等工具來豐富跨平臺的沿襲?！?在多個級別捕獲血統：a）技術血統（例如，列級轉換），b）管道血統（例如，移動和轉換數據的 Spark 或 ETL 作業），c）業務血統（例如，從 CRM 到儀表板的系統級可追溯性）?！?這些信息通過 API 或連接器推送到數據目錄（例如 Alation），或由數據目錄提取。然后，用戶可以直接在目錄界面中以圖表形式查看上游或下游依賴關系?！?在可觀察性方面，該架構集成了管道健康和監控洞察：數據新鮮度和 SLA 跟蹤（例如，警報延遲或失敗的數據加載）、容量和模式異常檢測（例如，行數激增/下降）、使用情況分析（例如，查詢最多的表、上次訪問時間）?！?這些信號可以來自Databricks 監控、蒙特卡洛或內置平臺元數據（例如 Snowflake 的 LAST_DDL、LAST_QUERY 或使用情況統計）等工具。這些元數據隨后會與譜系和質量得分一起顯示在目錄中?！た捎^察性與質量緊密相連：異常情況（例如，流量突然下降）可能觸發 DQ 規則失效。在我們的設計中，運行狀態（例如，“上次加載失敗”、“自上次更新以來五天”）會與 DQ 指標一起顯示，從而形成閉環并實現主動治理?！?該目錄充當集中式界面，聚合了數據沿襲、可觀察性和質量，使用戶能夠全面發現、評估和信任數據資產。這種方法使治理變得主動且具有預防性，而非被動應對，并支持聯合控制，同時提供統一的體驗。業務規則存儲庫：除了技術層面之外，治理還必須對業務知識進行編碼，例如業務規則或策略的存儲庫。該存儲庫可能位于數據目錄中，因為許多目錄都包含詞匯表模塊和策略管理，或者鏈接到外部文檔。在集成設計中，這些規則可以被數據質量 (DQ) 框架和訪問控制引用，從而確保策略的一致性。在大多數情況下，業務規則和策略將在所有數據層級上可用：數據源、模式、表和列。集成和編排平臺：最后，將所有內容結合在一起的是一個編排層——它可以只是一組 API 和腳本或一個輕量級服務總線——以確保組件之間的數據流。例如，一旦在平臺中創建新表，集成就會確保目錄得到更新；或者當數據質量作業計算分數時，它會調用 API 來更新目錄的質量儀表板。這種編排可以通過云原生工作流（例如使用由事件觸發的 AWS Lambda 或 Azure Functions）或目錄供應商提供的集成功能（某些目錄提供用于自定義集成的 SDK 或開放 API）來實現。目標是自動化：元數據同步和事件驅動的更新，以便治理生態系統無需人工干預即可保持最新。三治理中的人工智能和自動化任何現代數據戰略都必須考慮人工智能和自動化的作用，否則就不完整，尤其考慮到組織所處理的數據規模（數量、種類和速度）。在集成數據治理的背景下，人工智能和自動化如同力量倍增器，能夠使系統更智能、更主動、更易于維護。自動分類和標記：人工智能在數據目錄中的早期優勢之一是自動數據分類。利用機器學習 (ML) 和模式識別，數據目錄（或相關工具）可以掃描數據值并推斷出“電子郵件地址”或“國家代碼”等標簽，或識別個人身份信息 (PII)，例如社保號碼。這大大減少了數據管理員標記和分類數據的手動工作量。規則生成和推薦：?AI 可以更進一步，推薦數據質量規則或異常值檢測規則。例如，如果某個數值字段大部分落在某個范圍內，系統可以建議一條有效性規則（“字段 X 的值通常介于 0 到 1000 之間”）?；蛘撸绻麅蓚€表似乎總是基于某些鍵進行連接，系統可能會推斷出一條引用完整性規則。雖然人工會驗證這些規則，但它會快速啟動定義質量檢查和業務規則的流程。隨著時間的推移，系統會從反饋中學習（哪些建議被采納），從而不斷改進。異常檢測：與質量和可觀察性相關，人工智能驅動的異常檢測是數據可靠性的關鍵。異常檢測算法并非為質量指標設定靜態閾值，而是可以建立基線并檢測指標何時出現異常偏差。例如，如果一個表通常每天有 10 萬到 12 萬條記錄，而突然變成了 15 萬或 1 萬條，那么即使它沒有違反硬編碼規則，統計模型也會將其標記為異常。在綜合治理中，此類異?？梢杂|發警報，向數據工程師或管理員發出警報，促使下游用戶受到影響之前進行調查。這些警報可以通過目錄、電子郵件或 Slack 等方式顯示。元數據同步與自動化：鑒于系統數量眾多，保持元數據同步是一項經典挑戰。自動化是答案。我們設置了自動化作業（使用 API、Webhook 或調度程序），以便每當發生任何變化時，連接的組件都會更新。例如：創建 Webhook，以便在 Databricks 中創建新表、更新數據質量評分、用戶入職或角色變更等情況下自動同步。總體而言，集成方法確保每個組件（目錄、元存儲、DQ、訪問、血統）不是孤島，而是統一設計的一部分。四業務影響實施綜合治理框架可帶來顯著的效益：提高采用率和生產力：簡化的用戶體驗增加了與治理工具的參與度。成本優化：減少對專門的第三方工具的依賴并簡化維護。增強數據資產的價值：更高的可見性、可信度和可訪問性可提高數據使用率和投資回報率 (ROI)。加強合規性和風險管理：集中治理控制可提高合規有效性并降低運營風險。加速洞察：更快的入職和簡化的數據訪問減少了洞察時間，支持快速的業務決策。五小結集成治理方法將碎片化的治理轉變為統一、精簡的模型。這種設計不僅簡化了治理格局，而且從根本上增強了業務敏捷性和數據驅動的決策能力，將數據治理轉化為戰略優勢。

（部分內容來源網絡，如有侵權請聯系刪除）

立即申請數據分析/數據治理產品免費試用我要試用

上一篇：終于有人把數據治理講明了...

下一篇：金融行業實時反欺詐與跨境數據安全管控方案...