- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2025-07-17來源:CDO研習社瀏覽數:181次
近年來,宏觀經濟進入新常態,建設“數字中國”、發展“數字經濟”成為國家戰略。政府大力推進大數據技術產業創新,發展以數據為關鍵要素的數字經濟,國務院國資委也不斷加強科技創新工作推進力度,引導和推動中央企業發展戰略性新興產業,攻克關鍵核心技術,助力我國建設科技強國。
2022 年 1 月,國務院印發《“十四五”數字經濟發展規劃》,提出“充分發揮數據要素作用”“大力推進產業數字化轉型”的具體指示。為實現數字集團戰略愿景,需健全完善集團數據治理體系,增強數據治理能力,構建集團統一數據湖,針對集團經營管理和生產運營過程中產生的數據,進行匯聚、治理、共享、賦能的規劃與實施工作,實現數據采集一貫到底,充分發揮數據要素價值,提升經營管理能力,加速數據與業務融合,賦能數字經濟發展。圍繞集團數字化轉型的要求,在集團信創云平臺環境上建設一套數據湖平臺,實現對集團數據進行入湖存儲和計算分析,并提供數據匯聚、開發、共享服務、數據標準化等數據治理能力。
1 數據湖平臺選型要求
1.1 數據底座存儲要求
作為數據湖的存儲系統,要求可線性擴展,支持海量數據存儲且應支持結構化、半結構化、非結構化等各種形式數據存儲,支持湖倉一體架構,支撐各類數據應用。湖倉集一體架構是第三代大數據平臺架構,大數據平臺架構演進如圖 1 所示。

圖 1 大數據平臺架構演進
在數據從數據源產生后,可以實時、T+1 天時效進入到數據湖存儲。既可以用來支撐集團內部高時效數據的分析和處理,也可以支撐集團內部數據的批量分析和處理。要求如下。
1.1.1 實時入湖存儲能力
支持數據實時入湖存儲。支持數據以實時追加或更新的方式進行入湖,支持傳統關系型數據庫到數據湖數據的增量同步,支持數據 update/delete 能力寫入文件系統。
1.1.2 批量入湖存儲能力
支持數據批量入湖存儲。支持通過批量集成、批量導入等工具,以定時加載或實時處理的方式,將常見的數據源 ( 如業務數據庫、FTP 文件系統、消息日志、IoT 數據等 ) 的數據,批量接入到數據湖中進行存儲、加工、分析。
1.1.3 流批一體數據加工能力
支持流批一體數據加工模式。支持分布式計算架構,豐富的計算引擎支持按照業務場景支撐海量數據的實時和批量 ETL、邏輯程序處理、靈活查詢等多個場景所需的數據加工引擎。支持數據湖內的數據分層、數據模型建設,采用流批一體加工引擎及交互式查詢引擎,進行數據入湖、加工、查詢,要求分鐘級完成端到端數據加工,并可以對加工結果進行即席查詢。
1.1.4 分布式存儲能力
提供分布式存儲能力。支持提供 HDFS 等分布式文件系統,提供訪問 HDFS 的 REST 接口,通過REST 接口可實現創建、刪除、上傳、下載文件等操作,在大規模集群場景下,HDFS 等分布式存儲支持DN 分組,保證集群性能不受影響。
支持對接分布式對象存儲、分布式數據庫以適應不同的存儲需求 ;支持在線橫向擴展,無需停機即可增加存儲容量和性能。
系統應通過數據分片和副本復制技術,確保數據在部分節點故障時的可用性和完整性。
1.1.5 存算分離能力
支持計算、存儲服務分離 :數據可以存儲在低成本的存儲服務中,包含對象存儲服務。
1.2 數據底座計算要求
數據湖需搭載多模異構的分布式存儲和計算引擎,包含分布式分析引擎、流計算引擎、高性能數據庫、全文檢索引擎等組件, 支持NoSQL、HiveQL、標準SQL等 SQL語法方言。
1.2.1 離線計算
提供高性能的離線批處理作業運行能力,用于處理 SQL 類 / 非 SQL 類批處理作業,主要包括批處理 SQL 引擎和交互查詢引擎,需支持批處理組件 (如Spark+Hive、Flink+Hive 等 )、分布式計算架構、統一標準 SQL 對多數據源訪問、統一資源調度、動態伸縮能力。
1.2.2 實時流計算
提供高性能的實時數據流計算處理能力,流處理應用需要在一定時間內存儲所接收到的事件或中間結果,以供后續某個時間點訪問并進行后續處理。實時流計算需支持多種基礎狀態類型、精確一次語義、豐富的時間語義、流上執行類 SQL 任務、分布式計算架構。
1.2.3 搜索引擎
搜索引擎支持對存儲在其上的數據的任意資源創建高效索引,適用于全文檢索和多字段綜合搜索場景。搜索引擎服務支持結構化、非結構化文本的多條件檢索、統計和報表生成,擁有完善的監控體系,提供一系列系統、集群以及查詢性能等關鍵指標,支持日志搜索和分析,支持對時空檢索、時序檢索的功能集成和拓展,支持智能搜索等場景。
1.2.4 高性能數據庫
提供高性能、實時的分析型數據庫,供集團實時數倉使用,秒級海量數據查詢、支持高并發查詢、支持高吞吐的復雜分析場景、全面元數據管理、支持標準 SQL等。高性能數據庫能夠較好地滿足報表分析、即席查詢、統一模型構建、數據湖聯邦查詢加速等使用場景,用戶可以在此之上構建涉財數據分析、日志檢索分析、用戶畫像分析等應用。
1.2.5 基于內存的分布式執行引擎
內存的分布式執行引擎支持快速的計算、寫入,以及交互式查詢的框架。允許將用戶顯示的數據轉換過程持久化到硬盤。對于數據本地化,通過允許用戶能夠基于每條記錄的鍵值,控制數據分區實現。分布式執行引擎要能夠對數據底座中各類存儲引擎做統一的數據調度與計算,數據底座能力架構如圖 2所示。

圖 2 數據底座能力架構
1.2.6 多租戶模式
支持集團用戶按照多租戶模式管理自身計算模塊需求。
1.3 工具要求
數據湖需要滿足數據管理要求,持續優化開發體驗和提高開發效率,并支持與現有相關平臺對接,實現數據交換與應用,支持第三方關系型數據庫的數據全量加載以及多租戶部署,以滿足不同業務單元的需求。為滿足數據管理相關要求,平臺工具需要具備數據開發、數據治理、數據資產運營等能力,一方面支撐數據的接入,另一方面支持數據對外共享,數據管理能力規劃如圖 3 所示。

圖 3 數據管理能力規劃
1.3.1 數據匯聚管理
支持從結構化、非結構化、消息等各類型數據和不同的數據源批量、實時入湖,包括離線和實時數據集成,支持批量、實時、一次性等多種采集方式。
1.3.2 數據開發管理
支撐數據治理腳本、作業的開發、編排和調度,支持業務模型創建,支持快捷可視化開發。包括數據集成、數據采集、數據開發、數據模型等,支持一站式編排、調度、運維管控,實現工作流編排、作業調度、運維監控、數據管理等一站式操作,無須切換多個工具。
數據開發提供可視化的圖形開發界面、豐富的數據開發類型、全托管的作業調度和運維監控能力,支持多人在線協同開發,支持管理多種大數據云服務。
支持配置離線、實時數據同步任務,支持對全量數據提取和增量數據提取及處理,支持從關系型數據庫、文件系統、API、消息隊列等多種數據源提取數據,并對各個任務流程進行監控。
1.3.3 數據資產管理
數據資產目錄是集團數據湖的數據資產全景視圖,以數據目錄的方式形象地展示數據湖的數據分布情況,實現對數據湖數據資產的全方位搜索以及數據的溯源和去向分析,服務于數據共享和數據應用。數據目錄與元數據功能打通,提供數據資產的統一視圖,支持數據智能搜索、數據資產標識、數據血緣分析、數據資產概覽等能力。
支持通過分層架構表達對數據的分類和定義,厘清數據資產,明確業務領域和業務對象的關聯關系,用于目錄化管理所有業務數據,便于數據的歸類、查找、評價和使用。
1.3.4 數據服務管理
建設集團統一數據門戶,提供統一門戶服務,構建多平臺間協同框架,提升數據標準化治理與業務管理的體驗與效率。實現統一管控、流程貫通、資源共享、數據運營的功能。實現對各類工具的統一管理。支持統一用戶、統一認證和單點登錄,統一門戶實現跨平臺的統一用戶和統一認證,提供單點登錄機制。通過統一認證和單點登錄,能夠實現數據賬號的統一管理。
數據交換服務基于數據資產地圖提供各種數據共享交換服務,整個服務門戶可以分為前后臺,主要包括數據集成、交換任務管理、數據服務支撐、共享目錄管理等功能模塊。 支持服務發布、訂閱、測試及審核管理,同時支持對服務調用情況進行監控,以確保平臺采集管理的數據實現正常交換共享。支持快速將數據表生成數據 API 的能力,支持通過可視化配置的向導模式快速生成數據 API 功能。確保數據接口的安全性和穩定性,對接口進行訪問控制和權限管理,防止數據被非法訪問。提供服務的安全授權功能,授權用戶允許訪問的服務,支持黑白名單、速率控制、調用次數限制等安全控制功能,實現數據服務的統一管理,保障數據的安全共享。
1.3.5 數據安全管理
基于資源和基于標簽的細粒度進行權限管理,提供數據生命周期內統一的數據使用保護能力,通過敏感數據識別、分級分類、隱私保護、資源權限控制、數據加密傳輸、加密存儲、數據風險識別等措施,幫助用戶建立安全預警機制,增強整體安全防護能力,讓數據可用不可得和安全合規。
1.3.6 數據治理管控
數據質量是數據治理的最終目標。入湖數據需要數據標準管控,實現數據標準的集中管理。通過數據質量管控對數據標準的符合程度進行稽核與改善,生成數據質量報告,快速定位低質量數據,設置數據對賬作業。采集和管理元數據,對數據開發過程中的數據血緣進行自動采集,形成數據地圖,支撐數據資產的統一管理。
1.3.7 多租戶管理
數據湖要支持集團用戶按照多租戶模式管理自身計算模塊需求,支持集團各層級單位的多租戶需求,各租戶可以自行管控自身搭建的數據湖體系,實現獨立的互不干擾的數據存儲、計算和管理,能夠按照自身需求發布租戶管轄下的數據服務。
1.4 平臺整體架構要求
數據湖平臺應具備完整的數據平臺整體解決方案能力,滿足功能性要求和非功能性要求,包含存儲要求、計算要求、管理要求等技術要求以及二次開發要求等。根據相關要求,數據湖平臺起到承上啟下、統一標準、融合貫通的能力,賦能數據入湖、存儲、出湖、應用全過程,平臺整體功能架構如圖 4所示。

圖 4 平臺整體功能架構
(1) 平臺數據存儲應支持線性擴展,支持結構化、半結構化、非結構化等各種形式數據存儲。
(2) 平臺具備強大的數據計算能力,包含離線計算、實時流計算、快捷搜索能力、分布式執行能力、多租戶模式,以及各種高性能數據庫。
(3) 平臺支持 PB 級別數據量實時分析和檢索,具備大規模搜索和分析能力,能夠在 PB 數據量級上實現秒級響應搜索功能。
(4) 支持部署在信創服務器中使用,且支持多種常見國產操作系統。平臺組件支持云原生部署,核心存儲計算組件滿足國產化要求,支持部署在國產主流信創服務器,并且支持不同操作系統、CPU 架構的服務器同集群混合部署。
(5) 集群規模可平行擴展,物理機擴容及縮容過程平滑。平臺具備資源彈性共享能力,可提高資源利用率,同時具備良好的隔離性,可保障服務質量和安全性,可全面支持一鍵式部署、擴容、縮容,同時也允許虛擬機環境下其他服務和大數據服務共享集群,從而提高資源的使用率。
(6) 數據湖平臺支持市場常見的數據源類型,支持包括關系型數據庫、非關系型數據庫、國產主流數據庫,以及數據倉庫、搜索引擎、文件系統HDFS、Hive 等多種同構、異構數據源之間的數據遷移,并支持數據單向、雙向遷移。
(7) 平臺支持在同一節點上部署多個同類實例,進而提升資源利用率。首先,對部署節點的硬件資源進行詳細評估,包括 CPU、內存、存儲和網絡帶寬等,可確定節點的最大承載能力。其次,分析單個實例在不同負載下的資源使用情況,包括正常運行、高負載讀寫等場景下對 CPU、內存和存儲的需求。最后,針對每個實例,調整關鍵參數以適應多實例部署環境。
2 數據湖架構設計
2.1 數據整體架構
根據數據湖平臺與工具選型相關要求,集團需要規劃多模異構數據湖平臺,在同一平臺中實現數據多模態數據存儲計算需求,避免數據移動,將原始的、加工清洗的、模型化的數據,共同存儲于一體化的“湖倉”中,既能面向業務實現高并發、精準化、高性能的歷史數據、實時數據的查詢服務,又能承載分析報表、批處理、數據挖掘等分析型數據集市業務,實現多模異構的“湖倉一體”方案。
除了湖倉一體能力外,平臺支持實時數據與批量數據的混合處理,即流批一體能力。平臺通過統一流批計算引擎 ( 如Flink/Spark) 及流批一體API(Table API & SQL),實現同一作業無縫處理實時流數據與歷史批量數據,確保數據一致性與計算效率。依托數據湖存儲的更新能力,平臺支持實時增量數據與離線全量數據的聯合分析,例如 :實時風控中融合流式交易流與歷史用戶畫像,或實時看板同步更新批處理修復后的數據。同時,統一狀態管理與 Exactly-Once 語義保障了端到端數據可靠性,資源調度層動態適配流批負載,降低運維復雜度。此架構已支撐企業實時推薦、供應鏈監控等場景,未來可擴展至多模態數據處理,全面賦能業務敏捷決策。
2.2 數據采集匯聚
平臺通過多模態數據集成構建統一采集中臺,覆蓋實時數據接入和離線批量歸集。
(1) 實時數據接入
流任務管理模塊可實時捕獲財務流水、訂單、人力資源等動態數據,結合 OCR 分類 ( 如發票識別 )與事件模塊處理異常告警,支撐“運營監控”與“智能投資”場景。
(2) 離線批量歸集
數據集成工具從合并、核算、預算、財務共享、主數據、人力資源、合同等系統抽取歷史交易記錄、客戶檔案、合同文本等數據,通過分交與分場邏輯完成數據清洗,解決數據分析斷層問題。
2.3 數據治理管控
通過多個治理模塊構建數據資產化體系。
(1) 數據質量管理
數據質量管理是確保數據準確性、完整性、一致性、及時性和可用性的核心環節,通過數據質量規則定義與管理、數據清洗與修復、數據質量監控與告警、血緣追蹤溯源等方式保障數據可信度,為集團的智能決策、風險管控、資源優化提供基礎支撐。
(2) 數據標準管理
數據標準管理是確保數據定義、格式、使用規范統一的核心能力,通過標準制定與執行、元數據驅動、合規性管控等方式實現數據語義一致性,為集團的數據共享、跨系統協作和業務協同提供規范化基礎。
(3) 數據安全管理
除了數據分類分級能力外,平臺的系統保護模塊通過 RBAC 權限控制 ( 如財務數據僅限審計角色訪問 ),滿足企業審計與隱私保護要求。
根據上述能力,以數據的“采、存、管、用”為主線,打造一體化的數據湖平臺,數據湖架構設計如圖 5 所示。

圖 5 數據湖架構設計
3 結語
在數據湖工具的構建過程中,集團引入了先進的數據湖技術框架,并緊密結合集團特色的業務需求與數據特性,成功搭建了一個兼具高擴展性、高可用性和強安全性的數據湖平臺。以此平臺為基礎,集團統一了數據入湖標準,不僅完成了集團統建系統的數據治理與匯聚入湖,也與下級 10 余家二級單位進行聯通,有效促進了集團各層級、跨組織、多業態數據的高效共享。同時,集團構建了全面、及時且準確的信息架構,建立了集團全域數據資產目錄,制定了數據主題域、質量、元數據管理機制,并持續優化運營流程。
展望未來,隨著集團對數據賦能能力需求的不斷深化,以及數據湖技術的持續發展與創新,集團的數據湖工具將面臨更高的要求。需要進一步強化其功能,提升性能,補齊短板,例如完善數據資產注冊與發布機制、優化質量評估流程、加強數據生命周期管理,并實現數據共享與集團管理流程的全流程貫通。此外,集團還將積極探索數據湖與其他新興技術的融合應用,例如“AI for data”,深入探索大模型能力對數據湖工具能力的提升,以提高數據湖的智能化水平,助力集團在數字化和人工智能時代實現可持續發展。