- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-06-01來源:世界你獨自悲傷瀏覽數:709次
數據中臺是聚合跨域數據,對數據進行清洗、轉換、整合,實現數據標準化、集成化、標簽化,沉淀共性數據服務能力,以快速響應業務需求,支撐數據融通共享、分析挖掘和數據運營,創造業務價值。
01 數據是數字化轉型的基礎和引擎
早期業務發展過程中,企業為了解決些當下的業務問題,按照垂直的、個性化的業務邏輯部署IT系統,各種信息系統大多是獨立采購與建設的,與流程、底層系統耦合較深,橫向和上下游系統之間的交叉關聯也較多,導致企業內部形成多個數據孤島,很難做到信息的完全互聯互通。

數據湖是支撐企業數字化轉型的數據底座,是提供數據驅動、精準決策的全方位技術支撐。
面向企業各個事業部、子公司,建設統一數據湖:統一整合企業內、外部各類業務系統數據,確保企業數據最全,唯一。
統一管理內外部數據資產,形成企業統一數據治理標準及規范,加強數據安全管控及數據安全。
支撐企業以及各個事業部、子公司創新型應用和業務,推動企業數字化轉型。

數據價值將經歷數據統一化、數據資產化、數據業務化、數據生態化四個階段,最終實現數據交易共享。

02 數據底座的新架構
1.數據倉庫
通常是業務發展到一定規模后,業務分析師、CIO、決策者們,希望從大量的應用系統、業務數據中進行關聯分析,最終得到“干貨”出來。
比如為什么利潤會下滑?為什么庫存周轉變慢了?向數據要答案,生成報告、圖表出來給決策層匯報,輔助經營決策。可是,數據庫“腦容量不足”,擅長事務性工作,不擅長分析型的工作,于是就產生了數據倉庫。
數據倉庫相當于一個集成化數據管理的平臺,從多個數據源抽取有價值的數據,在倉庫內轉換和流動,并提供給BI等分析工具來輸出干貨。

2.數據湖
數據湖(Data Lake)是一個存儲企業的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。
數據湖的本質是由 數據存儲架構 + 數據處理工具 組成的解決方案。
由數據源抽取經過管理流程完成進入數據湖區,出湖數據對外分發時也需要配套管理流程,進入數據倉庫對應的數據區,經數據治理后形成數據資產目錄,最后根據不同使用角色落地應用。

一類工具,解決的問題是如何把數據“搬到”湖里,包括定義數據源、制定數據訪問策略和安全策略,并移動數據、編制數據目錄等等。
一類工具,就是要從湖里的海量數據中“淘金”。數據并不是存進數據湖里就萬事大吉,要對數據進行分析、挖掘、利用,比如要對湖里的數據進行查詢,同時要把數據提供給機器學習、數據科學類的業務,便于“點石成金”
數據倉庫可以是獨立的標準化產品,數據湖則是一種架構,通常是圍繞對象存儲為“湖底座”的大數據管理方案組合。

目前來看,數據倉庫主要應用于批處理報告、BI及可視化分析,而數據湖主要應用于機器學習、數據發現、流處理等高階應用。(詳見:3萬字詳解數據中臺、數據倉庫、數據庫、和數據湖(下))
3.湖倉一體
湖倉一體架構最重要的一點,是實現“湖里”和“倉里”的數據/元數據能夠無縫打通,并且“自由”流動。
湖里的“新鮮”數據可以流到倉里,甚至可以直接被數倉使用,而倉里的“不新鮮”數據,也可以流到湖里,低成本長久保存,供未來的數據挖掘使用。

4.數據中臺
數據中臺是聚合跨域數據,對數據進行清洗、轉換、整合,實現數據標準化、集成化、標簽化,沉淀共性數據服務能力,以快速響應業務需求,支撐數據融通共享、分析挖掘和數據運營,創造業務價值。
各類數據技術是構建數據中臺的基礎,能夠高效對數據進行統一收集、處理、儲存、計算、分析和可視化呈現,使數據最終與業務鏈條結合,真正轉化為企業核心資產。而從廣義上,數據中臺更是一種企業組織管理模式和理念,集公司戰略決心、組織架構、技術架構于一體,企業從戰略上構建統一的協同基座即中臺化組織,以協調和支持各業務部門,用技術拓展商業邊界,為新業務、新部門提供成長空間。

中臺戰略核心是數據服務的共享。數據中臺是圍繞向上層應用提供數據服務構建的,中臺戰略讓數據在數據平臺和業務系統之間形成了一個良性的閉環,也就是實現應用與數據之間解藕,并實現緊密交互。數據中臺建立后,會形成數據API,為企業和客戶提供高效各種數據服務。數據中臺整體技術架構上采用云計算架構模式,將數據資源、計算資源、存儲資源充分云化,并通過多租戶技術進行資源打包整合,并進行開放,為用戶提供“一站式”數據服務。
數據中臺不是一套軟件,也不是一個信息系統,而是一系列數據組件的集合,企業基于自身的信息化建設基礎、數據基礎以及業務特點對數據中臺的能力進行定義,基于能力定義利用數據組件搭建自己的數據中臺。
03 數據底座設計方案
1.數據湖功能架構
一般來說,數據湖主要由數據接入、數據存儲、數據處理、建模、微服務、中間件等組件組成。

2.數據流轉架構
由統一的租戶(企業集團層面)進行數據的歸集,并加工成標準統一的數據集或指標。基于租戶權限自動將數據分發給相應的租戶。各租戶無需重復進行數據集成和加工,一般是1+N模式的企業組織架構,如一個集團,N個不同地域但相同業務屬性的子公司。

1+N數據湖體系:1個數據湖,N個租戶、N個數據倉庫、N個數據集市、N個數據創新實驗室。
3.數據入湖流程
非/半機構化數據采用離線采集的方式,批量導入任務調度工具,結構化數據采用ETL工具進入任務調度工具,實時數據采用各種采集器經Kafka與流處理引擎進入數據湖。

04 數據底座的數據治理
聚焦“戰略指導、組織機制、專項能力、技術支撐”四層建設,為企業數字化轉型提供穩定數據保障基礎。

1.統一的數據管控平臺
數據管控管控服務,集成數據標準、數據質量、數據安全等全方位數據治理能力。
主要能力包括:
數據標準:數據標準編目、錄入、發布、貫標、落標全方位能力提供。
落標檢查:通過貫標流程,執行標準落標檢查,賦能數據標準落地,實現貫標成果。
數據質量:以SQL形式靈活構建數據質量檢查規則,高效檢測數據質量缺陷。
質量模板:參數化的模板形式,復用質量規則,解決質量規則構建低效、繁雜的痛點。
質量報告:可視化展示數據質量檢查結果,多維度展示質量問題。
數據權限:以最細粒度管控至行列級權限的全方位數據權限管控,保證數據使用安全。
數據保護:結合智能化手段和咨詢方法論,妥善處理敏感數據,保護數據隱私。
2.數據資產目錄
統一的數據資產目錄,實現全局數據資產統管,對外提供數據資產服務。
主要能力包括:
元數據:自動化采集多元異構數據庫資源列表詳情,提供全局元數據服務。
數據血緣:自動化采集數據血緣關系,提效數據溯源和故障定位。
數據特征:分析數據資產全方位信息視圖,賦能用戶高效數據探查。
數據推薦:通過協同過濾算法,精準推薦用戶需要的數據資產。
相似性分析:基于數據相似性來實現數據資產的智能匹配,賦能自動標簽、自動落標。
數據地圖:數據地圖門戶,支持可視化、層級化展現全局數據資產,根據數據探查需求進行下鉆、分析。
數據搜索:提供高性能全局數據資產搜索,幫助用戶快速獲取目標數據資產。
資產關聯:提供標簽、描述、關聯數據標準和其他數據資產的方式豐富資產視圖。
3.數據安全
《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》提出:加強數據資源整合和安全保護。探索建立統一規范的數據管理制度,提高數據質量和規范性,豐富數據產品。
研究根據數據性質完善產權性質。制定數據隱私保護制度和安全審查制度。推動完善適用于大數據環境下的數據分類分級安全保護制度,加強對政務數據、企業商業秘密和個人數據的保護。

隱私計算使數據在加密狀態下可以計算,安全性和準確性由數學理論保證,無需提供可信第三方、平臺硬件以及操作系統。

05 數據服務能力
能力構成包括:
數據API:通過API為各個應用提供數據接口,打通應用之間的數據流轉,構建新型應用。
數據標簽平臺:為業務部門直接提供有業務語義的高質量數據生產資料。
數據交換共享平臺:為各個不同的部分提供有業務語義的數據搜索與共享能力,打通數據孤島,構建業務協同效應。
數據報表平臺:提供可視化報表的開發與分享能力,從數據統計中發現數據價值。
數據科學平臺:提供數據建模、模型運行、模型服務發布等能力,幫助數據分析師構建端到端的機器學習開發與運行能力。
數據API服務開發、發布、調用管理與監控統計的數據服務平臺,將多樣的數據轉換為業務應用直接使用的數據資產,打通數據與業務,完善企業數據中臺建設,數據API服務開發、發布、管控。

標簽建設開發、生命周期管理、標簽應用為一體,支撐企業差異化的標簽畫像服務和運營需求;通過標簽開發、管理、更新、監控、用戶畫像賦能企業更好的洞察客戶需求、防控業務風險、提高服務質量和效率。

數據交換共享平臺支撐企業數據共享交換的基礎性互聯互通平臺。促進數據交易,實現企業內外部跨層級、跨系統、跨部門的數據共享和業務協同提供基礎支撐。

<END>