- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-05-31來源:本宮是妃瀏覽數:296次
著企業業務的快速發展以及全面的數字化,企業內部業務和數據系統會變得眾多,當這些數據匯聚之后,需要處理的各種結構化和非結構化數據的數據規模也因此急劇膨脹。
一、數字化轉型背景下,企業數據平臺面臨多重挑戰
1數據平臺是支撐企業數字化轉型的核心基礎設施
數據平臺是企業進行數據分析和數據應用,從而實現數字化轉型的核心基礎設施。通常,數據平臺包含數據采集與接入、數據存儲與計算、數據管理、數據分析與挖掘、數據服務等功能。
圖 1???典型數據平臺架構從業務的角度,數據平臺支撐了企業數字化轉型的各項需求,企業因此能夠實現精細化運營,從而降低運營成本、提高運營效率、提升創新能力。具體而言,通過數據平臺的應用,企業可以在業務中實現數據驅動,從而達成以下目標:
1)準確洞察用戶畫像和用戶需求;2)及時感知市場趨勢;3)降低管理和生產成本;4)設計和生產出更符合用戶需求的產品;5)更快地推出和迭代產品。
2企業數據管理與應用正面臨一系列挑戰
近年來,面對市場環境的快速變化,以及政府對發展數字經濟的促進舉措,企業對數字化的價值的理解愈加深刻。在各行業企業或政府部門紛紛加快數據基礎設施的建設的同時,數據在企業經營管理中的應用廣度和深度也隨之極大地擴展,由此帶來數據管理與應用的一系列問題和挑戰。
(1)數據規模持續膨脹,數據資產管理重要性提升隨著企業業務的快速發展以及全面的數字化,企業內部業務和數據系統會變得眾多,當這些數據匯聚之后,需要處理的各種結構化和非結構化數據的數據規模也因此急劇膨脹。這給企業的數據應用和數據資產管理帶來了以下問題:
1)不確定數據價值。企業用戶往往不能確定系統中有哪些數據,也不知道自己的業務問題可以使用哪些數據來解決。
2)不能共享數據。企業缺少統一的數據管理標準,導致各業務部門之間難以對數據進行匯聚、共享和使用,從而無法發揮大數據的協同價值。
3)難以獲取所需數據。用戶獲取所需數據的過程太長和復雜,且缺乏有效的數據開發工具,導致用戶獲取和使用數據存在困難。
(2)數據應用場景持續擴展,敏捷性、易用性、實時性、智能化要求提升為了充分發揮數據的價值,數據驅動的決策和業務應用正逐漸滲透進企業的各個部門和各個業務線。面對數據應用場景的持續擴展,企業對其底層數據平臺也提出更高的技術和能力要求,包括了敏捷性、易用性、實時性、智能化四個方面的要求,具體如下:敏捷性。企業存在大量數據分析,尤其是創新性的數據分析和應用需求。但傳統豎井式建設的信息系統修改困難、集成混亂;企業缺乏自有的技術開發能力,無法快速響應業務需求。易用性。數據平臺逐漸由賦能數據部門轉向全面賦能業務部門,而使用傳統數據平臺需要的編程和數據分析能力是大部分業務人員所不具備的,因此需要新一代的數據平臺具備低門檻的自助分析能力,適應不同能力的數據或業務人員。實時性。企業在生產和運營中存在越來越多的實時決策場景,如何快速查找、分析和獲得數據洞察是當前數據平臺面臨的一大挑戰,需要從平臺的架構設計、計算和存儲引擎,以及業務流程優化上滿足數據分析的實時性需求。智能化。在數據應用越來越多的背景下,企業相關的人力配備已不能滿足需求,因此需要平臺具備智能化的能力,一方面在數據分析環節引入自動化能力,減少人工操作,降低人力成本。另一方面,通過平臺的智能預測能力,提高業務決策效率和能力。
(3) 數據安全合規要求趨嚴數字化時代,數據安全風險已經滲透在數據應用中的各個層面,例如數據采集、數據傳輸、數據存儲、數據共享等,因此企業數據泄漏造成的損失和風險的可能在加大。與此同時,大眾對數據隱私的關注,加上監管對數據安全要求的趨嚴,都促使企業在搭建新一代的數據平臺時,需要在各個層級上都建立完善的安全機制防范數據泄漏的風險。表1? 數據安全重點法律法規
二、構建新一代數據基礎設施:數據智能平臺
1數據智能平臺的定義
要定義新一代的數據基礎設施,我們首先需要闡明在之前的發展階段中,不同階段的數據基礎設施產生的原因、應用場景和面對新階段的需求時的局限性。數據基礎設施經過數十年的發展,已經依次經歷了三個階段:數據庫、數據倉庫、大數據平臺。在數據庫階段,企業對數據的使用需求主要是面向管理層從宏觀層面對公司的經營狀況做描述性分析,處理的數據為有限的結構化數據。在數據倉庫階段,企業對數據的使用需求從面向管理層拓寬到面向業務人員,主要滿足一些業務監測和洞察類的數據查詢和分析需求,處理的數據依然以結構化數據為主。在大數據平臺階段,企業需要處理大規模、多源異構的數據,對業務的監測和洞察也更多地偏向診斷性和預測性分析。而到了2019年之后數字化轉型的新階段中,企業對數據應用的范圍從之前的管理層和部分業務人員擴展到了跨部門、跨企業的數據共享,需要進行大量面向業務,實時和智能決策的探索式、自助式分析,并且需要處理超大規模的多源異構和實時數據。如第一章節所述,這些變化對數據管理和應用帶來了一系列挑戰和需求,傳統的數據平臺已經無法滿足,新一代的數據基礎設施即是要解決這些問題。
圖 2? 數據基礎設施的演進歷程因此,新一代的數據基礎設施,數據智能平臺,可以被定義為企業數字化運營深入階段的統一數據能力平臺,能夠對數據資產按統一標準進行管理以方便數據可用,并滿足企業對數據應用的敏捷開發、實時響應、簡單易用、智能分析等需求,同時具備完善的數據安全機制。
2數據智能平臺的核心能力
基于對數字化轉型深入階段,企業在數據管理和應用中需要面對和解決的問題的理解,以及對一些行業領先企業在搭建數據智能平臺中的實踐案例的調研和經驗總結,正在興起的新一代數據智能平臺需要具備云原生、AI增強、敏捷開發與應用、實時數據處理與分析四大核心能力(如圖3所示)。
圖3 數據智能平臺的四大核心能力
(1) 云原生云原生是指在應用的設計階段就為了云的運行環境而設計,包含微服務、容器化、DevOps、持續交付等特征。云原生架構能夠為數據平臺帶來以下主要能力優勢:
1)云原生架構下大數據組件都是以容器化的形式來部署,企業因此能夠快速的開發、測試、迭代和上線大數據應用,并且方便了數據的共享和復用。
2)快速集成新的開發工具。企業經常需要在數據平臺中嘗試新的功能組件,由于主流的開源軟件基本都提供了容器化部署,因此能夠快速集成到云原生架構的數據平臺中。
3)降低系統復雜性和運維成本。在云原生架構的數據平臺中,Kubernetes、Mesos等工具能夠實現統一的資源管理和調度,這極大提高了系統復雜性,提高了運行效率,并且在數據平臺中部署和運行分布式系統也更加便捷。
4)輕松實現存算分離和彈性伸縮,降低使用成本。云原生架構能夠輕松實現計算和存儲資源的分離,企業因此可以按照需求分別使用存儲和計算資源,這降低了使用成本,也簡化了多云和混合云部署。
(2)AI增強AI增強是指利用機器學習和人工智能技術使數據清洗與準備、數據分析與可視化、機器學習等分析過程中實現部分環節的自動化,從而節省大量的人力成本。AI增強的自動化能力主要體現在數據智能平臺運營過程中的以下環節:1)數據清洗與準備:自動匹配,聯接,分析,標記和注釋數據;推薦用于連接、豐富、清洗數據的最佳方法;自動執行重復的轉換和集成;自動識別數據沿襲和元數據。2)數據分析與可視化:自動查找和描述數據中的相關性、異常、聚類、關鍵驅動因素和預測等;自動生成圖表或報表;可視化或對話界面(NLQ&NLG)查找和分析數據。3)機器學習:自動特征工程;自動模型選擇和參數調整;自動模型部署和監控。
(3)敏捷開發與應用數字化的核心目標之一是要能夠支撐企業的商業創新,尤其是當數據和數據應用的規模和復雜性越來越大的時候,企業要去嘗試各種新的數據應用,就需要數據平臺具備相應的敏捷響應能力。數據智能平臺的敏捷性主要包括了工具集成的敏捷性、數據開發的敏捷性、數據分析和應用的敏捷性。
1)工具集成的敏捷性。當企業需要嘗試新的數據應用時,經常需要用到一些新的分析框架,如前文提到,云原生架構能夠為企業提供快速接入和部署新的工具或組件的敏捷化能力。
2)數據開發的敏捷性。數據開發的目的是使用各種工具,包括數據建模、數據探索、數據查詢、機器學習、數據可視化等,來完成數據分析。要實現敏捷的數據開發,通常需要企業構建一站式的數據集成和開發平臺,提供大數據的匯聚、加工、服務、資產管理等全流程能力,并降低其使用門檻。
3)數據分析和應用的敏捷性。實現數據分析和應用的敏捷性數據平臺在底層數據管理和數據分析工具上有相應的功能設計,比如,通過建立標簽體系方便用戶將數據快速應用于業務,通過提供可視化的分析工具靈活地滿足用戶的分析需求,通過AI增強能力自動識別有價值的數據并推送給用戶等。
(4)實時數據處理與分析為了應對企業越來愈多的實時性數據分析需求,數據平臺需要在以下層面具備實時性的數據處理能力:
1)實時的數據接入和數據采集。應用Kafka、RocketMQ等工具實現數據的實時采集。同時,對于核心業務系統數據,進行被動采集;對于用戶訪問行為習慣等數據,則會進行主動采集。
2)實時的數據計算與查詢。基于Flink等實時計算引擎,以及指標計算、規則計算、模型計算等多種計算處理能力,構建數據平臺的實時計算和查詢能力。
3)實時的數據分發。通過Kafka實現靈活的數據分發,以承載不同用戶的實時業務。
4)流批一體。由于企業在業務分析中使用的數據范圍越來愈多地橫跨歷史數據和實時數據,需要數據平臺具備流批一體的能力,用一套邏輯描述流與批業務,用一個引擎也能處理實時和離線數據。
3新一代數據智能平臺的架構
結合前文所述的當前企業在數據管理和應用中面臨的挑戰,以及對一些領先企業搭建的數據智能平臺的架構進行歸納總結,如圖4所示的數據智能平臺的典型架構。
圖4? 數據智能平臺的典型架構可以看到,新一代的數據智能平臺的架構至少在五個層面具有區別于傳統數據平臺架構的特征。表2? 數據智能平臺與傳統數據平臺的主要區別
三、數據智能平臺的建設方法論
類似傳統數據平臺的構建,數據智能平臺的構建是一個需要從全局進行規劃和建設,并在后續運行中能夠持續迭代的系統性工程,因此需要一套科學和完備的方法論指導這一過程。通過對多家領先企業的數據智能平臺實踐案例進行調研,總結了數據智能平臺建設過程中比較共性的最佳實踐方法論,涉及的核心環節主要包括頂層戰略規劃、應用場景規劃、基礎架構設計、數據規范與數據架構設計、組織與人員規劃等方面。他們構成的數據智能平臺建設的主要流程,以及具體包含的內容如圖5所示:
圖 5???數據智能平臺建設的關鍵環節
1頂層戰略規劃
數據智能平臺是支撐企業數字化轉型的新一代數據基礎設施,是企業各部門各業務線共同的數據平臺和數據服務體系,因此,數據智能平臺的建設的核心目的是服務于企業的整體戰略目標和業務目標。同時,數據智能平臺的建設不僅僅涉及技術架構,還會涉及企業的業務模式和組織架構,因此企業應當以頂層戰略為起點,根據業務目標規劃數據智能平臺的的建設藍圖與路徑。此外,傳統企業的部門墻問題明顯,要實現各部門間的溝通協作,共建數據智能平臺,需要企業決策層在組織架構和資源方面給予統一的調配和支持。2應用場景規劃
數據智能平臺的價值最終需要通過業務場景中的數據應用來體現,因此,平臺建設必須應用場景規劃先行,數據智能平臺應用場景規劃需要考慮以下關鍵因素:評估企業業務需求和數據現狀。從具體的業務需求場景厘清相關的業務線、相關崗位和業務流程,梳理其中的業務需求。同時,對企業的數據資產進行評估,厘清企業有哪些數據、需要補充哪些數據等。明確場景實現優先級。企業需要基于企業戰略與業務目標,可實現的業務價值、數據應用的實現成本、數據應用的可行性等方面進行評估,確定哪些優先級和緊急度比較高的場景可以應用數據平臺解決業務問題。調研和參考外部案例。企業在建設數據平臺前應當盡可能多地進行相關調研,并參考同行實踐案例,總結相關經驗。同時,可以借助有成熟經驗的數據平臺建設廠商幫助企業解決相關問題。3基礎架構設計
好的基礎架構設計能夠讓項目快速落地,并支持在現有系統上快速開發新功能、引入新數據,而一旦選擇某個技術架構并開始實施,后面出現問題再來修改的成本很高。構建新一代的數據智能平臺需要在基礎架構設計上考慮以下要點:
1)引入云原生架構,以便快速開發、測試、上線和迭代數據應用,同時滿足在工具集成、系統運維、以及存儲和計算資源上的各種敏捷性要求。
2)應用多種數據處理引擎應對多樣化的數據分析場景需求,重點是為平臺構建智能化和實時化的數據處理能力。
3)對數據和數據應用資產進行統一的管理,避免數據資產不明確、使用復雜、效益低下等問題,方便數據資產的使用、共享和復用。
4數據規范與數據架構設計
為了保證用戶能夠在數據平臺中快速找到自己所需的數據,企業需要對數據架構,即數據的組織方式,以及數據規范,即數據平臺中輸入和輸出的數據符合規范,進行合理地設計。
1)企業需要根據業務目標及業務流程設計平臺的數據架構,包括平臺提供的明細數據、匯總數據、數據分析結果、數據服務等。
2)對數據平臺的輸入數據和輸出數據進行統一規范,如在所有業務系統中使用統一的全局ID,用原子指標、統計顆粒度、業務限定等維度來派生指標名稱,構建指標體系。
5組織與人員規劃
數據智能平臺的能力與業務高度相關,因為平臺的搭建需要IT部門、數據部門、以及各業務部門溝通協調,對人員進行統籌安排。根據企業數據能力現狀,在集中式和去中心化兩種人員模式中選其一。
圖 6??數據智能平臺建設推進方式
1)集中式模式:組建一個專門的數據智能平臺團隊,由該團隊負責所有數據能力的規劃和開發。該模式好處在于數據能力的規劃和實現比較直接,能夠快速落地,難點在于需要團隊理解業務。該模式適合公司業務體系相對簡單,且軟件在企業內部只是輔助工具的傳統型企業。
2)去中心化模式:由傳統的數據平臺團隊搭建底層的平臺,各業務部門在平臺上開發和使用所需的數據應用。該模式好處在于業務部門對業務最理解,能夠開發出最滿足業務需求的數據應用,且后續迭代也更方便,難點在于需要處理好部門分工和協調的問題。該模式適合業務線龐雜,業務定制化需求較多的大型企業。
下一篇:數據資產管理體系方案...