- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-12-30來源:地平線無際瀏覽數:490次
通過12年時間,阿里巴巴數據平臺建設已經有了非常多的技術積累,這些平臺能力也在不斷推動數據中臺向智能化進化,并且還會一直向前演進,服務阿里巴巴并輸出給全社會。
從2016年誕生起,“中臺”概念就一路火熱至今,對互聯網與傳統行業數字化轉型產生了極為深遠的影響。?作為“中臺”概念的提出者和先行者,阿里巴巴用12年的實踐探索了中臺能力建設和數據應用。在不斷升級和重構的過程中,阿里巴巴的中臺建設經歷了從分散的數據分析到數據中臺化能力整合,再到全局數據智能化的時代。?在當下如火如荼的中臺建設浪潮中,不少企業對于中臺建設仍存諸多迷思,中臺建設將走向何方?數據資產到底該如何管理?阿里巴巴的中臺建設之路應該能為企業帶來借鑒。 阿里云智能計算平臺事業部研究員關濤對阿里巴巴如何構建數據中臺核心三要素中的平臺技術部分進行了全盤分享,其中包括數據平臺發展的四個典型階段,支持中臺業務的四大技術挑戰,以及數據平臺的四大技術趨勢等。 在阿里中臺的成功實踐中,方法論、組織、平臺能力是“數據中臺”的核心三要素,而其中平臺能力建設最為關鍵,難度也最大。阿里巴巴在打造強大的數據中臺底座方面已經進行了積極探索,并且還在不斷與時俱進夯實底座,構建面向未來的能力。?希望本文能給企業構建數據中臺帶來更多借鑒與啟發。
01、阿里巴巴數據平臺發展的四大階段
構建數據中臺,一個強大的數據平臺作為底座必不可少。?阿里巴巴數據平臺發展的四個階段,一定程度上其實也是阿里巴巴數據中臺發展的四個階段。這四個階段里,你可以看到阿里巴巴對自身數據的商業價值的萃取,對原有分而治之的數據系統的聚合,對計算數據資產化和數據高效應用的新思路以及對數據平臺治理過程中面臨的組織變革等。階段一:業務百花齊放,發現數據價值
2009年到2012年,阿里巴巴電商業務進入爆發期,涌現出非常多有名的業務團隊,比如淘寶、1688、AliExpresss、一淘等。每個業務都是基于數據驅動的全場景業務,業務方對數據有著強烈的訴求。

那個時候,阿里巴巴技術幾乎都是IOE架構,核心數據系統是Oracle。2年時間內,阿里巴巴建成了全亞洲最大的Oracle集群。但是在2010年,Oracle已經不能滿足計算的要求,有非常多數據延遲和不滿足性,再加上昂貴的成本,沒辦法繼續支撐業務發展。?阿里巴巴開始認真審視建設下一代數據平臺的重要性,同時啟動了兩個并行項目:一個是“云梯1”,基于開源Hadoop技術體系,多個業務團隊構建多個Hadoop集群,集群規模達到4000臺服務器。?一個是“云梯2”(ODPS,現MaxCompute),作為阿里巴巴自研產品啟動研發,集群規模1200臺左右。螞蟻小微貸款“牧羊犬”業務是第一個吃螃蟹的業務,上線“云梯2”的過程被稱為“人肉云計算”與“分步試計算”。王堅院士2018年曾在央視《朗讀者》節目朗讀《進入空氣稀薄地帶》,形容的就是自研數據平臺那時的現狀與信念。?兩個項目在阿里巴巴內部形成競合狀態,并行探索阿里巴巴數據平臺發展的軌跡。這個時期,所有業務方的數據幾乎都是垂直建設,以自己業務形態形成獨立小閉環的形式飛快向前奔跑。
階段二:業務垂直小閉環,數據孤島顯現
2012年到2015年,阿里巴巴電商業務在飛速發展的同時,涌現出更多的新興業務:2013年,創立菜鳥,啟動“all-in 無線”戰略;2014年,投資高德,與銀泰合資,阿里旅行成立;2015年,推出釘釘/零售通、成立口碑、控股阿里健康等等。

階段三:數據中臺支撐業務可持續發展
2015年到2018年,阿里巴巴數據中臺方法論開始確立,拉開了數據中臺建設的大幕。2015年,阿里巴巴集團宣布啟動“中臺戰略”后,開始構建符合DT時代的更靈活的“大中臺,小前臺”組織機制和業務機制。阿里巴巴每個運營小二都可以基于數據制定覆蓋用戶生命周期的數據化運營策略,生意參謀開始探索數據業務化,更多的業務開始走向實時化。

·?平臺團隊和業務團隊是兩個團隊,成本關系是什么?
·?中臺方法論,如何落地在數據平臺落地?如何治理?
·?數字增長很快,超過業務增長,怎么辦?
· 一張核心表12PB,每個部門復制1份,一年幾千萬就沒了怎么辦?
·?知道要刪除一半的數據,但到底是哪一半?
這些問題的背后是數據的治理以及資產化,我們需要一套平臺系統把方法論承載進來,真正形成統一化。在數據平臺側,DataWorks 構建大規模協同數據開發與治理的一站式能力,MaxCompute 支持服務器集群達到十萬級,服務阿里集團全部BU、20多萬員工的日常運營,一起支撐各項業務的可持續發展。階段四:云上數據中臺與業務伴生
2018年之后,整個阿里巴巴數據平臺系統已經很成熟,平臺方和業務方達成一個非常好的配合狀態。業務方認可數據平臺的價值,業務部門與技術部門相伴相生,數據中臺服務業務達到正循環,成為數據中臺建設成功的一個標志。
阿里巴巴從2018年內部所有系統開始上云,到2021年實現了云上數據中臺與業務伴生:雙11核心系統100%上云,阿里巴巴全面云原生化;每秒53.8萬筆,阿里云抗住全球最大流量洪峰;數據中臺覆蓋阿里集團所有BU;運營小二及時發現問題、分析問題,實現實時運營決策;短視頻、直播等新業務繼續涌現……?可以看到,阿里巴巴的數據中臺建設是成功的,并且仍在高速向前發展。MaxCompute 智能數倉讓雙11成為日常,湖倉一體逐步成為下一代大數據平臺架構,DataWorks建設的數據中臺全面服務業務,支持集團內數百個數據應用,通過全鏈路數據治理,以低成本增長支持集團業務高速增長。
02、數據平臺建設的四個核心挑戰
一個數據中臺建設的成功與否的核心指標,不是系統效率,不是平臺效率,而是“數據效率”。?阿里巴巴主要從規模與彈性、數據的成本、數據的正確性與可維護性、數據利用率4個方面來衡量“數據效率”。

挑戰一:數據資產管理體系
對于數據資產來說,首先要解決的一個問題是:什么叫企業的數據資產?阿里巴巴的每個BU都有一個自己事業部的數據資產全景圖,我們通過一張圖統管阿里巴巴99.9%計算數據資產,每個部門的存儲計算成本將全部量化,直接展現在管理者的面前。?第二個問題:如何看資產?對于企業而言,資產難道就是一個個成本的數字嗎?阿里巴巴通過數據資產的透視,讓管理者知道我自己的數據來源于哪,服務給誰,誰又是我最好的合作伙伴,同時又可以滿足數據流動審計的需求。?第三個問題:如何進行資產的規模化?新的業務合并/收購/創新,如何將這套資產體系快速地復制?在DataWorks等工具中提供數據中臺建模工具,能夠為數據中臺建設提供規范化圖紙,針對不同的業務域進行劃分,進行智能建模,讓新業務快速復用之前成熟的數據架構,達到資產規模化的能力。挑戰二:數據質量體系
對于數據質量來說,首先要先解決的一個問題是:事前質量如何定義?金融行業經常提到一個概念叫對賬,阿里巴巴數據也要對賬,針對超過千萬級別數據表的對賬問題,我們提了“質量規則”的概念。700多萬質量規則,每天新增1萬多條,人工要怎么配?阿里巴巴建設了37種規則模板,通過智能規則推薦匹配,采納率達到75%。?第二個問題:事中質量如何執行?700多萬條質量規則需要耗費大量計算資源怎么辦?通過什么方式來降低成本?我們通過智能化技術建設了數據質量調度引擎、ETL引擎,數據變更后實時觸發質量監控,采用優先級策略,進行空閑運行。?第三個問題:事后質量如何自動化?規則寫死了,但數據是活的,遇到周期性波動和變化怎么辦?我們在數據質量建設的時候融入很多人工智能的技術,通過機器學習方式學習數據生成的樣子,能夠對動態閾值進行智能預測,通過算法匹配周期性波動。挑戰三:數據安全體系
對于數據安全來說,要解決如何降低使用成本,提高易用性;如何覆蓋數據全生命周期;如何做權限管控;如何數據脫敏,如何識別敏感行為進行數據溯源等問題,阿里巴巴內部沉淀了超過20項不同的安全治理規則,這些規則最終能夠幫助平臺在滿足業務高速增長的情況下同時滿足個人合規的要求。挑戰四:數據治理體系
當數據治理進入深水區,數據成本增速如何不超過業務增速;如何調動全員治理的積極性,培養成本意識,在阿里巴巴,數據治理是引擎、平臺和人的互相配合,引擎對算力和成本極致追求,持續打破快速增長的數據計算與成本增長的線性關系,平臺通過存儲健康分、計算健康分成為集團各團隊數據治理戰役的核心指標,推動人做數據治理和管理,利用平臺全鏈路工具,構建數據治理技術運營體系。通過這樣的成本報表的方式把平臺層的成本和價值展示清楚。?可以看出,在12年數據平臺建設期間,阿里巴巴從數據的資產、質量、安全、治理等多個緯度沉淀出了數據中臺產品化的能力。03、作為中臺底座,數據平臺下一站走向何方?
未來,作為中臺的底座,數據中臺將從數據智能到智能數據,“湖倉一體”滿足架構靈活升級、“智能數倉”解決超大規模下的數據管理難題、“智能查詢”極大降低數據分析門檻、AI的云原生化/規模化/標準化與普惠化讓其成為大數據的終極出口,不斷加速大數據與AI一體化的融合。趨勢一:一體兩面的湖倉一體
作為下一代數據平臺架構,湖倉一體滿足復雜現狀下架構的靈活升級。數據倉庫主打企業級數據,處理更精細、更經濟、更高效。企業可以建設自己的數據中臺,無論是引擎優化,還是數據管理,有一整套方法論以及支撐的工具。但是進入門檻很高,成本又貴,還有使用門檻。數據湖是脫胎于開源體系的技術,進入門檻和成本較低,比較靈活,企業容易實現自建數據湖,只是數據統一存儲之外,企業需要進一步做各種精細化管理,希望數據能治理,能管理,成本低,還可運維。

趨勢二:數據倉庫進入“自動駕駛”時代
超大規模數據帶來管理難題,傳統的“DBA模式”已經很難勝任。阿里巴巴有超過千萬級別的表,很多核心數據開發工程師,一個人負責上萬張表,沒有辦法做精細化的治理和建模,這樣的系統不能隨人的方式擴展,所以未來,越來越多的AI技術會融合進大數據系統,進入“自動駕駛”時代。

趨勢三:所查即所得,基于自然語言的智能數據查詢
阿里巴巴正在數據之上嘗試構建一個超大規模的知識圖譜,通過知識圖譜的方式做數據到語義層的翻譯,再通過NLP(自然語言處理)等技術跟用戶做結合,形成一個橋梁。比如用戶輸入北京市互聯網客戶有哪些,就可以自動生成得到一份數據。阿里巴巴正試圖把通過自然語言的智能查詢在海量數據上用起來,規模化起來,讓更多的非專業數據人員也可以獨立完成數據分析工作。趨勢四:數據即智能,AI工程化的基礎能力


最后總結一下,上述內容只是泛泛地提到了阿里數據中臺底座建設的四個典型階段,遇到的四大技術挑戰,以及數據平臺的四大技術趨勢等話題,這些內容還不是阿里巴巴數據中臺的全部。
通過12年時間,阿里巴巴數據平臺建設已經有了非常多的技術積累,這些平臺能力也在不斷推動數據中臺向智能化進化,并且還會一直向前演進,服務阿里巴巴并輸出給全社會。