傅一平評語:這篇文章講述的是傳統(tǒng)的數(shù)據(jù)模型治理的方法,主要通過公共模型下沉、標(biāo)準(zhǔn)化開發(fā)工具、實(shí)施數(shù)據(jù)模型評估、提升模型檢索效率來提升模型的效能。但數(shù)倉建模是計(jì)劃經(jīng)濟(jì)時代的產(chǎn)物,從關(guān)系建模開始,它最適合的就是穩(wěn)定的業(yè)務(wù),比如核心指標(biāo),但很多領(lǐng)域的應(yīng)用變化很快,數(shù)倉模型不足以支撐,因此得不停的打補(bǔ)丁,然后陷入數(shù)據(jù)模型治理的困境,維度建模嘗試跟上變化,但也解決不了根子的問題,這個問題是無解的。數(shù)倉建模并沒有什么深奧的理論,它是計(jì)劃經(jīng)濟(jì),資源稀缺時代的產(chǎn)物,有自己的適用場景,也有不擅長的地方,事實(shí)上,很多企業(yè)開出的一些取數(shù)租戶或集市在后期倒是適應(yīng)了市場的節(jié)奏,不需要預(yù)先建模,ODS扔在那里隨便探索就可以了,數(shù)據(jù)的應(yīng)用越深入,就越需要大量的數(shù)據(jù)探索,這個時候,取數(shù)租戶或集市成為了企業(yè)不可或缺的部分,拋棄技術(shù)因素,這就是數(shù)據(jù)湖的前身。數(shù)據(jù)湖起來后,解決了很多技術(shù)問題,諸如海量多樣存儲、實(shí)時讀寫等等,當(dāng)數(shù)據(jù)湖原生數(shù)據(jù)、快速靈活、自助工具的的優(yōu)勢超越了數(shù)倉共享層帶來的那點(diǎn)點(diǎn)時間節(jié)省和數(shù)據(jù)一致性時,可以考慮選擇數(shù)據(jù)湖方案。任何一個企業(yè)既有需要穩(wěn)定支撐的業(yè)務(wù),比如財(cái)務(wù)報(bào)表和經(jīng)營分析,也有需要靈活支撐的業(yè)務(wù),比如數(shù)據(jù)挖掘,前者可以用數(shù)據(jù)倉庫,后者可以用數(shù)據(jù)湖,湖倉一體是很自然的解決方案,無非是元數(shù)據(jù)打通,探索變化的事情放在數(shù)據(jù)湖,數(shù)據(jù)湖中穩(wěn)定的東西定期沉淀到數(shù)據(jù)倉庫,如此循環(huán),達(dá)到生態(tài)的平衡。正文開始導(dǎo)讀:阿里大淘系數(shù)據(jù)體系經(jīng)過多年發(fā)展,通過豐富的數(shù)據(jù)和產(chǎn)品支撐了復(fù)雜的業(yè)務(wù)場景,在數(shù)據(jù)領(lǐng)域取得了非常大的領(lǐng)先優(yōu)勢。隨著數(shù)據(jù)規(guī)模越來越大,開發(fā)人員越來越多,雖有阿里大數(shù)據(jù)體系規(guī)范進(jìn)行統(tǒng)一管理,但是由于沒有在產(chǎn)品側(cè)進(jìn)行有效的模型設(shè)計(jì)和管控,在模型規(guī)范性、應(yīng)用層效率、通用層復(fù)用性等方面的問題逐漸凸顯。計(jì)存成本提升、效率降低、規(guī)范減弱、數(shù)據(jù)使用難度變大、運(yùn)維負(fù)擔(dān)增加等。為了解決這些問題,我們進(jìn)行了大淘系模型治理專項(xiàng),在數(shù)據(jù)服務(wù)業(yè)務(wù)的同時,追求極致的降本提效目標(biāo)。參與團(tuán)隊(duì):數(shù)據(jù)技術(shù)及產(chǎn)品部-大淘系數(shù)據(jù)團(tuán)隊(duì)&數(shù)據(jù)技術(shù)及產(chǎn)品部-數(shù)據(jù)安全生產(chǎn)平臺&計(jì)算平臺事業(yè)部-DataWorks&計(jì)算平臺事業(yè)部-產(chǎn)品與解決方案-DataWorks&PAI產(chǎn)品組?
一? 數(shù)據(jù)現(xiàn)狀 為了更好的分析當(dāng)前大淘系的數(shù)據(jù)問題,我們進(jìn)行了詳細(xì)的數(shù)據(jù)分析,首先進(jìn)行數(shù)字化。(整個問題分析有詳細(xì)的數(shù)據(jù)支撐,涉及到數(shù)據(jù)安全,因此只抽象問題,不展示具體數(shù)據(jù)細(xì)節(jié))。?
1? 規(guī)范性問題
表命名不規(guī)范,缺乏管控:隨著數(shù)據(jù)量增長,大淘系的表出現(xiàn)了大量命名未遵循阿里大數(shù)據(jù)體系的情況,難以管控。?
2? 通用層復(fù)用性問題
通用層表復(fù)用性不高:通用層表下游引用少于2個的數(shù)量非常多;
通用層建設(shè)不足或通用層透出不足:cdm引用下降,ads引用上升;
較多的ads表共性邏輯未下沉:出現(xiàn)很多ads表代碼重復(fù),字段相似度高的情況;?
3? 應(yīng)用層效率問題
臨時表多,影響數(shù)據(jù)管理:出現(xiàn)了很多TDDL臨時表、PAI臨時表、機(jī)器臨時表、壓測臨時表等;
通用層表在各團(tuán)隊(duì)分布不合理:散布多個團(tuán)隊(duì);
較多的ads表共性邏輯未下沉;
部分ads表層內(nèi)依賴深度較深:很多ads表在應(yīng)用層的深度超過10層;
應(yīng)用層跨集市依賴問題明顯:不同集市間ads互相依賴,不僅影響了數(shù)據(jù)穩(wěn)定性,而且數(shù)據(jù)準(zhǔn)確性也難以保障;
存在大量的可交接的通用層表:不同團(tuán)隊(duì)的通用層數(shù)據(jù)與大淘系數(shù)據(jù)混合在一起;
表人員分配不均衡:表owner管理的表數(shù)量分布很不均勻,有些owner名下只有幾十張,有些owner名下有幾千張;?
二? 問題分析 通過對當(dāng)前數(shù)據(jù)問題的數(shù)字化,我們發(fā)現(xiàn)問題涉及到數(shù)據(jù)的評、建、管、用各個環(huán)節(jié)。評:缺乏一套統(tǒng)一數(shù)據(jù)評估體系。數(shù)據(jù)問題的發(fā)現(xiàn)以往主要通過專家經(jīng)驗(yàn)、開發(fā)使用環(huán)節(jié)發(fā)現(xiàn)和離散型的數(shù)據(jù)分析得到,缺乏一套統(tǒng)一的數(shù)字化評估體系。數(shù)據(jù)量有多少?不同層次的數(shù)據(jù)分布如何?表的命名規(guī)范性如何?表的復(fù)用性如何?表的加工效率和消費(fèi)效率如何?如何評價數(shù)據(jù)建設(shè)、使用和維護(hù)的好不好?好的數(shù)據(jù)應(yīng)該通過哪些指標(biāo)評估出來?建:基于數(shù)據(jù)問題分析我們發(fā)現(xiàn):在統(tǒng)一進(jìn)行通用層構(gòu)建和治理的時間段,數(shù)據(jù)在規(guī)范性、復(fù)用性、鏈路復(fù)雜度、使用效率等方面表現(xiàn)較好,但是在沒有進(jìn)行統(tǒng)一構(gòu)建和治理的時間,數(shù)據(jù)在各方面都表現(xiàn)不好。原因在于:我們有一套阿里大數(shù)據(jù)體系規(guī)范,但是我們并沒有一套覆蓋設(shè)計(jì)、評審、開發(fā)、管控、治理的建模開發(fā)產(chǎn)品。管:數(shù)據(jù)構(gòu)建完成后后,并沒有有效的對數(shù)據(jù)進(jìn)行成本、復(fù)用性、效率、健康情況的管理,通常依賴于集中治理、專項(xiàng)治理或推送治理。成本高、迭代慢。同時還存在表管理分布不均的問題,有些owner承擔(dān)了大量的管理和運(yùn)維工作,數(shù)據(jù)交接后難以維護(hù),導(dǎo)致數(shù)據(jù)使用難度高。用:數(shù)據(jù)最終是為了使用,通過數(shù)據(jù)分析和調(diào)研問卷來看,普遍存在以下問題:找數(shù)難、不會用、不敢用等問題。就導(dǎo)致除了一些非常核心的模型數(shù)據(jù)外,很多開發(fā)者寧愿重新開發(fā)也不愿去花費(fèi)很大精力去找數(shù)和理解數(shù)據(jù),造成惡性循環(huán)。
三? 解決方案 針對對問題的分析,我們確定了以下目標(biāo):
1、模型數(shù)字化:構(gòu)建一套通用的大淘系模型評估體系,能夠清晰的從多個維度評估當(dāng)前數(shù)據(jù)的健康情況,針對問題數(shù)據(jù)提供改進(jìn)建議。
2、提效公共模型下沉:定義清晰通用層數(shù)據(jù)下沉標(biāo)準(zhǔn),能夠清晰的界定哪些數(shù)據(jù)應(yīng)該沉淀到通用層,對于需要沉淀的數(shù)據(jù)要及時進(jìn)行沉淀。
3、產(chǎn)品化:通過共建開發(fā)一套覆蓋設(shè)計(jì)、評審、開發(fā)、管控、治理的建模開發(fā)產(chǎn)品。
4、日常治理:日常監(jiān)控模型健康情況,并進(jìn)行治理優(yōu)化。5、找數(shù)提效:通過共建提高數(shù)據(jù)檢索效率,提高推薦準(zhǔn)確度,將核心數(shù)據(jù)在數(shù)據(jù)專輯展示。為了實(shí)現(xiàn)以上目標(biāo),我們進(jìn)行了模型治理整體設(shè)計(jì):
1? DataWorks共建
DataWorks是基于MaxCompute/EMR/Hologres等大數(shù)據(jù)計(jì)算引擎,提供專業(yè)高效、安全可靠的一站式大數(shù)據(jù)開發(fā)與治理平臺。通過與DataWorks團(tuán)隊(duì)進(jìn)行深度共建,利用大淘系多年積累的模型、開發(fā)、運(yùn)維等數(shù)據(jù)經(jīng)驗(yàn)提供輸入和DataWorks強(qiáng)大的產(chǎn)品研發(fā)能力,進(jìn)行智能建模、開發(fā)助手、數(shù)據(jù)地圖等功能的升級,實(shí)現(xiàn)數(shù)據(jù)設(shè)計(jì)、開發(fā)、管控、使用全鏈路產(chǎn)品化,解決長久以來的數(shù)據(jù)問題。
DataWorks智能數(shù)據(jù)建模 目前,DataWorks智能數(shù)據(jù)建模產(chǎn)品完成了數(shù)倉規(guī)劃、數(shù)據(jù)標(biāo)準(zhǔn)、維度建模、數(shù)據(jù)指標(biāo)四大產(chǎn)品模塊的重大產(chǎn)品功能迭代,具備逆向建模、正向可視化建模、excel建模、代碼建模等產(chǎn)品能力,并完成了DataWorks智能數(shù)據(jù)建模產(chǎn)品在2021年云棲大會的新功能重磅發(fā)布。DataWorks智能數(shù)據(jù)建模產(chǎn)品全新發(fā)布的核心產(chǎn)品功能主要包含以下內(nèi)容:數(shù)倉規(guī)劃:
支持公共層及應(yīng)用層數(shù)倉經(jīng)典分層化域方案所需要素(如數(shù)據(jù)域、數(shù)據(jù)集市等)的業(yè)務(wù)自定義;
支持?jǐn)?shù)倉規(guī)范的業(yè)務(wù)自定義,如各層表名規(guī)范定義;
支持建模空間,支持設(shè)置建模空間與數(shù)據(jù)研發(fā)空間的關(guān)系建立,滿足大淘系多業(yè)務(wù)共享數(shù)據(jù)規(guī)范統(tǒng)籌管理數(shù)據(jù)模型的需求。
維度建模:
支持?jǐn)?shù)倉已有物理表的、的逆向建模,解決了大淘系已有物理表的冷啟動難題。
支持維度表、明細(xì)表、輕度匯總表和應(yīng)用層表的正向建模,支持可視化建模、excel文件導(dǎo)入模型及代碼建模三種方式。正向可視化建模產(chǎn)品功能汲取了大淘系建模同學(xué)沉淀的經(jīng)典建模理論,依托了MaxCompute的優(yōu)勢,實(shí)現(xiàn)了快速復(fù)制MC已有物理表的表結(jié)構(gòu)并支持基于已有字段做維度字段冗余的產(chǎn)品功能,此外,匯總表及應(yīng)用層表可快速引用已創(chuàng)建的指標(biāo)生成模型表字段。正向建模excel文件導(dǎo)入模型將大淘系同學(xué)數(shù)年來沉淀的經(jīng)典模型excel模版產(chǎn)品化,滿足部分習(xí)慣性excel建模同學(xué)的建模需求。正向建模產(chǎn)品功能,極大程度上提升了建模效率。
設(shè)計(jì)完成的模型,支持模型評審及物理表發(fā)布到MaxCompute、Hologres等五種引擎。
發(fā)布成功的模型,實(shí)現(xiàn)了和DataStuido(數(shù)據(jù)開發(fā))的打通,支持自動生成ETL框架代碼,數(shù)據(jù)開發(fā)同學(xué)只需在此代碼基礎(chǔ)上補(bǔ)充業(yè)務(wù)邏輯代碼即可,該功能在一定程度上提升了數(shù)據(jù)開發(fā)同學(xué)的研發(fā)效率;
以上產(chǎn)品功能能很好的解決模型建設(shè)規(guī)范性和提效的目的。數(shù)倉規(guī)劃
維度建模
開發(fā)助手 開發(fā)助手可以在代碼開發(fā)中進(jìn)行權(quán)限提醒、發(fā)布管控、臨時表自動構(gòu)建等。
2? 模型分 模型分打分邏輯
模型分大盤 我們將模型分評估在內(nèi)部通過數(shù)字大盤的形式展示,并將對應(yīng)的治理建議通過治理跳轉(zhuǎn)的方式直接跳轉(zhuǎn)到相應(yīng)的產(chǎn)品頁面進(jìn)行操作。為了更好的實(shí)現(xiàn)復(fù)用,模型分支持快速配置接入,只要提供project清單即可通過修改配置快速接入對應(yīng)BU的數(shù)據(jù),產(chǎn)出表級別、owner級別、BU級別模型分及治理動作。模型大盤的治理項(xiàng)使用了全鏈路血緣和標(biāo)簽?zāi)芰Γ梢员容^精準(zhǔn)的實(shí)現(xiàn)針對性治理。
3? 找數(shù)提效
找數(shù)提效方案:
目前,數(shù)據(jù)地圖上線了團(tuán)隊(duì)常用表、猜你會用、熱門瀏覽、熱門讀取、數(shù)據(jù)專輯、搜索優(yōu)化、表說明升級等,表說明功能已完成升級;數(shù)據(jù)專輯的多人協(xié)作維護(hù)、展示和修改收藏備注發(fā)布、專輯增加使用說明功能。對于找數(shù)、用數(shù)、數(shù)據(jù)維護(hù)具有重要的意義。【搜索&推薦】搜索結(jié)果過濾增強(qiáng)搜索結(jié)果左側(cè)過濾條件透出高頻使用條件供用戶選擇,提高篩選效率和搜索CTR。
恢復(fù)字段搜索功能,搜索過濾支持按照環(huán)境過濾。 【內(nèi)容&組織】表說明功能升級升級表使用說明編輯器為語雀編輯器,支持導(dǎo)入語雀內(nèi)容,來幫助解決口徑問題 【內(nèi)容&組織】數(shù)據(jù)專輯數(shù)據(jù)專輯提供管理員功能,支持多人協(xié)作維護(hù)。
加入專輯支持展示和修改收藏備注。
個人專輯詳情頁中,支持通過表的描述和收藏備注進(jìn)行搜索。
專輯增加使用說明功能 【內(nèi)容&組織】數(shù)據(jù)地圖與DataWorks數(shù)據(jù)打通支持在地圖中標(biāo)識表是模型表、展示出表的模型信息。
1)搜索推薦

2)數(shù)據(jù)專輯
數(shù)據(jù)專輯中將核心表集中展示,可以有效實(shí)現(xiàn)核心表的查找和使用。
3)專輯說明
將結(jié)構(gòu)化的知識集中管理,支持語雀知識導(dǎo)入,更好的管理和維護(hù)數(shù)據(jù)。
4)數(shù)據(jù)百曉生
將數(shù)據(jù)知識進(jìn)行算法處理,透過機(jī)器人問答實(shí)現(xiàn)找表、用表等。為此我們結(jié)合內(nèi)部機(jī)器人產(chǎn)品構(gòu)建了智能答疑機(jī)器人。
四? 思考總結(jié) 經(jīng)過FY22大淘系模型治理專項(xiàng),通過大淘系內(nèi)部開發(fā)、與DataWorks團(tuán)隊(duì)&數(shù)據(jù)安全生產(chǎn)平臺共建,實(shí)現(xiàn)了以下重要能力:
模型評估體系:設(shè)計(jì)并定義了大淘系模型評估體系,從多個維度實(shí)現(xiàn)了數(shù)據(jù)健康度的評估和表級別的治理建議。
智能建模:與DataWorks智能建模團(tuán)隊(duì)合作,上線了數(shù)倉規(guī)劃、維度建模等重磅產(chǎn)品,實(shí)現(xiàn)了維度表、明細(xì)表、輕度匯總表和應(yīng)用層表的正逆向建模。
數(shù)據(jù)地圖升級:升級了搜索推薦、數(shù)據(jù)專輯、表說明等重要功能,極大的提高了找數(shù)、用數(shù)、管理數(shù)據(jù)的效率。
協(xié)作規(guī)章制度:定義了準(zhǔn)通用層下沉規(guī)范、協(xié)作規(guī)章、交接流程、新人培養(yǎng)機(jī)制等清晰的制度,提供清晰的制度保障。?
五? 后續(xù)規(guī)劃 目前,大淘系模型治理已經(jīng)取得了非常好的階段性成果,在產(chǎn)品共建、模型分評估、找數(shù)提效方面都有很好的效果產(chǎn)出。但仍然存在一些未解決問題:
統(tǒng)一架構(gòu)和規(guī)范難保障:各業(yè)務(wù)對阿里大數(shù)據(jù)體系規(guī)范的理解程度不一致,集團(tuán)數(shù)據(jù)架構(gòu)和規(guī)范的統(tǒng)一難以保障;
業(yè)務(wù)通用層比較薄:歷史背景之下,各業(yè)務(wù)通用層建設(shè)比較薄弱,新架構(gòu)下業(yè)務(wù)效率和口徑存在風(fēng)險;
ADS層持續(xù)增長,復(fù)雜度難管控:阿里大數(shù)據(jù)體系規(guī)范缺少對應(yīng)用層的規(guī)范,ADS與通用層的邊界劃分不清晰,ADS的復(fù)雜度難以控制;
缺乏有效管控:在數(shù)據(jù)開發(fā)與運(yùn)維層面,阿里巴巴沉淀了大數(shù)據(jù)體系規(guī)范不斷與數(shù)據(jù)平臺融合,但是部分標(biāo)準(zhǔn)無法強(qiáng)制執(zhí)行與數(shù)據(jù)平臺進(jìn)行集成。數(shù)據(jù)治理上,當(dāng)前數(shù)據(jù)無法有效識別數(shù)據(jù)表是否無效,導(dǎo)致研發(fā)對數(shù)據(jù)表不敢下、沒精力下;
數(shù)據(jù)建設(shè)和使用尚未完全打通:當(dāng)前數(shù)據(jù)開發(fā)和數(shù)據(jù)使用尚未完全實(shí)現(xiàn)數(shù)據(jù)打通,定義的模型、開發(fā)的數(shù)據(jù)未在數(shù)據(jù)地圖中有效的實(shí)現(xiàn)透出和管理。
下階段將針對尚未解決的問題進(jìn)一步深入解決:
大淘系模型架構(gòu)
我們會針對當(dāng)前存在的架構(gòu)問題進(jìn)行升級,從架構(gòu)原則、設(shè)計(jì)規(guī)范、開發(fā)規(guī)范、運(yùn)維規(guī)范、治理規(guī)范、共建機(jī)制等方面進(jìn)行方法論的升級,以更好的適應(yīng)當(dāng)前階段的數(shù)據(jù)研發(fā)現(xiàn)狀,切實(shí)的從架構(gòu)層面為降本、提效提供有效保障。
智能建模
繼續(xù)與DataWorks團(tuán)隊(duì)共建,進(jìn)一步提高通用層、應(yīng)用層開發(fā)效率,從產(chǎn)品層面提供保障。
數(shù)據(jù)地圖
官方專輯快速接入:當(dāng)前官方專輯構(gòu)建需要專人進(jìn)行配置和維護(hù),后續(xù)可以考慮降低接入成本,下放到各個團(tuán)隊(duì)進(jìn)行自主接入和維護(hù),提升數(shù)據(jù)專輯的豐富度和易用性。
進(jìn)一步打通數(shù)據(jù)開發(fā)和使用環(huán)節(jié):將智能建模的數(shù)據(jù)與數(shù)據(jù)地圖進(jìn)一步打通,實(shí)現(xiàn)核心模型的快速篩選和透出。
多角度提升表查詢和使用的能力:從表說明、表答疑、數(shù)據(jù)知識提取等方面實(shí)現(xiàn)對找表、用表、表答疑的簡易度提升,結(jié)合文本算法、機(jī)器人等技術(shù)和產(chǎn)品能力,實(shí)現(xiàn)數(shù)據(jù)知識的智能生成。
開發(fā)助手
開發(fā)助手在表推薦和表管控方面可以進(jìn)一步升級。
大淘系通用層評估體系升級
針對當(dāng)前的模型分加入模型血緣相關(guān)的信息,做厚大淘系通用層,為業(yè)務(wù)提供更好的通用層數(shù)據(jù)支撐。
表自動化下線:實(shí)現(xiàn)模型、表、服務(wù)的自動化下線&專家經(jīng)驗(yàn)下線,提高數(shù)據(jù)下線效率,降低人工介入成本。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)