日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

京東業(yè)務指標數(shù)據(jù)體系建設實踐

時間:2023-01-11來源:十面埋伏瀏覽數(shù):606

在數(shù)倉建設、數(shù)據(jù)體系建設、資產(chǎn)分級以及對數(shù)據(jù)智能化自動化的探索(智能標準的建設)等方面,京東數(shù)據(jù)團隊會對其進行持續(xù)的探索,以期望打造一個敏捷、智能的業(yè)務數(shù)據(jù)集市,并能夠以數(shù)據(jù)驅動業(yè)務發(fā)展。

01、業(yè)務集市現(xiàn)狀

首先介紹一下京東業(yè)務集市的現(xiàn)狀。眾所周知互聯(lián)網(wǎng)軌道生命周期已經(jīng)進入成熟階段處于人口紅利倒退的趨勢中,各個公司都以精細化運營的方式來正面應對此情景,所以數(shù)據(jù)驅動成為業(yè)務決策的中堅力量。

1. 數(shù)據(jù)驅動力

數(shù)據(jù)驅動力指的是通過數(shù)據(jù)體系系統(tǒng)化地獲取及分析數(shù)據(jù),為業(yè)務決策提供有效支撐,驅動業(yè)務發(fā)展。

2. 業(yè)務市集現(xiàn)狀

在業(yè)務數(shù)據(jù)增長越來越明顯的趨勢下,構建業(yè)務體系、獲取數(shù)據(jù)能力就目前而言是非常重要的,但業(yè)務集市的歷史構建主要由各個業(yè)務線的數(shù)據(jù)分析同學負責,他們的關注點更多在于數(shù)據(jù)的快速交付,一定程度上造成了數(shù)據(jù)集市無序建設的問題。業(yè)務集市的現(xiàn)存的問題主要有以下四點:

煙囪式開發(fā)現(xiàn)象嚴重:每一個需求都對應一個模型,每一個模型都需要開發(fā),模型的重復性較高且模型較為分散。此時就會造成冗余計算的情況,浪費了過多集群資源。煙囪式開發(fā)也是較為常見的情況。

跨層依賴嚴重:跨層依賴嚴重,讀取共享數(shù)據(jù)有明顯問題,存在大量重復讀取消耗 IO 資源,缺乏共享復用。業(yè)務團隊的數(shù)據(jù)分析同學使用的數(shù)據(jù)源通常為貼源層數(shù)據(jù),數(shù)據(jù)量較大、字段較多,會對資源造成一些不必要的消耗。

業(yè)務數(shù)據(jù)共享度低:一個公司/部門可能存在多條業(yè)務線,但這些業(yè)務之間并不是完全獨立的,存在較強的數(shù)據(jù)的耦合性,但數(shù)據(jù)共享度較低。

無統(tǒng)一的數(shù)據(jù)標準:各業(yè)務團隊之間無統(tǒng)一數(shù)據(jù)標準,數(shù)據(jù)口徑難以保持統(tǒng)一,導致數(shù)據(jù)質量參差不齊,進入惡性循環(huán)。業(yè)務同學無法感知已有數(shù)據(jù)維度與需求的關聯(lián)匹配程度,從而無法深入挖掘數(shù)據(jù)價值,也無法得知數(shù)據(jù)統(tǒng)計的準確口徑,導致數(shù)據(jù)信任度較低、數(shù)據(jù)失真的情況。

這樣的集市現(xiàn)狀給數(shù)據(jù)的使用帶來了很多問題,總結來講就是:不可知、不可取、不可用、不可控。

不可知:用戶不知道集市/平臺中有哪些數(shù)據(jù)可以使用,是否能夠幫助自己解決核心問題。

不可取:用戶難以做到數(shù)據(jù)與知識之間的快速轉換,同時集群資源緊張導致取數(shù)困難。

不可用:各業(yè)務的數(shù)據(jù)分類體系缺乏統(tǒng)一的原則規(guī)范,使得數(shù)據(jù)定位難、可信度降低。

不可控:不關注集群狀態(tài)導致的惡性循環(huán)。

02、業(yè)務集市治理

對于存在上述問題業(yè)務集市治理來說,除了使用現(xiàn)有常見的即時治理工具之外,更還有著更為重要且比較根源性的做法:建立業(yè)務集市標準,以及對歷史無序情況進行重構。

由于業(yè)務數(shù)據(jù)分析同學與數(shù)據(jù)開發(fā)同學所在角色和思維角度的不同,業(yè)務同學關注點更多在于如何經(jīng)營階段內的數(shù)據(jù)目標、階段性的 OKR、KPI 等數(shù)據(jù)指標如何向下拆解,但數(shù)據(jù)開發(fā)同學的焦點在于如何保證數(shù)據(jù)的可用性和集市的穩(wěn)定性。對于一個良好的業(yè)務數(shù)據(jù)集市來說,自上而下通過基礎數(shù)據(jù)來逐步逐層地、秩序穩(wěn)定地實現(xiàn)業(yè)務數(shù)據(jù)支撐是極其重要的。

在期望之下衍生出了新的數(shù)據(jù)框架:

最底層為現(xiàn)有的常規(guī)數(shù)據(jù)倉庫

中間第二層為基礎建設,此部分主要是建設基于業(yè)務基礎的通用層模型,通過此部可以為業(yè)務線或耦合性較強的業(yè)務群組創(chuàng)建一套標準化通用的基礎層,不僅可以配合一些維表來實現(xiàn)業(yè)務數(shù)據(jù)的維度擴充和數(shù)據(jù)快速定位,還可以在此基礎上利用一些中間表來減少在計算過程中的資源浪費。

在基礎層的建設之上,基于基礎通用數(shù)據(jù)模型、結合業(yè)務需求將經(jīng)營目標拆解成具體的數(shù)據(jù)指標,通過數(shù)據(jù)之間的交叉計算給出更深層次的分析,或者將部分數(shù)據(jù)建設成為數(shù)據(jù)看板進行數(shù)據(jù)可視化的展示。這些數(shù)據(jù)指標可以為業(yè)務同學的經(jīng)營分析起到很好的輔助作用,涵蓋從項目規(guī)劃、到日常經(jīng)營、再到效果復盤、最后到下一個新的決策如此循環(huán)的完整過程,與此同時也能夠逐層保證產(chǎn)出的數(shù)據(jù)質量。

在這樣的框架下,越高層級的數(shù)據(jù)越精細化,數(shù)據(jù)統(tǒng)計的口徑更加定制化。越底層的數(shù)據(jù)模型復用度越高,越標準。如此的層級會使數(shù)據(jù)集市更健康。

業(yè)務基礎模型規(guī)范

用建設業(yè)務數(shù)倉的思路來建設標準化的通用模型,主要存儲數(shù)據(jù)為公司內部標準通用的明細數(shù)據(jù)。重構建設的主要措施是封裝標準口徑、行列裁剪、維度擴展、跨主題拼接等。此部分的口徑是廣義的,不針對于具體某一個業(yè)務需求,而是更專注于一整條業(yè)務線或一個大的業(yè)務模塊上的普適性。重構建設時,可以按照不同業(yè)務線/業(yè)務模塊組織數(shù)據(jù),進行明細數(shù)據(jù)的整合,解藕數(shù)據(jù)源,簡化數(shù)倉模型使用復雜度,減少讀取。

業(yè)務通用模型實踐

用戶寬表的建設:其實是將一些訂單主題的數(shù)據(jù)和用戶主題的數(shù)據(jù)進行融合,在訂單數(shù)據(jù)的基礎上,將不同業(yè)務對于用戶的一些不同身份的定義全部拼接至同一張表中,并擴展一些標準的、通用的數(shù)據(jù)維度信息,支持不同業(yè)務的數(shù)據(jù)調取。這樣的處理方式可以保證數(shù)據(jù)口徑的統(tǒng)一。

數(shù)據(jù)指標體系

數(shù)據(jù)指標體系,即數(shù)據(jù)應用層,此層級的主要目的是支持業(yè)務進行某些經(jīng)營專題的分析。這里的數(shù)據(jù)指標會按照業(yè)務的具體需求進行設計并包裝,一般會根據(jù)特定的數(shù)據(jù)統(tǒng)計口徑進行不同交叉維度的計算,用于其他系統(tǒng)的底層數(shù)據(jù)支持、數(shù)據(jù)看板可視化展示,或直接提供給業(yè)務同學進行深層次的數(shù)據(jù)分析。總體來說此部分數(shù)據(jù)的口徑更加精準化,更貼切于用戶經(jīng)營目標的分析和監(jiān)控。

指標緯度值統(tǒng)一

數(shù)據(jù)指標總體來講可以分為三類:基礎指標、衍生指標和復合指標。

基礎指標可以理解為較為常見的、直接計算的數(shù)據(jù)指標,例如成交人數(shù)、成交金額等。

衍生指標可以理解為在基礎指標的基礎上結合一些定義將指標之間進行組合或者通過運算得到的一些數(shù)據(jù)指標,比如復訪率、轉化率等。

復合指標通常指數(shù)據(jù)的對比情況,比如同比、環(huán)比等。

在計算衍生指標時,分子分母可能已經(jīng)存在在不同的模型中,此時如果能快速定位到需要的分子分母數(shù)據(jù),就可以避免計算衍生指標時對分子分母的重復計算。針對此情況,開發(fā)出了一個特有工具,此工具可以根據(jù)不同的維度組合生成全局唯一的場景指標編碼,不論在什么時間、什么引擎下,同樣的維度所生成的指標維度 ID 值都是一樣的。這樣在計算衍生指標時,通過維度 ID 一致+維度枚舉值一致,即可獲取相對應的分子分母,快速計算衍生指標。

ClickHouse 字典刷崗

由于 SKU 的歸屬是與人員身份進行相應綁定的,若人員身份產(chǎn)生變動時會影響到某類 SKU 的采銷部署,所以需要進行刷崗操作,其本質是更新 SKU 和維度信息之間的對應關系。

刷崗的整體難度較高,主要體現(xiàn)在三部分:第一是數(shù)據(jù)量級大,可能涉及到百億數(shù)據(jù)量級的兩張甚至多張大寬表進行關聯(lián)刷新;第二是維度組合較多,導致計算量極大;第三是業(yè)務側要求的刷新范圍不斷擴大,甚至個別主題希望全量進行刷新,時效要求較高。

提出了 ClickHouse 字段刷崗的解決方案,在 ClickHouse 中將維表加載到字典,將明細表基于字典直接進行相應崗位的數(shù)據(jù)查詢,這樣查詢邏輯更簡單,查詢效率更快。

基于此解決方案,也有一些相應的優(yōu)化措施:

① 字典存儲按照 SKU 分片存儲,可以極大的減少占用內存空間的數(shù)量;

② 縮減字段,將維表中無關刷崗的字段過濾掉,此部分可以減少50%的字典存儲空間;

③ 類型優(yōu)化,比如部門 ID 等 ID 類的字段,在存儲時可以將數(shù)據(jù)類型由 string 轉化為 int 類型,使用時再轉為 string 類型,在保證正確使用的情況下字典空間占用可減少 60%;

④ 考慮到字典的主鍵唯一性,將 sku 一對多的情況用 Array 類型進行存儲。

為保證刷崗準確性,增加校驗機制,引入版本表,將刷崗的結果先寫入版本表中,將版本表和原有數(shù)據(jù)進行對比驗證,得到驗證結果是正確的才會寫入正式的明細表中。

字典表的應用同樣可以用于數(shù)據(jù)看板的服務查詢中,與刷崗原理是一致的,通過加載 sku 對應的字典數(shù)據(jù)來獲取維度信息。

對于一整套的業(yè)務集市建設標準,以一個活動主題的數(shù)據(jù)舉例說明治理效果。

重構前,數(shù)據(jù)指標依賴復雜,大多指標直接依賴于貼源層級的數(shù)據(jù),比如用戶日志模型。這些模型的數(shù)據(jù)量極大,對于需求無用的字段很多,因此數(shù)據(jù)重復讀取率極高,造成了數(shù)據(jù)資源的浪費。

重構時,針對讀倉成本居高不下問題及用戶使用行為分析,對讀取頻率 top 的大模型(比如用戶日志)進行列裁剪,僅存儲近兩年熱數(shù)據(jù)。

針對隊列資源緊張,調度不合理的問題,通過對各業(yè)務模塊常用的埋點信息進行統(tǒng)一收集,通過埋點過濾構建 app 層加速模型,通過減少數(shù)據(jù)量,降低任務執(zhí)行資源消耗。

對于一些與其他業(yè)務耦合性較強的應用層數(shù)據(jù),封裝標準口徑沉淀至數(shù)倉,反哺業(yè)務其他指標/其他業(yè)務。

在計算數(shù)據(jù)指標時,不再直接依賴貼源層數(shù)據(jù),而是依賴通用層模型,減少讀倉成本。使用產(chǎn)出唯一維度 ID 的工具來減少重復計算。維表存儲數(shù)據(jù)特性,提供維度信息,通過表關聯(lián)拼接快速對數(shù)據(jù)進行特定維度的定位/區(qū)分。合理設計中間表,降低加工過程計算難度,提高運行效率。可設置為臨時表,僅幫助加速本次計算,不存儲歷史數(shù)據(jù)。也可設置長期中間層,包含歷史數(shù)據(jù)。

采取此方式進行重構后,可以降低 43% 的讀倉成本;應用層模型數(shù)量減少51%,存儲降低 34%;末端的的看板產(chǎn)品出數(shù)時間縮短 3 小時。

03、展望未來

敏捷、智能、可用、驅動力。

在數(shù)倉建設、數(shù)據(jù)體系建設、資產(chǎn)分級以及對數(shù)據(jù)智能化自動化的探索(智能標準的建設)等方面,京東數(shù)據(jù)團隊會對其進行持續(xù)的探索,以期望打造一個敏捷、智能的業(yè)務數(shù)據(jù)集市,并能夠以數(shù)據(jù)驅動業(yè)務發(fā)展。

04、問答環(huán)節(jié)

Q1:根據(jù)崗位回溯數(shù)據(jù)代價大是否存在代替方案?

A1:代價是相對的,相對于數(shù)據(jù)集市建設的意義來說代價是允許存在的。可以弱化回溯的概念,對于數(shù)據(jù)量可接受范圍內且適用于業(yè)務場景的查詢,可以在保留基礎數(shù)據(jù)信息的前提下,將某些數(shù)據(jù)信息不進行落表物化數(shù)據(jù)的操作,通過查詢進行數(shù)據(jù)的展示,例如用戶在查詢 SKU 數(shù)據(jù)時,用 SKU 去查關聯(lián)字典數(shù)據(jù)并進行相應的數(shù)據(jù)展示。

Q2:在數(shù)倉之上再建數(shù)倉的形式增加了數(shù)據(jù)跑數(shù)的周期,是否可以對原始數(shù)倉進行治理?

A2:原始數(shù)倉治理和新建業(yè)務層級數(shù)倉是兩個概念,不是沖突的,本次分享基于業(yè)務數(shù)倉的治理,新建業(yè)務層級數(shù)倉時有必要的。在現(xiàn)狀中,業(yè)務側的數(shù)據(jù)大多直接來自貼源層,若以極小數(shù)據(jù)量級的查詢調取數(shù)據(jù)量較大的貼源層數(shù)據(jù),也是得不償失的。且基于京東這樣的大平臺來說,存在著許多條業(yè)務線,那優(yōu)先考慮、兼顧的一定是全局的數(shù)據(jù)情況,而不是某一條具體的業(yè)務線。

Q3:指標是按照主題域的方式來劃分管理的嗎?多鏈路漏斗指標追蹤是如何實現(xiàn)的?

A3:可以理解為按照主題域的方式來劃分管理的,但實現(xiàn)過程中并不是以此單一條件進行實現(xiàn)的。數(shù)據(jù)溯源的最底層級是貼源層數(shù)據(jù),是按照主題域劃分的。但主題域的數(shù)據(jù)在使用時也不是單獨使用的,也存在著主題域之間的交叉計算等。將數(shù)據(jù)指標進行主題劃分后對上游數(shù)據(jù)源可以更好的追蹤管理,對數(shù)據(jù)之間關系的管理也會相對簡單,所以在計算時會先按照不同的主題進行劃分,后在結果表中對不同主題的數(shù)據(jù)進行拼接。

(部分內容來源網(wǎng)絡,如有侵權請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢