日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國(guó)內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國(guó)數(shù)據(jù)治理市場(chǎng)份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場(chǎng)份額第一。

數(shù)倉命名規(guī)范大全!

時(shí)間:2023-05-15來源:天空依舊瀏覽數(shù):677

導(dǎo)讀:數(shù)據(jù)倉庫的建設(shè)實(shí)施和落地需要團(tuán)隊(duì)中不同成員的參與和配合,需要各種各樣的規(guī)范,規(guī)范的分層定義和表命名能讓使用者輕而易舉地明白該表的作用和含義。因此本文檔重點(diǎn)介紹分層規(guī)范和可落地的表命名規(guī)范。

01 數(shù)據(jù)分層

一、數(shù)據(jù)運(yùn)營(yíng)層:ODS(Operational Data Store)
ODS層,是最接近數(shù)據(jù)源中數(shù)據(jù)的一層,為了考慮后續(xù)可能需要追溯數(shù)據(jù)問題,因此對(duì)于這一層就不建議做過多的數(shù)據(jù)清洗工作,原封不動(dòng)地接入原始數(shù)據(jù)即可,至于數(shù)據(jù)的去噪、去重、異常值處理等過程可以放在后面的DWD層來做。
二、數(shù)據(jù)倉庫層:DW (Data Warehouse)
數(shù)據(jù)倉庫層是我們?cè)谧鰯?shù)據(jù)倉庫時(shí)要核心設(shè)計(jì)的一層,在這里,從? ODS ?層中??獲得的數(shù)據(jù)按照主題建立各種數(shù)據(jù)模型?。DW 層又細(xì)分為DWD(Data Warehouse ?Detail )層、DWM(Data WareHouse Middle )層和DWS(Data WareHouse Servce )。
1. ?數(shù)據(jù)明細(xì)層:DWD ?(Data Warehouse Detail)
該層一般保持和ODS層一樣的數(shù)據(jù)粒度 ,并且提供一定的數(shù)據(jù)質(zhì)量保證 。DWD層要做的就是將數(shù)據(jù)清理、整合、規(guī)范化、臟數(shù)據(jù)、垃圾數(shù)據(jù)、規(guī)范不一致的、狀態(tài)定義不一致的、命名不規(guī)范的數(shù)據(jù)都會(huì)被處理。同時(shí)?,為了提高數(shù)據(jù)明細(xì)層的易用性 ,該層會(huì)采用一些維度退化手法 ,將維度退化至事實(shí)表中, 減少事實(shí)表和維表的關(guān)聯(lián)。另外,在該層也會(huì)做一部分的數(shù)據(jù)聚合,將相同主題的數(shù)據(jù)匯集到一 張表中?,提高數(shù)據(jù)的可用性?。
2. ?數(shù)據(jù)中間層:DWM ?(Data WareHouse Middle)
該層會(huì)在 DWD 層的數(shù)據(jù)基礎(chǔ)上,對(duì)數(shù)據(jù)做輕度的聚合操作,生成一系列的中間表,提升公共指標(biāo)的復(fù)用性, 減少重復(fù)加工。直觀來講 , 就是對(duì)通用的核心維度進(jìn)行聚合操作, 算出相應(yīng)的統(tǒng)計(jì)指標(biāo)。在實(shí)際計(jì)算中 , 如果直接從 DWD 或者 ODS 計(jì)算出寬表的統(tǒng)計(jì)指標(biāo) , 會(huì)存在?計(jì)算量太大并且維度太少的問題,因此一般的做法是,在 DWM 層先計(jì)算出多個(gè)小的?中間表 ,然后再拼接成一 張 DWS 的寬表 。??由于寬和窄的界限不易界定,也可以去掉 DWM 這一層, 只留 DWS 層,將所有的數(shù)據(jù)再放在DWS 亦可。
3.數(shù)據(jù)服務(wù)層:DWS ?(Data WareHouse Servce)
DWS 層為公共匯總層,?會(huì)進(jìn)行輕度匯總?,?粒度比明細(xì)數(shù)據(jù)稍粗,基于DWD層上的基礎(chǔ)數(shù)據(jù),?整合匯總成分析某一個(gè)主題域的服務(wù)數(shù)據(jù),一般是寬表。DWS層應(yīng)覆蓋 80%的應(yīng)用場(chǎng)景?。又稱數(shù)據(jù)集市或?qū)挶怼0凑諛I(yè)務(wù)劃分,如主題域流量、訂單、用戶等 ,生成字段比較多的寬表 , 用?于提供后續(xù)的業(yè)務(wù)查詢,OLAP分析,數(shù)據(jù)分發(fā)等。一般來講,該層的數(shù)據(jù)表會(huì)相對(duì)比較少,一張表會(huì)涵蓋比較多的業(yè)務(wù)內(nèi)容,由于其字段較多,因此一般也會(huì)稱該層的表為寬表。
三、數(shù)據(jù)應(yīng)用層:APP ?(Application)
在這里,主要是提供給數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析使用的數(shù)據(jù)?,一般會(huì)存放在ES 、 PostgreSql、Redis 等系統(tǒng)中供線上系統(tǒng)使用?,也可能會(huì)存在Hive或者Druid中供數(shù)據(jù)分析和數(shù)據(jù)挖掘使用 。比如我們經(jīng)常說的報(bào)表數(shù)據(jù),一般就放在這里。
四、維表層?(Dimension)最后補(bǔ)充一個(gè)維表層,維表層主要包含兩部分?jǐn)?shù)據(jù):高基數(shù)維度數(shù)據(jù):一般是用戶資料表、商品資料表類似的資料表。數(shù)據(jù)量可能是千萬級(jí)或者上億級(jí)別。低基數(shù)維度數(shù)據(jù):一般是配置表,比如枚舉值對(duì)應(yīng)的中文含義,或者日期維表。數(shù)據(jù)量可能是個(gè)位數(shù)或者幾千幾萬。
02?表規(guī)范關(guān)于詞根
詞根屬于數(shù)倉建設(shè)中的規(guī)范 ,屬于元數(shù)據(jù)管理的范疇,現(xiàn)在把這個(gè)劃到數(shù)據(jù)治理的一部分。完整的數(shù)倉建設(shè)是包含數(shù)據(jù)治理的,只是現(xiàn)在談到數(shù)倉偏向于數(shù)據(jù)建模 ,?而談到數(shù)據(jù)治理,更多的是關(guān)于數(shù)據(jù)規(guī)范、數(shù)據(jù)管理。表命名 ,其實(shí)在很大程度上是對(duì)元數(shù)據(jù)描述的一種體現(xiàn) ,表命名規(guī)范越完善 ,我們能從表名獲取到的信息就越多。比如:一部分業(yè)務(wù)是關(guān)于貨架的,英文名是:rack , rack 就是一個(gè)詞根,那我們就在所有的表、字段等用到的地方都叫 rack, 不要叫成??別的什么 。?這就是詞根的作用, 用來統(tǒng)一命名,表達(dá)同一個(gè)含義。指標(biāo)體系中有很多“率”的指標(biāo),都可以拆解成XXX+率 ,率可以叫 rate ,那我?們所有的指標(biāo)都叫做 XXX+rate。詞根?:可以用來統(tǒng)一表名、字段名、主題域名等等。舉例?:以流程圖的方式來展示,更加直觀和易懂,本圖側(cè)重 dwm 層表的命名?規(guī)范, 其余命名是類似的道理 :

第一個(gè)判斷條件是該表的用途,是中間表、原始日志還是業(yè)務(wù)展示用的表如果該表被判斷為中間表,?就會(huì)走入下一個(gè)判斷條件:表是否有 group 操作?通過是否有 group 操作來判斷該表該劃分在 dwd 層還是 dwm 和 dws 層如果不是 dwd 層,則需要判斷該表是否是多個(gè)行為的匯總表(即寬表)。
最后再分別填上事業(yè)群?、部門、業(yè)務(wù)線、自定義名稱和更新頻率等信息即可。分層?:表的使用范圍事業(yè)群和部門:生產(chǎn)該表或者該數(shù)據(jù)的團(tuán)隊(duì)業(yè)務(wù)線?:表明該數(shù)據(jù)是哪個(gè)產(chǎn)品或者業(yè)務(wù)線相關(guān)主題域?:分析問題的角度,對(duì)象實(shí)體自定義?:一般會(huì)盡可能多描述該表的信息,比如活躍表、留存表等更新周期?:比如說天級(jí)還是月級(jí)更新
1、常規(guī)表常規(guī)表是我們需要固化的表,是正式使用的表,是目前一段時(shí)間內(nèi)需要去維護(hù)去?完善的表。規(guī)范:分層前綴[dwd|dws|ads]_部門_業(yè)務(wù)域_主題域_XXX_更新周期|數(shù)據(jù)范圍。業(yè)務(wù)域、主題域我們都可以用詞根的方式枚舉清楚,不斷完善,?更新周期主要的是時(shí)間粒度、日、月、年、周等。
2?、中間表中間表一般出現(xiàn)在 Job 中,是 Job 中臨時(shí)存儲(chǔ)的中間數(shù)據(jù)的表,中間表的作?用域只限于當(dāng)前 Job 執(zhí)行過程中,Job 一旦執(zhí)行完成,該中間表的使命就完?成了,是可以刪除的?(按照自己公司的場(chǎng)景自由選擇,以前公司會(huì)保留幾天?的中間表數(shù)據(jù),用來排查問題) 。規(guī)范:mid_table_name_[0~9|dim]table_name 是我們?nèi)蝿?wù)中目標(biāo)表的名字,通常來說一個(gè)任務(wù)只有一個(gè)目標(biāo)表。?這里加上表名,是為了防止自由發(fā)揮的時(shí)候表名沖突,而末尾大家可以選擇自?由發(fā)揮,起一些有意義的名字,或者簡(jiǎn)單粗暴,使用數(shù)字代替,各有優(yōu)劣吧,謹(jǐn)慎選擇。通常會(huì)遇到需要補(bǔ)全維度的表,這里使用dim 結(jié)尾。中間表在創(chuàng)建時(shí),請(qǐng)加上 ,如果要保留歷史的中間表,可以加上日期或者時(shí)間戳。
3?、臨時(shí)表臨時(shí)表是臨時(shí)測(cè)試的表,是臨時(shí)使用一次的表,就是暫時(shí)保存下數(shù)據(jù)看看,后續(xù)一般不再使用的表,是可以隨時(shí)刪除的表。規(guī)范:tmp_xxx只要加上?tmp?開頭即可,其他名字隨意,注意 tmp 開頭的表不要用來實(shí)際使用,只是測(cè)試驗(yàn)證而已。
4?、維度表維度表是基于底層數(shù)據(jù),抽象出來的描述類的表。維度表可以自動(dòng)從底層表抽象出來,也可以手工來維護(hù)。規(guī)范:dim_xxx維度表,統(tǒng)一以 dim 開頭,后面加上,對(duì)該指標(biāo)的描述,可以自由發(fā)揮。
5?、手工表手工表是手工維護(hù)的表,手工初始化一次之后,一般不會(huì)自動(dòng)改變,后面變更,也是手工來維護(hù)。一般來說,手工的數(shù)據(jù)粒度是偏細(xì)的,所以,暫時(shí)我們統(tǒng)一放在dwd層,后面?如果有目標(biāo)值或者其他類型手工數(shù)據(jù),再根據(jù)實(shí)際情況分層。規(guī)范:dwd_業(yè)務(wù)域_manual_xxx手工表,增加特殊的主題域,manual ,表示手工維護(hù)表。
03?指標(biāo)規(guī)范
3.1?命名小寫下劃線分割可讀性優(yōu)于長(zhǎng)度(詞根,避免出現(xiàn)同一個(gè)指標(biāo),命名一致性)數(shù)量字段后綴_cnt等標(biāo)識(shí)...金額字段后綴_price標(biāo)識(shí)禁止使用sql關(guān)鍵字
3.2?字段格式浮點(diǎn)數(shù)使用decimal(28,6)控制精度等
3.3?NULL?字段處理對(duì)于維度字段,需設(shè)置為-1對(duì)于指標(biāo)字段,需設(shè)置為0
04??口徑規(guī)范
保證主題域內(nèi),指標(biāo)口徑一致,無歧義。另外,還需要注意同一口徑的指標(biāo)數(shù)據(jù)來源要一致。
05?數(shù)據(jù)處理方式
1.增量表:新增數(shù)據(jù),增量數(shù)據(jù)是上次導(dǎo)出之后的新數(shù)據(jù)。(1) 記錄每次增加的量,而不是總量;(2) 增量表,只報(bào)變化量,無變化不用報(bào)(3) 每天一個(gè)分區(qū)
2?、全量表每天的所有的最新狀態(tài)的數(shù)據(jù)。(1) 全量表,有無變化,都要報(bào)(2) 每次上報(bào)的數(shù)據(jù)都是所有的數(shù)據(jù) (變化的?+ ?沒有變化的)(3) 只有一個(gè)分區(qū)
3、快照表按日分區(qū),記錄截止數(shù)據(jù)日期的全量數(shù)據(jù)。(1) 快照表,有無變化,都要報(bào)(2) 每次上報(bào)的數(shù)據(jù)都是所有的數(shù)據(jù)(變化的+沒有變化的)(3) 一天一個(gè)分區(qū)
4、拉鏈表記錄截止數(shù)據(jù)日期的全量數(shù)據(jù)。(1) 記錄一個(gè)事物從開始,一直到當(dāng)前狀態(tài)的所有變化的信息;(2) 拉鏈表每次上報(bào)的都是歷史記錄的最終狀態(tài),是記錄在當(dāng)前時(shí)刻的歷史總量;(3) 當(dāng)前記錄存的是當(dāng)前時(shí)間之前的所有歷史記錄的最后變化量(總量);(4) 只有一個(gè)分區(qū)。

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢