日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據標準是什么?數據標準的建設

時間:2022-05-12來源:擾亂浮塵瀏覽數:1640

數據中臺是企業數字化轉型的基礎和中樞系統,將企業全域海量、多源、異構的數據整合資產化,但多源異構數據差異化明顯,如何保證數據管理者、使用者、開發者對數據具備統一的認知是亟待解決的問題。

在生活中,標準與我們息息相關,吃的食品需要滿足國家標準才能食用,汽車排放達標才能夠上路行駛,電腦接口得滿足統一的標準才能夠與外設對接等等。而在數據的世界,數據標準也同等重要。我們期望將數據標準真正應用到實踐中去,幫助客戶解決資產化不足、數據質量難以提升、數據開發效率低等問題,于是開始了數據標準的建設。

本文將基于我們對數據標準的理解,闡述標準的建立并依據標準的建立內容和流程來設計的標準管理產品的介紹以及標準在數據治理過程中的具體實踐,希望與大家碰撞出新的認識。

1

數據標準的是什么?

在實際的工作生產中,我們一般會參照國家標準、地方標準、行業標準等來進行具體的活動,來確保我們生成過程符合監管要求、便于上下游協同等,于是我們會見到如下的標準指導文件:

同樣,數據標準也會以文件的形式存在,在除了國標、行標定義的標準外,企業內部為了便于各部門采取同樣的數據建設規范,通常會使用文件來定義數據標準,以供各部門達成統一的共識。

雖然文件是標準的一種體現形式,但文件是非結構化的,在實際應用中,我們只有理解、提取文件里的內容,將標準應用于產品設計及流程活動當中去,標準才能起到真正的規范約束作用。

根據信通院發布的《數據標準管理實踐白皮書》定義:數據標準(Data Standards)是指保障數據的內外部使用和交換的一致性和準確性的規范性約束。

毫無疑問,這是正確的。但我們還需要將標準踐行,以建設數據中臺為例,我們知道數據中臺強調的是資源整合,在數據層面就是整合多源異構系統中分散在各個孤島的數據,形成統一的數據服務能力,這是一項艱巨的任務, 很難通過互相約定以及默認信任相關方來保障數據的價值發掘,形成真正的數據資產。

于是,基于此點將數據標準進行擴充,一是對管理范圍的擴充,從狹義的數據標準(指對基礎數據本身的規范性約束,如數據格式、類型、值域等)擴充到整個數據中臺層面的標準(包含治理各階段的規范性約束);二是對管理手段的擴充,數據標準不再是指一系列的數據標準化文檔,而是一套由規范要求、流程制度、技術工具共同組成的體系,通過這套體系完成標準的規劃、制定、發布、執行、檢查、維護等行為,來完成數據的標準化以及標準的沉淀。

2

數據標準的價值

在說價值之前,我們先聊聊讓我們頭疼的問題。人人都在談論數據標準,但數據標準真的被應用起來了么,我們拿著一堆標準文件,期望企業內部宣貫大家要按照這個標準來,但執行的結果如何?

數據集成多源異構數據時,數倉開發人員真的能快速理解這些數據的實際業務含義么?如果理解成本很高,開發人員可能就會出現認識偏差。

終于數據集成進來了,可以開始進行數倉建設了,如何保證每一層的數據都是符合質量要求的,靠開發的個人素質么?比如我們一般在dwd層做數據標準化,那么不同主題域的由不同的負責人進行開發,怎么保證標準化的結果似乎滿足規范的?dws的數據可信度還能保證么?還能被叫做公共模型層么?

再后,數倉開發完成后需要對外開放,我們其實開發的不光是其數據,還需要開發它的元數據信息,幫助數據使用方快速的找到需要的數據,如果只是把數據堆在一起,只有研發人員自己知道這個數據是什么、在哪、怎么使用,那是不能夠被稱為數據資產的。

還有很多問題,這里只列舉了些典型。當然這些問題,是可以解決的,解決的方式就是數據標準。解決的的過程可能需要的時間比較長,因為標準從管理到落地執行推進并不是一件容易的事,需要從思想上進行轉變,但我們總要正確的做事。

下面列舉了一些價值,但在實際的應用過程能夠發現更多的可能性。

價值一:建立統一的數據視圖

建立通用的元模型規范,支持用戶自定義擴展,對多源異構數據表進行信息抽象提取,形成統一的元數據層。所有的數據開發完成后發布到數據標準維護的統一的數據目錄,通過不同維度的數據目錄進行多維篩選,滿足各類用戶的檢索需要,達到資產的可管、可用、可查的目標。

價值二:建立統一的數據認知

首先利用標準完成對多源異構數據的標準化描述,雖然數據在不同系統中的稱呼千奇百怪,但只要進入我們的平臺都將賦予統一的名姓,使得管理方、開發方、使用方建立統一認知。對于倉外表將數據標準與表字段進行關聯,旨在統一含義以及告知未來數據處理的方向;對于倉內表,模型設計之初就需要引用標準,我們知道將數據項進行組合即可得到模型,數據元即為標準數據項池,模型設計時僅需從池子里選取需要的字段進行組合即可組裝成想要的模型。

價值三:建立質量稽核體系

現有的質量稽核一般是由用戶根據業務需求手動設置,不同人員的認知偏差將導致數據質量難以控制。數據標準通過數據元的表示類屬性,根據其格式、類型等要求自動生成質量稽核規則,當某張表的字段綁定了數據元時,即可根據數據元的質量信息要求自動生成稽核任務,且保證了源頭定義的一致性。

價值四:面向未來的數據治理

我們知道,工具的終極目的都是為了降本提效。效率提升是要靠流程規范的,流程足夠規范,在某種程度上可實現流程自動流轉。因此,未來的數據治理趨勢應當側重于流程自動化以及階段智能化,而這兩點都需要數據標準的支撐。

階段智能化期望在流程各階段提供智能識別能力,比如字段的真實含義(掛載數據標準)、資源所屬分類、字段枚舉值等,減少人工參與。從短期來看,用戶從處理者變為審核者,從長期來看,用戶干預的行為反哺識別模型,增加識別準確性,可降低人力成本;

流程自動化依賴階段智能化以及人工干預的結果,將各階段進行串聯,上下游盡可能完美對接,當上游階段達到下游準入條件時,可自動觸發流程運作,當然該過程也需要統一上下游語言(即數據標準),在實際實踐中,可通過試運行進行驗證。

標準的價值還有很多,限于篇幅不過多贅述,大家可以不斷發現標準的應用場景。說完標準的價值了,那么我們該如何建立數據標準呢?

3

如何建立數據標準?

在早期的業務發展過程中,企業為了解決當下的業務問題,各業務條線已建設自己個性化的業務系統,在建設的過程中為了保證內部通信,或多或少都已存在局部的數據標準。因此,建設統一的數據標準很大程度上是對局部標準進行收口,一般來說,可收集現行的國家標準或行業標準,將現有標準與國標或行標進行對標,此過程一是可以滿足監管需要,二是可大大節省標準制定的人力;另一方面則是考慮所在行業的特點并結合企業的實際需要,逐步構建標準進行推行。

具體可參考數據標準的建立的6個步驟,分別是:數據標準規劃、數據標準制定、數據標準發布、數據標準執行、數據標準檢查、數據標準維護。

3.1 數據標準規劃

標準的規劃首先需對企業業務和數據進行調研和分析,結合實際的數據標準需求,明確數據標準的范圍。再根據實際情況的不同,逐步推進。

3.1.1 收集現行標準

可從業務流程出發,圈定參與業務流程的業務實體,通用的業務實體如人,可收集對應現行的國家標準,如對于公民身份證號碼應當遵循強制性標準GB 11643 ,對于性別的代碼應當參考推薦性標準GB/T 2261.1的規定,行政區劃應當參考GB/T 2260的規定等。具備行業屬性的業務實體如商業銀行擔保物,可參考JR/T 0170.1以及JR/T 0170.2的規定等。

3.1.2 從局部標準到全局標準

對于企業各業務條線(部門)已建立的局部標準且不適用于引用現行標準或不存在于現行標準的需要進行收集,對同一業務含義但不同標準描述的項進行評審,在企業內部達成一致,得到最終統一的數據標準。

此過程可包含基礎類數據標準統一、參照類標準統一、指標類數據標準統一。

3.1.3 發現更多數據標準

發現更多標準主要應用于以下情況,一是局部標準不明確也無現行標準適用時,二是企業各業務條線垂直系統較多,數據體量較大,缺乏足夠的人力及技術手段,但從總體戰略的角度期望制定標準時。應對這種情況可依賴數據標準管理平臺(第3節將詳細介紹)進行標準的識別及拾取。

標準的識別及拾取一般存在兩種方式:

第一種有明確制定某項標準的需求,則通過定義數據元概念(第2.2節詳細介紹 ),確定該項數據標準描述的對象類及特性,再通過關鍵詞掃描及智能識別技術,掃描存量數據,識別與該數據元概念一致的數據項集合,對該集合進行探查獲取字段類型分布、長度范圍、值域分布等,從而構建數據元的表示描述,形成完整的數據標準。

第二種是暫無明確制定某項標準的需求,去探索是否需要對某些數據項制定標準。系統對存量數據進行掃描,遍歷所選擇的數據源類型中的所有字段名,提取達到重復閾值的字段名,對其制定數據標準。

3.2 數據標準制定

3.2.1 元數據標準

元數據標準主要規范了平臺對于各類元數據及資產的表示方式和組織方式。

3.2.1.1 元模型的制定

數據中臺是企業數字化轉型的基礎和中樞系統,將企業全域海量、多源、異構的數據整合資產化,但多源異構數據差異化明顯,如何保證數據管理者、使用者、開發者對數據具備統一的認知是亟待解決的問題。良好元模型設計,主旨在于屏蔽底層多源異構系統的復雜度,用統一的語言來描述來自不同應用系統、存儲在不同種類數據庫的各類數據。

我們知道元數據是描述數據的數據,而元模型則是關于模型的數據描述,根據OMG(對象管理組織)提出的四層元模型結構,可以清晰的表達出四層的關系:

可以看出,元數據是個相對的概念,元模型即為元數據的元數據,為了更方便大家理解,這里提供一個實例解釋:

元模型不僅限于表元模型、字段元模型,還包含指標元模型、標簽元模型等,雖然所描述的元數據種類不同,但管理方法上都是一致的,在實踐的過程中,可全部納入數據標準進行管理,也可在對應的子系統中各自維護。

3.2.1.2 命名及編碼規則制定

命名規則主要用于規范表名、字段名、任務名稱、指標名稱、標簽名稱等,指定某個名稱應當使用哪些命名要素組成以及以何種排列順序組成。編碼規則主要用戶資產編碼、數據元內部標識符、標簽編碼、指標編碼等,指定某個編碼應當使用何種編碼方式。

因此需要指定命名及編碼要素范圍,一是選取平臺已存在的枚舉值,如數據分層、主題域或其他已存在的分類枚舉;二是用戶可自定義常量、自定義枚舉值;三是平臺提供的可變位序列。通過上述的命名要素,進行排序組合,形成命名及編碼規則。

以數據元為例子:

第一種編碼方式可以為“指定標識(常量)+7位自增序列”,可以編碼為DE0000001;

第二種編碼方式可以按照所在分類進行統一編碼,類似于“一級分類編碼+二級分類編碼+三位自增序列”,比如公民身份號碼數據元歸屬分了為”人員類(01)/信息標識類(001)“,那么可以編碼為01001001,其他以此類推。

3.2.1.3 數據目錄規范制定

數據目錄提供靈活的數據組織方式,比如數倉開發人員使用數據分層、主題域來組織數據,對于數據管理者,可能更關注于資產盤點,希望能夠按照來源系統、管理部門以及安全分類等多種方案進行管理。

我們在制定數據目錄時,需要分析用戶的需求場景,在不同場景下為用戶提供更合適的數據視角,便于用戶取數用數。一般來說,會先提供數據來源分類、數倉設計分類、數據安全分類,分類的描述信息至少要包含分類名稱、英文名稱、內部編碼,以便于在平臺其他模塊的應用。且分類方案支持用戶在后期的管理過程中進行自定義擴充。

3.2.2 基礎數據標準

3.2.2.1 詞根的制定

詞根是為了標準的命名更加規范統一,最終將被應用到字段命名或其他資產的命名上。

企業可根據自身積累,對詞根進行收集,形成自己的詞根庫,在制定數據元及字典時,可根據輸入的中文名稱自動根據詞根翻譯英文名稱。

一個完整的詞根信息包含英文簡稱、英文全稱、中文全稱三個部分,其中文全稱支持多個,保證用戶在使用詞根翻譯時相同含義字段能夠獲取相同的英文簡稱。另外,為了便于統一管理,需對詞根的編碼及詞根來源進行指定。

3.2.2.2 數據元的制定

數據元是基礎類數據標準的具象化體現,也是數據標準管理的核心。根據數據標準規劃,制定數據元第一種方式是對現行標準進行結構化提取,使用平臺進行管理,第二種則是根據自身需要建立企業自己的專業數據元。

完整的數據元應當由三部分組成,對象類、特性及表示,如下圖所示,只有當對象類及其特性綁定了表示時,才能由數據元概念轉變為真正的數據元。

對象類:現實世界中的想法、抽象概念或事物的集合,有清楚的邊界和含義,并且特性和其行為遵循同樣的規則而能夠加以標識;,如:車、人、訂單等;

特性:對象類的所有個體所共有的某種性質,如顏色、性別、年齡、價格等;

表示:值域、數據類型的組合,必要時也包括度量單位或字符集,如:格式、值域、長度等;

其中,值域可通過名稱或碼值直接給出、也可通過參考資料給出、也可通過綁定數據字典給出。

因此完整的數據元名稱應當為:“對象類詞+特性詞+表示詞”,如人性別代碼。

在理解了數據元的含義后,如何去制定數據元呢?我們可參考GB/T 18391標準的第1~6部分,有興趣的朋友可以去了解下,這里結合我們的理解給出數據元的結構化描述。

在制定數據元時,我們通常會從6個方面描述數據元的基本屬性:標識類屬性、定義類屬性、關系類屬性、表示類屬性、管理類屬性、附加類屬性,如下表,這是一個綜合的較為通用的數據元描述模板,在應用過程中需要根據企業實際需要,進行刪減補全。

3.2.2.3 數據字典的制定

數據字典是參照類數據標準的具象體現,一般分為原始字典及標準字典,原始字典指源系統或生產系統中某個原始項數據內容的枚舉集合,標準數據字典一般用于作為數據元值域而存在,在數據處理過程中需要完成原始字典到標準字典的映射,完成字典標準化工作。

數據字典核心是其碼值列表,碼值列表至少要包含兩項信息:代碼、代碼描述,必要時可增加說明字段進行補充。

獲得碼表的方式:

原始字典:數據庫逆向采集、元數據注冊時填寫字段枚舉值、數據探查時值域分布計算、手動錄入;

標準字典:現行標準的結構化提取、標準識別結果分析、手動錄入。

3.2.2.4 數據項分類規范制定

數據項分類與數據目錄類似,也是為了滿足在不同場景下,對不同對象的分類需求。數據項分類即是對字段級進行分類。

在制定數據目錄時,需要分析用戶的需求場景,在不同場景下為用戶提供不同的分類方案。如從管理角度,可以按照描述對象、來源文件進行劃分;從數據安全角度可以按照敏感級別、安全級別進行劃分等,且分類方案支持用戶在后期的管理過程中進行自定義擴充。

在實際應用的過程時,會將具體的分類值關聯數據元,再由數據元關聯字段,做到快速分類的目的。

3.2.3 技術標準制定

3.2.3.1 數據類型映射關系

主要記錄不同數據源間數據類型的映射關系,便于在數據傳輸、分發等場景下快速建表,提升數據傳輸任務的配置效率。

3.2.3.2 異構數據開發模板制定

主要管理不同數據源的DDL語句模板,包含新增、刪除、更新等,協助數據開發人員選擇對應數據庫節點時快速根據模板生成語句。

3.3 數據標準發布

一般數據標準建議遵循草案、試用、標準、廢止的生命周期流轉,但可根據實際情況進行簡化。對于數據元、數據字典盡可能遵循此生命周期管理,對于詞根、數據分類、元模型等可簡化流程,可采取草案、上線、下線的生命周期管理。

數據標準發布是在標準制定完成進入開發完成態后,可提交發布審核,審核通過后將應用于整個系統,若后續需要進行修訂,則需修訂完成后重新發布最新版本。

另外,發布前需查看版本變化以及影響范圍,評估影響后再進行發布生效,并通知相關方進行調整。

3.4 數據標準執行

數據標準執行主要分兩塊,第一塊是正在進行數據治理的各個階段進行應用,第二塊是新建系統和歷史存在的業務系統的應用。

數據治理過程的應用主要在(涉及數據標準與各個模塊的對接,將在第4節詳細介紹):

元數據:需要從業務屬性、技術屬性、管理屬性三個方面對元數據進行描述,需要定義具體的描述項

數據資產:需要對各類資產進行盤點,需要定義資產編碼及命名規范、定義分類依據、上線標準

數據質量:需要建立稽核規則,需要構建質量檢測體系

數據安全:需要對數據進行分級分類,需要定義數據項分類依據、敏感信息的識別依據

模型設計:需要定義數據模型、數據指標、維度度量等數據的標準

數據傳輸:需要對接不同種數據源、來源系統,需要制定不同系統、數據源間的交換依據

數據開發:需要定義數據處理依據,字段及字典映射邏輯、各類數據源SQL模板

新建的業務系統

必須嚴格按照發布的標準進行設計,通過使用平臺提供的模型設計產品進行管控

正在運行的系統

可以通過探查、智能識別的手段建立映射關系

3.5 數據標準檢查

數據標準執行后,需要進行落標檢查,確認標準執行的情況以及效果。

可參考相關指標,從標準側進行標準的引用統計、標準化率統計,從質量側統計表及字段質量評分,多角度去判斷指標執行情況及應用效果。

3.6 數據標準維護

維護數據標準

在實際執行的過程中,可能現行標準發生修訂,企業自身業務規則發生變化,都需要對已發布的標準進行修訂

修訂要嚴格按照生命周期流轉要求,記錄版本變化,評估變更影響,在進行重新發布生效

沉淀數據標準

隨著標準的累計,我們需要沉淀所在行業的標準

通過標準沉淀,建立標準資產,形成行業最佳實踐,提升企業在所在行業的地位

4

數據標準產品介紹

在了解了如何建立數據標準后,我們可以著手開始干了。但工欲善其事必先利其器,一個合適的數據標準管理工具可以幫助我們更方便、更高效的制定和管理數據標準。

因此我們基于數據標準管理流程、管理內容的分析,并充分考慮不同行業對標準管理需求的不一致性,對數據標準管理產品進行功能設計,本章將詳細介紹產品的各個模塊。

4.1 產品總體架構

4.2 產品功能模塊

4.2.1 數據標準統計首頁

主要包含標準資產統計、標準化情況統計、標準流程統計,全方位評估標準建設及使用情況。

4.2.2 數據標準文件管理

此模塊用于管理當前平臺參照的各類標準文件,并與已結構化的標準建立聯系,保證標準來源的可信。另外,針對已經做過結構化標準提取的文件,將作為平臺預置的標準模板,供用戶使用。

4.2.2.1 數據元管理

數據元管理是標準管理核心內容,支持表單及批量導入的方式錄入數據元,按照標準生命周期草案、試用、標準、廢止對數據元進行管理,支持數據元的批量導出,滿足不同場景下查看數據元的需求。定義時也將數據元與稽核規則進行綁定,為質量檢測提供依據。

另外,支持數據元不同版本之間的比對,獲取版本差異,評估標準變更存在的風險。

4.2.2.2 數據字典管理

數據字典管理內容包含原始字典及標準字典,可以認為原始字典是原始數據項的值域分布, 標準字典是標準數據項的值域分布。原始字典可主動錄入,也可通過數據探查的值域分布進行生成;標準字典滿足與數據元同樣的生命周期管理,也支持批量導入導出操作。

在后續的實現中,將完成從平臺已有數據庫中存在的字典表進行拾取,同時維護原始字典與標準字典之間的關系,方便用戶在進行數據處理時快速進行字典對標。

4.2.2.3 詞根管理

詞根管理旨在定義英文名稱、英文簡稱、中文名稱間的映射關系,為標準的命名提供規范的輸入。用戶在定義數據元、數據字典或模型字段時,將對輸入的中文名稱進行拆詞,依據詞根生成英文名稱。

除了已支持的詞根表單錄入外,后續將支持詞根的批量導入,幫助用戶快速導入已制定好的詞根列表。

4.2.2.4 數據項分類管理

數據項分類管理提供了三個層級目錄類型,第一種管理的是分類目錄,用戶對分類方案進行歸類;第二種管理的是分類方案,它是基于某種數據項分類依據(如描述對象)提供的一種分類方式;第三種是分類值,它歸屬于分類方案,在這一層將與真正的數據元進行掛載。

因此數據項分類支持分類的基本信息管理,也支持對數據元批量進行關聯以及解除關聯。

4.2.3 元數據標準管理

4.2.3.1 命名及編碼規則管理

命名規則及編碼管理要能夠將平臺中已有的可作為命名要素的枚舉值進行收集管理,支持用戶添加自定義元素,用戶可通過點擊或拖拽的方式將元素進行組合形成命名規則及編碼規則。

4.2.3.2 數據目錄管理

數據目錄管理與數據項分類管理類似,但分類的對象不同,此處分類主要是對平臺各類資產的編目,提供多種視角、多種方案對表、指標、標簽等進行分類管理,應用于統一的資產目錄進行展示,讓資產可理解、可識別、易查找。

4.2.4 技術標準管理

4.2.4.1 數據類型映射關系管理

主要管理不同數據源間數據類型的映射關系,如下表示例,隨著數據源種類的增加,此模塊支持多數據源類型交叉映射。

4.2.4.2 DDL模板管理

主要管理不同數據源的DDL語句模板,包含新增、刪除、更新等,在模型設計時或離線開發時進行引用,根據選中的信息,替換模板中的參數。以mysql建表為例:

CREATE?TABLE?IF?NOT?EXISTS?${table_name}(???${filed_list}???PRIMARY?KEY?(?${pk_filed_name}?))ENGINE=InnoDB DEFAULT CHARSET=utf8;

4.2.5 標準流程管理

4.2.5.1 標準發現

根據標準制定流程,平臺提供數據庫拾取能力,對標準進行識別,根據識別結果來得出結論 ,即完整的數據元定義。下面是根據數據元概念進行識別的頁面參考。

4.2.5.2 審核管理

審核管理主要是對標準生命周期流轉的申請以及標準的發布申請進行操作,審核人員可根據實際情況評估,選擇通過或拒絕。

4.2.5.3 標準發布

標準發布采取整包發布的方式,若將同一批次的數據元列表發布一個大版本,保證平臺的標準參考基線。需要支持查看當前更新的內容,提交發布申請,比對版本差異,支持查看發布歷史等。

4.2.6 標準配置

標準配置主要是對數據元及數據字典的元模型進行配置管理,我們提供了較為全面的數據標準結構化表示方法,但根據不同行業對標準描述的需要,可能并不需要這么多描述項,因此提供數據標準的元模型配置,用戶可根據實際情況進行啟用、停用或新增標準的描述項。

4.2.6.1 數據元模板配置

4.2.6.2 數據字典模板配置

5

數據標準和數據中臺的結合實踐

在具體實施過程中,我們期望按照“需求-設計-開發-交付”流程進行建設。在需求設計階段,應對數據現狀進行摸排,確定治理范圍以及標準的制定范圍。從而在后續的設計中能夠規范指標及模型設計,從源頭上開始控制元數據及數據的質量,指導開發過程的具體實施。

數據標準在治理流程中的位置以及跟各模塊產生的交互。

5.1 數據傳輸

數據傳輸承擔著將多源異構數據集成到大數據平臺以及將平臺數據分發到其他庫的能力,當目標庫無對應表時,需要根據來源表進行建表,但不同數據源間的類型差異,需要人工進行匹配,隨著數據源種類的不斷增加,靠人的經驗進行匹配處理已非常困難。

標準維護的是不同數據源間類型的映射關系,在建立傳輸任務時,可根據映射關系快速生成目標表結構,達到快速建表、一鍵建表的能力。

5.2 元數據

元模型的配置在我們的實踐中主要包含對元模型分組管理、系統內置項管理、用戶自定義項管理,目前已支持對表、字段、指標、標簽的元模型設計。

5.2.1 表元模型設計

5.2.1.1 分組管理

5.2.1.2 系統內置項管理

5.2.1.3 自定義項管理

5.2.2 字段元模型設計

5.2.2 指標元模型設計

5.2.3 標簽元模型設計

5.3 模型設計

5.3.1 分層規劃

除了系統內置的分層外,用戶可添加自定義分層

對于分層下的表,需要配置表名設計規范,將選取命名要素按照一定順序排列,得到命名規則

5.3.2 分類規劃

利用數據目錄管理進行分類規劃,在資源目錄、資產側按照場景對數據資源進行編目,滿足各類用戶查數用數需求。如:主題域劃分、來源系統劃分、安全分類等。

5.3.3 表結構及數據項標準設計

設計表結構時,一方面根據填寫的中文描述,自動推薦對應的數據元(若標準存在),另一方面可直接選擇數據元,平臺將根據選擇的數據元自動回填字段名、字段類型、字段描述以及關聯的標準數據字典,如下圖所示:

具體應用一般放在模型設計中心添加字段時進行關聯:

5.4 數據開發

SQL編輯時根據選擇的輸入輸出表,通過表字段關聯的數據元信息,將相同含義的字段自動進行映射,快速生成SQL,用戶只需對生成的SQL進行確認即可。

在后續的規劃中,標準將助力可視化ETL以及自動化ETL,協助用戶進行字段映射,根據數據元關聯的稽核規則、脫敏規則等,自動獲取對應的處理函數,即可生成開發腳本。

5.5 數據質量

數據標準是數據質量稽核規則的主要參考依據,通過將數據質量稽核規則與數據標準關聯,一方面可以實現字段級的數據質量校驗,另一方面也可以直接構建較為通用的數據質量稽核規則體系,確保規則的全面性和可用性。

5.6 數據安全

數據標準可包含業務敏感數據對象和屬性,從而實現對數據安全管理相關規則的定義。通過數據元關聯,快速生成字段級加密或脫敏規則。

6

總結

數據標準的建設及管理任重而道遠,后續將逐步擴展標準的應用場景,滿足各行業客戶的需求。隨著管理內容的不斷豐富,管理流程的不斷完善,標準將作為數據中臺的基石,為各模塊、各流程階段提供規范性指導及監督。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢