日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

終于把元數據、數據元、元模型、數據字典及數據模型的區別搞清楚了

時間:2023-08-24來源:最早的晚安瀏覽數:742

有讀者問起元數據、數據元、數據字典、數據模型及元模型的區別,這些相似的概念估計會把不少人饒暈,這里我先給出一個圖解的例子,然后再對這些概念作詳細解讀。

1、數據元就是”個人所得稅記錄表“中的字段,比如示例中的”個人所得稅金額“,注意,數據元既有描述內容,也是數據的一部分,最小單元而已,圖中藍色虛框包含的部分就是數據元。

2、數據模型就是”個人所得稅記錄表“這張表本身,它是現實世界的一個抽象,見圖中黑色虛框包含的部分。

3、”個人所得稅金額“的元數據是對”個人所得稅金額“這個字段的描述,見圖中紅色虛框部分,可見它不包含數據。

4、”個人所得稅記錄表“的元數據是對”個人所得稅記錄表“這張表的描述,見圖中咖啡虛框部分。

5、數據字典就是針對表,字段等數據庫對象元數據的一種重新組織形式,示意如上。

6、有了對數據模型的理解再看元模型,元模型是模型的模型,定義了描述某一模型的規范,具體來說就是組成模型的元素和元素之間的關系,如上圖對實體和實體間的1:1依賴關系做了定義,對實體的屬性做了name、field定義,元模型實例化就成了模型和元數據。以下是我的辨析總結:

數據元:是通過定義、標識、表示以及允許值等一系列屬性描述的數據單元,數據元的相關信息也是元數據的一部分,數據元=單元數據+基本描述(元數據子集)

元數據:關于數據的數據,但元數據無法涵蓋理解數據元所要表示的數據所必需的所有信息,元數據=對于數據元有缺失的描述

數據字典:用戶可以訪問的一種信息集合的目錄,是元數據的子集和應用,數據字典=元數據的一種特殊應用

數據模型:是數據特征的抽象,將若干具有相關性的數據元按一定的次序組成一個整體結構即為數據模型,數據模型=若干數據元組合

元模型:對模型的元素和元素之間關系的規范,元模型=數據模型和元數據的抽象規范

如果還想了解更多,可以繼續往下讀,共分為五個部分。

一、數據元

數據元(Data element)即數據元素,是通過定義、標識、表示以及允許值等一系列屬性描述的數據單元,在一定語境下,構建一個語義正確、獨立且無歧義的特定概念語義的信息單元。在特定的語義環境中,數據元被認為是不可再分的最小數據單元,將若干個具有相關性的數據元按一定次序組成的一個整體結構,即數據模型。數據元由對象類、特性及表示三部分組成,比如“個人所得稅金額”就是一個數據元,“個人”為對象詞,“所得稅”是該數據元的特性詞,“金額”是該數據元的表示詞,值域可以是一系列非負整數(帶有貨幣單位)。

1、對象類:現實世界中的想法、抽象概念或事物的集合,有清楚的邊界和含義,并且特性和其行為遵循同樣的規則而能夠加以標識;

2、特性:對象類的所有個體所共有的某種性質;

3、表示:值域、數據類型、計量單位(如果需要)、表示類(可選)組成。

數據元可以用來對各行業的數據進行規范化,對行業數據進行統一的名、型、值規范及分類,規劃好行業數據元之后,可以為行業構建出統一、集成的、穩定的數據模型奠定基礎,同時它也為數據交換奠定基礎。國標GB/T 18391對數據元做了詳細規范,下圖給出了數據元的結構模型,同實體關系類的數據模型相比,模型中的實體相當于數據元的對象類,而實體的屬性相當于數據元中的特性和表示。

國標定義了數據元的基本屬性,如下圖所示:

下面是一個示例:

二、元數據

面對數據我們總是會有以下的一些疑問:**這個數據怎么來的?**誰創建的,誰更新的,從哪個系統來的…**這個數據是什么?**數據的語義環境是什么,數據怎么存儲的,數據的定位是什么…**這個數據怎么用?**數據的應用場景是什么,有沒有和其他系統共享,如果丟失會造成什么影響…**這個數據怎么管理?**誰負責這個數據,這個數據怎么評定質量,誰有權訪問這個數據…為了更好的解決這些問題,需要使用元數據來記錄數據相關的信息。

元數據是關于數據的組織、數據域及其關系的信息,簡言之,元數據就是關于數據的數據。元數據的作用是巨大的,其是網絡信息資源描述的重要工具,可以用于網絡信息資源管理的各個方面,包括信息資源的建立、發布、轉換、使用、共享等,具體可以概括為五個方面:

1、描述作用:對信息對象的內容和位置進行描述,從而為信息對象的存取與利用奠定必要基礎。

2、定位作用:由于網絡信息資源沒有具體的實體存在,因此,明確定位至關重要,元數據包含有關網絡信息資源位置方面的信息,由此便可確定資源的位置所在,促進了網絡環境中信息對象的發現和檢索。

3、搜尋作用:元數據提供搜尋的基礎,在著錄的過程中,將信息對象中的重要信息抽出并加以組織,賦予語境,并建立關系,使搜索結果更加準確。

4、評估作用:元數據提供有關信息對象的名稱、內容、年代、格式、制作者等基本屬性,使用戶無需瀏覽信息對象本身情況下,就能對信息對象具備基本了解和認識,參照有關標準即可對其價值進行必要的評估,作為存取利用的參考。

5、選擇作用:根據元數據提供的描述信息、參考評估標準,結合使用環境,用戶能夠做出對信息對象取舍的決定,選擇適合用戶使用的資源。

下面舉2個例子。

1、圖書館中的元數據圖書館都會用一個叫作“圖書目錄”的文件夾來管理藏書,圖書目錄包含圖書名稱、編號、作者、主題、簡介、擺放位置等信息,用來幫助圖書管理員管理和快速查找圖書。元數據就如同圖書館的圖書目錄一樣,能夠幫助數據管理員管理數據。

2、元數據好比字典字典包含一個字的注音、含義、組詞、舉例等基本信息及其字體結構、相關引用、出處等。另外,我們可以通過拼音或偏旁部首查到這個字。所有這些信息都是對這個字的詳細描述,它們就是描述這個字的元數據。

從前面的數據元的定義可以知道,數據元是數據的基本單元,它是先于元數據存在的,但一個組織的數據元必須具備元數據,數據元的相關信息也是元數據的一部分,這些元數據將便于用戶理解和共享該組織中的數據。

但元數據不可能涵蓋理解數據元所要表示的數據所必需的所有信息,例如,一個收集調查資料的組織將會有許多關于如何收集數據的信息,這些諸如樣本和問卷設計等常常是理解數據所必要的,但是,樣本和問卷設計并不是用來表示和描述數據元的元數據的一部分。

三、數據模型

數據模型(Data Model)是數據特征的抽象,它從抽象層次上描述了系統的靜態特征、動態行為和約束條件,為數據庫系統的信息表示與操作提供一個抽象的框架。數據模型所描述的內容有三部分,分別是數據結構、數據操作和數據約束。數據模型按不同的應用層次分成三種類型:分別是概念數據模型、邏輯數據模型、物理數據模型。

1、概念數據模型:確定好領域內的基礎和關鍵的業務實體,統一各種業務術語和命名規范,同時也要給出實體間關系的描述,如下示例:

2、邏輯數據模型:邏輯模型所有實體屬性均需添加,實體間關系要清晰描述,需要使用術語,遵循命名規范,邏輯模型不受底層實際存儲數據庫的約束,但我們需要定義好實體屬性以及實體間的關系(這里主要是主外鍵關系、一對一或一對多或者多對多關系)、實體和屬性的備注說明、屬性的數據類型以及約束(空值、非空、主外鍵鍵約束),如下示例:

3、物理數據模型:是面向計算機物理表示的模型,描述了數據在儲存介質上的組織結構,它不但與具體的DBMS 有關,而且還與操作系統和硬件有關,需要考慮查詢性能要求和未來一段時間內的存儲空間占用情況,一般根據邏輯模型,使用模型設計工具自動生成的,如下示例:

根據前面的數據元結構分析可以知道,數據模型從結構上看,跟數據元有映射關系,區別僅在于數據元是基本數據單元,是對現實世界更原子化的抽象,將若干具有相關性的數據元按一定的次序組成一個整體結構即為數據模型。

四、數據字典【3】

數據字典是用戶可以訪問的一種信息集合的目錄,記錄了有關數據庫以及應用程序源數據的信息,Oracle數據庫認為:數據字典是存放有關數據信息的地方,且具有描述數據的用途。數據字典不包含數據庫實際數據的信息。數據字典的詳細分類見下文,集成化數據字典具體部分見下:

1、數據項:數據項是不可再分的數據單位,數據項描述={數據項名,數據項含義說明,別名,數據類型,長度,取值范圍,取值含義,與其他數據項的邏輯關系}。

2、數據結構:數據結構反映了數據之間的組合關系。一個數據結構可以由若干個數據項組成,也可以由若干個數據結構組成,或由若干個數據項和數據結構混合組成。數據結構描述={數據結構名,含義說明,組成:{數據項或數據結構}}。

3、數據流:數據流是數據結構在系統內傳輸的路徑。數據流描述={數據流名,說明,數據流來源,數據流去向,組成:{數據結構},平均流量,高峰期流量}。

4、數據存儲:數據存儲是數據結構停留或保存的地方,也是數據流的來源和去向之一。數據存儲描述={數據存儲名,說明,編號,流入的數據流,流出的數據流,組成:{數據結構},數據量,存取方式}。

5、處理過程:數據字典中只需要描述處理過程的說明性信息。處理過程描述={處理過程名,說明,輸入:{數據流},輸出:{數據流},處理:{簡要說明}}。

數據字典是一個廣泛概念,狹義上指用來存儲信息的數據庫本身,也可以是非技術的業務領域內數據元素的定義的集合。常見分類如下:

1、按存儲介質

(a) 數據庫介質:有Oracle、hive自帶的元數據庫,也有企業將自己公司的數據字典存儲在數據庫中,如MySQL、Oracle、Postgre等。

(b) 非數據庫介質:主要是以excel文檔為主:對于一個項目中的數據字典,項目組出于使用便捷、成本低以及數據量可控制等原因,使用excel存儲相對應的數據元素,方便數據記錄、查詢、維護和再開發。

2、自動和手動

(a) 自動數據字典:一般是數據庫管理軟件自動管理或者大公司自研的大數據產品,與數據庫的當前結構和定義一致。當數據庫管理系統對數據庫進行任何更改時,數據字典也會更新。

(b) 手動數據字典:一般與業務數據庫分開維護,需要我們手動更新。被動數據字典可以作為單獨的數據庫進行維護,也可以是在獨立的excel進行維護。

(c) 半自動特殊情況:在實施項目過程中,經常會出現腳本結合excel情況。主要有倆種模型,一種是在修改影響數據字典內容前,本著設計及開發原則,先修改數據字典,之后通過腳本或者人工方式再去修改對應數據庫的內容;另一種情況是,每次修改完數據庫內容后,通過腳本方式重新迭代生成新的數據字典。

3、使用用途

(a) 業務數據字典:記錄數據在業務流轉過程中的關鍵節點和背后業務意義,保存一個數據元在數據產生、流轉、融合、銷毀等全生命周期的業務信息規則,幫助數據稽查和商業分析等活動。

(b) 技術數據字典:記錄一個數據元在物理數據庫中信息,方便開發人員對某一數據元或數據表建設數據模型等加工處理操作。

(c) 其他用途數據字典:在某些項目中,由于特殊需求,針對數據操作和管理可能會有單獨的數據字典來維護,項目中每多增加一個非自動化數據字典,提高了維護的人工成本和數據不一致的風險,因此需要項目團隊謹慎對待。

可以看到,元數據有助于填充數據字典,將元數據存儲于一個庫中并使之條理化就可以形成一個數據字典。數據字典一般供技術團隊使用,是引用不同數據屬性的主要場所,包括約束、數據類型、默認值、長度、轉換規則和業務定義。通過建立整個公司都能理解的連貫定義,所有團隊都可以在同一層面上。這有助于保持數據的有效性并實現組織內的一致性。

五、元模型

元模型定義了描述某一模型的規范,具體來說就是組成模型的元素和元素之間的關系。元模型是相對于模型的概念,離開了模型元模型就沒有了意義。下面來看一個類模型與其元模型的例子【4】:

可以將元模型想象成為某種形式語言,這樣模型就是一篇用該語言描述的文章,其中元模型中的元素就是該語言的詞匯,元素之間的關系就是該語言的語法,如下圖:

每個模型都有一種元模型來解釋它,雖然這種元模型可能不是顯而易見的,而模型與元模型也是相對的,對于元元模型來說元模型就是它的模型。模型與元模型構成了一個無限循環,而越往上抽象層次越高。舉一個例子,隨著抽象層次的提升,動物、植物在某個抽象層次有一致的元模型(都是有細胞構成的),再往上提升在某一抽象層次,動物植物礦物都是一致了(都是由分子構成)。

ERWIn,Powerdesign都是建模工具,這些工具中的實體、關系、屬性等構件就是元模型,基于這些元模型的編排我們就可以構建出自己需要的數據模型,如下圖所示:

大家可以看到,元模型讓模型的定義和連接變得更加規范和標準化,這對于數據的集成是非常關鍵的,現在有很多數據庫產品,它們對元數據都有自己的定義和格式,如果這些元數據沒有統一的標準,意味著兩個產品無法進行溝通,比如BI產品要從ORACLE數據庫取到所需要的的表,雙方必須對接口的定義保持一致,要解決這些問題,就必須得用標準的語言描述雙方元數據的結構和語義,并提供標準的元數據交換機制。

CWM(公共倉庫元模型)就是滿足這些條件的一個規范。OMG(對象管理組織)在2000年發布了CWM規范,旨在推動數據倉庫、智能商務和知識管理方面元數據的共享和交換。

CWM主要基于以下三個工業標準:

1、UML:統一建模語言,是OMG的一個建模標準;

2、MOF:元對象工具,是OMG關于元模型和元數據庫的一個標準;

3、XMI:XML元數據交換,是OMG關于元數據交換的標準;

這三個標準是OMG元數據庫體系結構的核心,UML定義了表示模型和元模型的語法和語義。MOF為構建模型和元模型提供了可擴展的框架,并提供了存取元數據的程序接口。而利用XMI則可以將元數據轉換為標準的XML數據流或文件的格式,以便進行交換,這大大增強了CWM的通用性。

傳統的元數據有四個層次,除了最底層外,每一層都對它的下一層進行描述。最底層是用戶對象層(M0),包括用戶要描述的信息,這些信息統稱為數據。向上一層是模型層(M1),由描述信息的元數據組成,在這一層,元數據一般都組合成模型的形式。再向上一層是元模型層(M2),由定義M1層元數據格式和語義的描述信息組成,也就是元元數據,一般組合成元模型的形式。最高層是元元模型層(M3),它定義了元模型的結構和語義。下面舉個例子對這種四層結構進行說明【5】。

四層的內容解釋如下:

1、數據層是學生記錄(Record)的實例,即具體的某個學生;

2、 模型層描述學生這個記錄類型的內容,它有一個名字(“Student”)和兩個字段(Field),每個字段都有一個名字和類型,比如第一個字段的名字是“name“,字段類型是String;

3、元模型層對Record這種類型進行定義,在這一層, Record是元類metaClass的一個實例,一個Record擁有兩個元屬性metaAttribute,第一個name定義它的名字,是String類型,第二個fields定義它包含的字段集,字段集中的成員是Field類型。類似的,元類field應該也包含兩個元屬性:名字name和類型type;

4、元元模型層的結構是基本固定的,它將所有概念抽象為以下這些組件:元類meta-Class、元屬性meta-Attribute和元關聯meta-Association,并定義了元類之間的關系,主要包括:包含(Contains),繼承(Generalizes),類型引用(IsOfType)和依賴(DependsOn);綜上所述,可以用下面這張表來描述OMG的上述規范和元數據四層結構的對應關系:

可以想像一下,如果A系統想訪問B數據庫的學生記錄(Record),雙方必需對實體、屬性等的定義和格式要保持一致,這樣A系統才能準確的告訴B我首先要查找實體學生記錄,然后從這個實體獲得屬性 ,如果大家的模型不是基于同樣定義的實體和屬性構建出來的,那么肯定是無法進行連接的,這種抽象就叫CWM元模型,在MOF里叫作元元數據。

五個概念全部解讀完了,希望對你有所幫助,當然我說得也不一定準確,比如有觀點就認為數據元不包括數據本身。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢