- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-02-24來源:澤蘭瀏覽數:665次
? ? ? ?前天和一個朋友探討數據元和元數據的差異問題,發在群里面,群里的小斐豆同學希望更系統的了解,所以就整理了這篇文章,分享給大家;
? ? ? ?數據元和元數據這兩個概念一般人比較容易混淆,之前我也比較困惑,讀了10幾篇關于這方面的文章和相關書籍,終于對這兩個詞有了比較深刻的理解,下面我們看下他們之間的2個共同點和5個差異點。
? ? ? ?第1個相同點:相同的三個字,只是順序不一樣
? ? ? ?第2個相同點:下面表格,站在數據模型元素初始化方理解,所有項都是數據元的組成部分,但是站在應用方理解,除了值之外,其它的都可以看作是元數據。
|
中文名稱 |
唯一標識 |
英文名稱 |
定義 |
對象 |
特性 |
表示 |
類型 |
值 |
|
姓名 |
001 |
person name |
人的姓和名組成的字串. |
人 |
姓名 |
名稱 |
C(60) |
李四 |
|
性別代碼 |
02 |
Persosex |
男性與女性之間的生物區分. |
人 |
性別 |
代碼 |
N(1) |
[1,2,0] |
? ? ? ?第1點差異:順序差異,數據元可以創造數據,而元數據不能,數據元之后才能說元數據
? ? ? ?第2點差異:內容差異,數據元可以是數據本身,而元數據只能用來定義和描述已有數據
? ? ? ?第3點差異:角度差異,數據元更趨近于初始化模型,而元數據更接近應用
? ? ? ?第4點差異:特征差異,數據元不可再分、不冗余,而元數據可以拆分和冗余
? ? ? ?第5點差異:作用差異,數據元是一套指導理論,是初始化標準,而元數據主要是幫助人們更好的理解和使用數據。

? ? ? ?數據元( Data Element),也稱為數據元素,用一級屬性描述定義、標識、值域、數據類型、表示方式的組合,必要時也包括計量單位、字符集等信息;?在一定語境下,通常用于構建一個語義正確、獨立且無歧義的特定概念語義的信息單元。
? ? ? ?數據元可以理解為數據的基本單元,將若干具有相關性的數據元按一定的次序組成一個整體結構即為數據模型。
? ? ? ?所建立的數據庫中,數據(基本)表的字段名應從數據元集中選取且具有唯一對應關系,因此可理解表的列字段即為數據元;
? ? ? ?數據具有原子性,集成性,演繹性,行業數據元應該是有限的,規劃好行業數據元之后,可以為行業構建出統一、集成的、穩定的數據模型奠定基礎,?同時它也為數據交換奠定基礎
? ? ? ?元數據(Metadata),又稱中介數據、中繼數據,為描述數據的數據,主要是描述數據屬性(property)的信息;
? ? ? ?元數據是關于數據的組織、數據域及其關系的信息,簡言之,元數據就是關于數據的數據。? ? ? ?
? ? ? ?a. 按數據元的應用范圍,分為通用數據元、應用數據元(或稱“領域數據元”)和專用數據元。通用數據元是與具體的對象類無關的、可以在多種場合應用的數據元。應用數據元是在特定領域內使用的數據元。應用數據元與通用數據元是相對于一定的應用環境而言的,兩者之間并沒有本質的區別,應用數據元是被限定的通用數據元,通用數據元是被泛化的應用數據元,隨環境的變化彼此可以相互轉化。專用數據元是指與對象類完全綁定、只能用來描述該對象類的某個特性的數據元。專用數據元包含了數據元的所有組成部分,是“完整的”數據元。
? ? ? ?b. 按數據元值的數據類型,可分為文字型數據元與數值型數據元。例如人的姓名是用文字表示的,屬于文字型數據元;人的身高是用數值表示的,屬于數值型數據元。
? ? ? ?c. 按數據元中數據項的多少,可分為簡單數據元和復合數據元。簡單數據元由一個單獨的數據項組成;復合數據元是由2個及以上的數據項組成的數據元,即由2個以上的數據元組成。組成復合數據元的數據元稱為成分數據元。雖然數據元一般被認為是不可再分的數據的基本單元,而復合數據元是由兩個以上的數據元組成的,但是在實際應用中復合數據元一般被當作不可分割的整體來使用,所以復合數據元仍然可以看作是數據的基本單元,即數據元。例如數據元“日期時間”是一個復合數據元,表示某一天的某一時刻,它由“日期”和“時間”兩個數據元組成。
? ? ? ?a. 技術元數據
? ? ? ?物理元數據描述物理資源的元數據,例如:服務器,計算機機房位置和其他信息。
? ? ? ?數據源元數據描述了數據源的元數據,通常包括四種類型的信息:數據源地址(例如IP,PORT等),物理拓撲(例如主備,角色等),權限(例如用戶名,密碼等)以及庫名稱,版本,域名等
? ? ? ?存儲元數據描述對象存儲的元數據,通常也是“狹義”的元數據,包括幾種主要類型的管理屬性(例如創建者,應用系統,業務部門,業務負責人等),生命周期(例如創建時間,DDL時間,版本信息等),存儲屬性(例如位置,物理大小等),數據特征(例如數據偏斜,平均長度等),使用特征(例如DML,刷新)速率等),數據結構表/分區(例如名稱,類型,備注等),列(例如名稱,類型,長度,精度等),索引(例如名稱,類型,字段等),約束(例如類型,字段等)
? ? ? ?計算元數據描述數據計算過程的元數據通??梢苑譃閮煞N類型的計算:數據提取(ETL)或數據處理(JOB)。每種類型的計算都可以進一步細分控制元數據(例如配置屬性,調度策略等)和過程元數據(例如依賴項,執行狀態,執行日志等)。
? ? ? ?質量元數據是一種描述數據質量的元數據。通常,數據質量是通過定義一系列質量指標來反映的。
? ? ? ?成本元數據描述數據存儲和計算成本的元數據。計算成本(例如,CPU,MEM等),存儲成本(例如,空間,壓縮率等)
? ? ? ?標準元數據描述了數據標準化內容的元數據。代碼管理(例如轉換規則,外部接口等)映射管理數據顯示(例如樣式,規則,語義,單位等)
? ? ? ?安全性元數據描述數據安全性內容的元數據。安全級別數據敏感度(例如,是否敏感,脫敏算法等)
? ? ? ?共享元數據描述了如何共享數據,例如接口方法,格式和內容。
? ? ? ?b.業務元數據
? ? ? ?模型元數據數據建模是對業務的描述,可以通過模型更好地理解業務。常見的建模方法包括范式模型,維模型。例如業務線、板塊、過程數據域、主題域維度、屬性事實、度量市場與應用。
? ? ? ?應用元數據指描述了數據應用類的元數據。例如應場景等。
? ? ? ?分析元數據是指從數據分析的角度描述業務元數據。例如數據域、主題域產品線、板塊、業務過程、業務流程、業務規則等。
? ? ? ?c.操作維護元數據
? ? ? ?操作元數據包括數據處理日志運營情況數據,調度頻度,訪問記錄等
? ? ? ?數據:信息的可再解釋的形式化表示,以適用于通信、解釋或處理。數據可以由人工或自動的方式加工、處理。
? ? ? ?對象類:可以對其界限和含義進行明確的標識, 且特性和行為遵循相同規則的觀念、抽象概念或現實世界中事物的集合。
? ? ? ?特性:property,一個對象類所有成員所共有的特征。
? ? ? ?表示:representation,描述,值域、數據類型的組合,必要時也包括計量單位或字符集。
? ? ? ?語境:context一個名稱所用于的或所源自的應用環境或規程的描述。
? ? ? ?值域:value domain允許值的集合。
? ? ? ?數據單元:是網絡信息傳輸的基本單位一般網絡連接不允許傳送任意大小的數據包,而是采用分組技術將一個數據分成若干個很小的數據包,并給每個小數據包加上一些關于此數據包的屬性信息,例如源IP地址、目的IP地址、數據長度等。這樣的一個小數據包就叫數據單元。這樣一來,每次網絡要傳送的數據都是規格和封裝方式相同的一個“小包裹”,有利于數據傳輸的標準化,簡化了數據傳輸方式。
? ? ? ?上面是本人對數據元和元數據的理解,僅供參考和輔助理解,資料來源于網絡和自己的總結,如果不同理解,歡迎留言探討,讓我們一起深入刨析基礎,我堅信“基礎才是王道”,因為當我對某些知識不能深入理解時,我就回過頭來重新理解最基礎的定義,重新理解和定義自己角度的認知,可能會有意想不到的收獲,如果您贊同我的認知,煩請關注我或加我微信,我們一起透徹數據治理基礎,持續完善數據治理體系。