- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-03-14來源:冷色系瀏覽數:394次
數據分類的目的是為了針對不同特性的數據采取不同的管理策略,以期實現最大的投入產出比,不同的企業或組織基于不同的目的,可以從多個角度對數據進行分類,今天就來聊一聊主流的分法。
1、按照結構特征劃分
可以分為結構化數據、非結構化數據及半結構化數據。
(1)結構化數據
指數據元素之間具有統一且確定關系的數據,它由明確定義的數據類型組成,結構化數據一般特點是數據以行為單位,一行數據表示一個實體的信息。每一行數據的屬性是相同的。結構化數據的分析更為便利,且存在成熟的分析工具。
(2)非結構化數據
指數據元素之間沒有統一和確定關系的數據,它是具有內部結構,但不通過預定義的數據模型或模式進行結構化的數據,如各種格式的圖片、視頻等,直接分析非結構化數據需要很強的專業性。
(3)半結構化數據
指非關系模型的,具有基本固定結構模式的數據,例如日志文件、XML文檔、JSON文檔、E-mail等。
2、按照數據性質劃分
可以分為參考數據、主數據、事務數據(或交易數據)、統計數據、觀測數據(又叫時序數據),這在《華為數據之道》和《數據治理-工業企業數字化轉型之道》都有提及,當然華為還提了規則數據,但這個跟參考數據有交叉。
(1)參考數據
指對其他數據進行分類和規范的數據,如國家、地區、貨幣等產業通用的數據及各產業特色基礎配置數據,具有相對穩定、靜態的數據,基本不會變化,往往通過系統配置文件給予規范并固化在信息管理系統中。
(2)主數據
指滿足跨部門業務協同需要的、反映核心業務實體狀態屬性的基礎信息。主數據是用來描述企業核心業務實體的數據,是企業核心業務對象、交易業務的執行主體,是在整個價值鏈上被重復或共享應用于多個業務流程、跨越多個業務部門和系統、高價值的基礎數據,也是各業務應用和各系統之間進行數據交易的基礎。從業務角度看,主數據是相對固定、變化緩慢的,但它是企業信息系統的神經中樞,是業務運行和決策分析的基礎。
(3)事務數據
指在業務活動過程中產生的數據,是企業日常經營活動的直接體現,也是圍繞主數據實體產生的業務行為和結果型數據,業務活動數據存在于聯機事務處理系統中,就有瞬間生成和動態的特點。
(4)統計數據
是組織在經營分析過程中衡量某一個目標或事物的數據,一般由指標名稱、時間和數值等組成。
(5)觀測數據
指時間序列數據,它是按時間順序記錄的數據列,在同一個數據列中的各個數據必須是同口徑的,要求具有可比性。在工業企業中,實時數據是時序數據的一種,如設備運行監測類數據、安全類監測類數據、環境監測類數據。
3、按照數據存儲方式劃分
可以分為關系型數據庫存儲數據、鍵值數據庫存儲數據、列式數據庫存儲數據、圖數據庫存儲數據、文檔數據庫存儲數據等。
(1)關系型數據庫
采用關系數據模型的數據庫系統,關系數據模型實際上是表示各類實體及其之間聯系的由行和列構成的二維表結構。一個關系數據庫由多個二維表組成。表中的每一行為一個元組,每一列為一個屬性,對關系型數據庫進行操作通常采用結構化查詢語言。
(2)鍵值數據庫
是一種非關系數據庫,它使用簡單的鍵值方法來存儲數據。鍵值數據庫將數據存儲為鍵值對集合,其中鍵作為唯一標識符。鍵和值都可以是從簡單對象到復雜復合對象的任何內容。鍵值數據庫是高度可分區的,并且允許以其他類型的數據庫無法實現的規模進行水平擴展。
(3)列式數據庫
是一種非關系數據庫,以列相關存儲架構進行數據存儲的數據庫,主要適合于批量數據處理和即時查詢。相對應的是行式數據庫,數據以行相關的存儲體系架構進行空間分配,主要適合于小批量的數據處理,常用于聯機事務型數據處理。
(4)圖數據庫
是一種非關系型數據庫,它應用圖形理論存儲實體之間的關系信息。最常見例子就是社會網絡中人與人之間的關系。
(5)文檔數據庫
是 NoSQL 中非常重要的一個分支,它主要用來存儲、索引并管理面向文檔的數據或者類似的半結構化數據。
4、按照數據開放屬性劃分
可以分為禁止開放類、受限開放類、無條件開放類等。
(1)禁止開放類
開放后涉及國家安全、公共安全、經濟安全和社會穩定的;涉及商業秘密、個人隱私的;因數據獲取協議或者知識產權保護等禁止開放的;法律、法規規定不得開放的。
(2)受限開放類
涉及商業機密、個人隱私,其指向的特定公民、法人或者其它組織同意開放,且法律、法規未禁止的;開放將嚴重擠占公共基礎設施資源,影響公共數據處理效率的;開放安全風險難以評估的;依法經脫敏、脫密等處理的禁止開放類公共數據,符合受限開放的,應列為受限開放類公共數據。
(3)無條件開放類
除禁止開放類與受限開放類公共數據以外的其他公共數據;已脫敏、脫密等處理的禁止開放類與受限開放類公共數據,符合無條件開放的,可列為無條件開放類公共數據
5、按照主題域劃分
主題域是一個抽象概念,是在較高層次上將企業信息系統中的數據綜合、歸類,并進行分析利用的抽象,主題域劃分的方法有按業務、按系統、按部門等等。
(1)按系統劃分,業務系統有幾種,就劃分為幾類

下面是某MSS系統劃分藍圖示例:

(2)按業務劃分,比如業務系統中有商品、交易、物流等

下面是某證券行業業務主題域示例:

(3)按部門規劃,比如公司內的生產、供應鏈、研發、銷售等

下面某公共數據開放平臺的單位目錄示例:

數據分類在數據資產管理中的價值很大,但一定要以業務價值為導向,要么提升管理效率,要么能提升客戶體驗,不要為了分類而分類。