- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2023-01-10來源:為君司南瀏覽數:1017次
大數據在中國的大地上蓬勃發展,帶動了許多新的理念的誕生,數據治理就是其中之一,這兩年已建立好的數據中心或者正在建的數據中心都在如火如荼的進行。在企業內部,也已經開始由原來的業務部門和IT部門演變出來數據管理部門,通過開展數據管理辦法、制定數據標準、保證數據質量、維護數據架構、提供平臺與工具等工作作為數字化轉型的基礎設施,數據治理已經成為數據團隊履行數據職責的重要手段。目前很多大數據公司都推出了很多數據治理相關產品,相信這些工具和平臺也會越來越成熟,數據治理相關工具本身不是數據治理最難的問題,針對企業目前在數據管理方面存在的問題主要還是業務規劃咨詢,針對企業數據架構進行規劃,如何構建企業數據管控體系,實現數據全生命周期的統一管理,建立數據標準與規范,提供全面、統一的數據服務,靈活支撐業務,為企業精細化管理提供保障,為企業發展創造價值,提升企業運營與管理能力,打造企業核心競爭力。針對企業數據架構進行規劃咨詢,整個過程基本上主要分為以下幾個階段來推進工作:


說完數據治理組織,然后說下數據資產盤點和制定數據標準,事實上,數據資產盤點和制定數據標準是相鋪相成的。
傳統意義上的資產盤點是指對資產進行定期清點,以確定各種財產在一定時間的實存數。數據資產盤點則是對企業擁有的數據進行清點,已確定企業當前擁有的數據。數據資產盤點將幫助企業弄清以下問題: 企業有多少數據? 企業有哪些數據? 企業的數據價值如何? 企業的這些數據分布在什么地方?最有價值的數據存儲在什么位置? 企業數據的歸屬和責任人是誰? 數據資產盤點的成果是數據資產清單或數據資產目錄,它能從全局層面直觀的展現企業擁有的數據資產情況,幫助企業進行更有效的數據利用和管理,明確企業的數據保護目標,協助企業完成數據安全保護體系的構建。企業的數據資產盤點,應該以數據價值為導向,以統一標準為核心。因此,在進行數據資產盤點前,我們需要明確以下幾點: 企業在日常經營活動中,積累了體量龐大的數據 只有可控的、能為企業帶來利益的數據才是數據資產 數據使用和保護的前提是知道有哪些數據、在哪里 統一的數據定義和價值標準,將有利于數據的使用和管理 明確數據的歸屬,將為跨業務的數據使用和數據安全保護落實提供便利下面介紹數據資產盤點的方法和步驟,主要歸納為6個階段:構建數據標準、數據發現、數據定義、分類分級、明確歸屬、數據資產目錄。

(1)構建數據標準
企業的數據往往來源于各個業務,而各業務的數據來源、數據定義和價值標準,可能存在極大的差別,這將不利于數據的整合、全局管理和使用。因此,企業在進行數據資產盤點前,首先要根據企業所在行業的相關標準,結合企業自身的業務情況構建數據標準,形成全局統一的數據定義和數據價值體系。數據資產盤點工作,將在此數據標準的指導下展開。
(2)數據發現
數據發現是解決數據在哪里、有多少的問題。隨著企業的業務不斷發展,數據量將呈指數級上升,這些數據可能散布在各個角落。數據發現就是從全局出發,系統性的掃描企業內的數據資產,確定數據存儲的位置和數據量,形成數據的存儲分布地圖。數據發現的核心在于全面、系統的掃描,以避免出現數據遺漏的情況。
(3)數據定義
數據定義是解決有哪些數據的問題。針對掃描的數據存儲位置,需要對數據進行識別和定義,標記數據內容,并基于數據內容和存儲方式,明確數據的組織結構,形成庫-表-字段的數據框架,即明確庫中有哪些表、表內有哪些數據,結合數據發現的成果,繪制數據資產地圖,將數據的存儲位置、存儲內容、存儲量清晰的進行呈現。
(4)分類分級分類分級是解決哪些數據有價值、數據價值高低的問題。數據的分類應該基于業務,數據的分級應該基于價值,數據的分類分級應該構建的數據標準指導下進行。通過數據的分類分級,對發現定義的數據進行數據價值和重要性層面的全面梳理和標記,為數據使用、價值挖掘、數據保護提供價值依據。
(5)明確歸屬通過調研、業務關聯、存儲對象關聯等方式,確定數據資產的業務歸屬和責任人,有助于掌握數據的來源和去向、明確相關責任歸屬,為跨業務的數據使用、數據關聯分析、數據分類保護等提供目標和責任指向。
(6)數據資產目錄數據資產目錄是數據資產盤點的最終成果,也是數據資產管理的第一步。它將企業內的所有數據進行匯總,構建出一張全局的數據地圖,清晰的展現出企業擁有的數據內容、數據量、數據價值、數據存儲位置以及數據歸屬和責任人,幫助企業掌握其擁有的所有數據及數據價值,為企業進行數據使用、數據價值挖掘以及數據保護提供指導依據,同時指導企業進行數據規劃和數據體系搭建。
詳見:企業數據資產目錄構建方法與步驟
有人會問,那到底如何開展上述工作呢?為了摸清企業有多少個業務系統、每個業務系統里面有多少張表、業務系統中的業務表哪些是空的、分別有哪些部門在使用和產生數據等問題,首先需要制定一個數據資產調研表,下圖為政務信息資源目錄調研表模版表,面向政府部門的:

(點擊查看高清原圖)
下圖為某高校的數據標準模版表,面向企業的可以參考:

(點擊查看高清原圖)
依據上述調研表的信息按業務主題域進行數據分類、識別相關實體、構建數據模型,規范主數據與編碼規則。如何針對業務主題域進行分類?首先要知道企業的業務經營范圍和相關職責是什么,就是搞清楚企業業務,比如政務資源里面把信息分成人口、法人、宏觀經濟、空間地理等分類;法院體系把人、案件、車輛、辦公進行業務主題分類。如何查找實體數據?實體數據在數據庫進行存儲的時候,主要有以下幾大特性: 數據更新頻率低 數據訪問頻率高 數據有唯一性 許多表引用該表信息 這些信息其實可以根據程序進行一次數據探查,可以大致判斷出實體數據是哪些表,得到一個需要人工進行調整的ER關系進行手動打標,如果是人工的話就應該是調查加操作sql語句來判斷相關情況。完成實體數據定義后,同步的行為表、數據字典表也可以進行整理出來,在整理過程中相關的數據模型也同步形成。至此,盤點數據資產階段結束,接下來要定義數據標準。數據標準一般分為基礎數據標準和指標數據標準,所謂基礎標準既是按照業務主題域劃分后形成每一個數據元、代碼集、編碼集都屬于數據基礎標準。指標數據標準,構建指標體系是一個完整的過程。
代碼集:一個代碼集代表一個數據元,怎么理解呢?例如:性別是一個數據元,那么他的值域范圍是一個數據字典里面的值,主要包括男、女、其他三種之一。代碼集和數據元之間最大的差異為:該數據元如果是代碼集,那么他的取值范圍是依據代碼集范圍而來的。
編碼集:編碼規則也是數據標準的定義范圍,只是使用范圍是不一樣的。編碼集既可用于數據元的編碼規范,也可以用戶目錄和分類的相關規范。
數據元:專業定義又稱數據類型,通過定義、標識、表示以及允許值等一系列屬性描述的數據單元,在特定的語義環境中被認為是不可再分的最小數據單元。數據元的屬性一般分為通用屬性和行業屬性,通用屬性目前國家針對數據元定義了22個核心屬性,針對每個行業的屬性,企業里面可以自行定義新的屬性,上文圖1和圖2里面就體現了不同行業針對數據元的屬性是有差異的。
一般來說,數據標準梳理一般是自上而下來做的,這種方式梳理出來可能很完整,但是落不了地。目前行業盛行的方式自下而上做的,通過數據治理平臺可以自動采集一些技術元數據,再通過這些數據的特征跟數據的數據元信息建立關聯關系。這個過程的技術相對復雜,需要結合技術平臺和人工確認兩個環節,需要通過業務屬性、技術屬性的特征建立相關數據標準。
詳見:數據治理連載漫畫:數據標準如何落地?
最后解答下在梳理數據標準中的常見的幾個問題:
1、定義數據標準的時候發現幾個系統都有同類數據時應該怎么辦?
在這里應該找到“權威元”。舉個列子,把衛計委的人口信息和公安的人口信息都獲取過來,發現都有人口信息,但是又有差異,那么應該如何做,這個時候,就需要知道,公安管人口的,一切人口基礎信息以公安為主,那么就會將公安作為權威元來進行比對數據間的問題,這樣也可能倒過來完善權威元的數據信息,企業內部業務部門數據職責和系統使用道理一樣。
2、梳理過程中的多個數據元如何形成一個數據集?
在前面講到,針對已有數據資產進行了獲取技術屬性,在底層存儲的時候,基本是在一個表中,首先可以針對一張表里面的數據元分成小類,在業務里面叫數據集,在A表中有一個身份證號碼,在B表中也有一個身份證號碼,那么在兩個數據集中也會存在,所有可以確定一個關系是一個數據元可以存在多個數據集中。
3、針對定義好的數據集如何區分大類或者叫資源主題域?
這個其實就是前面提到了主題如何分域的問題,首先標準肯定要去對應資源,資源需要確定在哪些部門里面,部門里面有哪些系統在管理這些資源,按照這個方式首先就梳理出來資源生成數據標準,有了數據標準后,需要結合實際業務場景生成數據服務,數據服務可以形成主題庫、主數據、指標庫等多種形態。
4、數據質量規則如何去梳理和生成?
在數據標準基礎之上定義質量體系,質量問題一般分為兩類:語法錯誤和語義錯誤。語法錯誤,可以依據現有的長度、類型、值域等內容進行基礎版規定;語義錯誤是需要結合業務場景來確定數據一致性、完整性等規則。這個梳理可以從數據庫層面去梳理,很多時候數據庫表中其實存在很多關系,往往以前在設計的時候沒有形成物理關系,可以通過觀察數據得知,肯定存在主外鍵關系,把業務質量規則就按照這個方式去配置,通過不斷完善業務邏輯和使用數據服務去優化數據質量定義。