過去幾年里,
數據治理作為數據的核心管理手段,得到了政府、企業、個人的高度關注, 伴隨著理論、法律、政策、產業的一系列實質性變化 ,各方正在將數據治理納入到政務活動、企業治理、經營管理等領域, 數據治理的理念、法規、方法、工具也得到了蓬勃發展。
簡單來說,數據治理就是實現
數據價值的過程。通俗的理解就是讓企業的數據從不可控、不可用、不好用到可控、方便易用且對業務有極大幫助的過程。
這個過程怎么實現?通過采集、傳輸、儲存等一系列標準化流程將原本零散的數據變成格式規范、結構統一的數據,同時對其進行嚴格規范的綜合數據監控,保證
數據質量;然后對這些標準化的數據進行進一步的加工分析,形成具有指導意義的業務監控報表、業務監控模型等,來幫助企業進行輔助決策。
今天小億就來為大家普及一些與數據治理有關的基本概念。
01、元數據
元數據是關于數據的數據,是為了描述數據的相關信息而存在的數據。元數據按照其描述對象的不同可以分為三大類,分別是“技術元數據”、“業務元數據”、“管理元數據”。
1.技術元數據
技術元數據主要是描述系統中技術領域的相關概念信息,包括數據結構、數據處理方面的特征描述,以及數據源接口、
數據倉庫、
數據集市、存儲等全面數據處理環節的信息。這類元數據主要被系統建設的技術人員使用。主要有以下幾類類型,如圖所示:
2.業務元數據
業務元數據主要用來描述記錄在系統中業務的相關概念等信息,包括業務術語、信息分類、指標定義、業務規則等內容。它提供了介于使用者和實際系統之間的語義層,使得不懂計算機技術的業務人員也能夠“讀懂”數據倉庫中的數據。這類元數據主要的使用者是業務人員和公司決策人員,主要有以下幾種類型,如圖所示:
3.管理元數據
管理元數據用來定義系統中涉及管理領域的相關概念等信息,包括人員角色、崗位職責等內容,例如對項目管理、IT運維、IT資源設備等相關信息的描述,這里元數據主要被企業IT部門的管理人員使用。利用此類元數據可以進行工作分配、網絡資源等方面的管理。
管理元數據進一步細分又可以劃分出認責元數據、稽核元數據、安全元數據、操作元數據、存儲元數據等分類。例如操作元數據有系統執行日志;訪問模式、訪問頻率和執行時間;程序名稱和描述;版本維護等;備份、歸檔時間、歸檔存儲信息等。
不管分類如何變化,實質性內容都是圍繞數據的統一定義、數據的標準規范、數據的處理過程、
數據存儲要求、數據的安全管理要求等等內容進行規范管理。
02、主數據
主數據是指滿足跨部門業務協同需要的,反映核心業務實體狀態屬性的基礎信息。舉個例子,公司的員工信息,存在于很多業務系統里,比如人力系統、財務系統、OA系統,以及考勤系統等,但每個系統所需要的信息可能不一樣,財務系統需要員工開放信息,比如從哪個銀行開戶,賬號是什么,這樣方便打款;人力系統可能只是需要員工的一些入職信息。

這樣的員工信息就屬于主數據,它在很多企業業務系統被使用,同時還能反映這個員工本身的一些屬性。類比下,還有產品、物料、客商、客戶、供應商等主數據。
1.客商主數據
客商是指與企業有外部交易往來的實體組織,包括客戶和供應商。企業規模較大時,客戶與供應商就具有了較高的重合度,企業就會將這些外部交易對象作為“客商”來統一管理。
客商主數據則是指能滿足跨部門業務協同需要的,反映客商實體狀態屬性的基礎信息。

我們可以把客商主數據看作是“神經中樞”,鏈接著企業的原材料采購、加工、產品包裝、質檢、銷售、倉庫物流、客戶滿意度評價等多個環節,它的及時性和有效性,影響著每個環節信息的精準分析和決策,從而影響企業在市場競爭中的地位。
2.物料主數據
物料是我國生產領域中的一個專業術語,在生產領域流轉的一切材料包括:原材料、零部件、半成品、外協件、產成品以及生產過程中必然產生的邊角余料、廢料以及各種其他廢物料。在財務核算上屬于資產類存貨科目的物品。

物料主數據包含了對所有企業所采購、生產和存儲在庫存中物料的描述,主要記錄某種物料的各種參數、屬性及其相關信息,比如物料編碼、物料描述、物料類型和財務成本信息等。它是企業中有關物料信息的物料數據代碼庫,將所有的物料
數據集成在單一的物料數據庫中,消除了數據冗余的問題,而且不僅允許采購部門使用這些數據,而且其它應用部門 (例如庫存管理、物料計劃及控制、發票校驗等)也可以使用這些數據。
03、數據標準
數據標準是指企業為保障數據的內外部使用和交換的一致性和準確性而制定的規范性約束。而數據標準管理則是一套由管理制度、管控流程、技術工具共同組成的體系,是通過這套體系的推廣,應用統一的數據定義、數據分類、記錄格式和轉換、編碼等實現數據的標準化。

數據標準由業務標準、技術標準和管理標準組成。例如:數據項的業務定義、業務規則、質量規則為該數據的業務標準;數據項的名稱、編碼、類型、長度等為該數據的技術標準;數據的管理流程、管理部門、管理人員為該數據的管理標準。
1.業務標準規范
通過對實體數據的標準化定義,解決了數據不一致、不完整、不準確等問題,通知數據的內容范圍需要核定,主要和業務強關聯,由基礎指標和計算指標標準組成,具有特定的業務含義。
2.技術標準規范
數據范圍規范工作完成之后,需要對數據的編碼規則、命名規則進行規范,主要包括數據源、數據項、邏輯模型標準、物理模型標準、元數據、公共碼值標準等;
3.管理標準規范
數據標準管理是一個涉及范圍廣、業務復雜、數據繁雜的工程。數據標準管理絕非是一個部門的事情,不能在企業的單一部門得到解決。數據管理制度章程是確保對標準數據管理進行有效實施的認責制度。建立標準數據管理制度和流程體系是需要明確標準數據的歸口部門和崗位,明確各崗位職責,明確每個標準數據的申請、審批、變更、共享的流程。需要從整個組織考慮,建立專業的數據管理組織體系,明確數據標準工作的目標和內容,并監督及考核數據標準的貫徹與執行。
04、數據質量
數據質量是指在業務環境下,數據符合數據消費者的使用目的,數據質量需要滿足業務場景具體的需求。數據質量包含兩個方面:數據自身的質量和數據的過程質量。
數據自身的質量很好理解,比如數據必須真實準確地反映實際發生的業務,任何業務操作的數據都沒有被遺漏,數據存在各種約束條件,這種約束條件不能自相矛盾等等。
數據的過程質量就是數據的使用過程符合標準規范,比如數據存儲:數據是否被安全地存儲到了合適的介質上,能夠保證數據不受外來因素的破壞。當然數據存儲只是數據使用過程的一個環節,除此之外還包括獲取、傳輸、應用和刪除等一系列的使用過程,這其實也是數據生命周期的各個階段。
1.數據質量管理
數據質量管理指對數據在每個階段里可能引發的各類數據質量問題進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平確保數據質量的提升。
換句話說,數據質量管理是一個集方法論、管理、技術和業務為一體的解決方案,不是一時的數據治理方法,是一個不斷循環的管理過程。一方面反映出企業數據很難一次性就達到使用的標準規范,畢竟數據治理是一個相對漫長的過程;另一方面也反映出數據質量的重要性以及數據質量工作的零散性和瑣碎性。
2.數據質量評估
至于如何去評估數據質量管理的過程的好壞,我們可以從以下五個維度來進行數據質量評估:

(1)完整性:描述信息的完整程度,如電話號碼是否有空值;
(2)準確性:描述數據和客觀實體的特征是否相一致,如數據庫中記錄的電話和實際電話不一致;
(3)有效性:數據是否滿足用戶定義條件、內容規范約束等,如年齡為-32歲,違反常理;
(4)一致性:描述同一個信息主體在不同數據集中的屬性是否相同,如崗位名稱在CRM系統中和人力系統中不一致;
(5)及時性:描述從業務發生到相關數據能夠被使用的及時程度,如實時查看用戶行為相關數據。
五個維度共同構成了數據質量評估的基本框架,每個維度都可以通過設置評估問卷隨機抽取一些問題然后收集相應的數據;注意收集數據的時候可以采用不同的方式,訪談、發放鏈接、隨機抽檢等等。
05、數據指標
根據百度百科的定義,預期中打算達到的指數、規格、標準,一般用數據表示就是指標。
而數據指標有別于傳統意義上的統計指標,它是通過對數據進行分析得到的一個匯總結果,是將業務單元精分和量化后的度量值,使得業務目標可描述、可度量、可拆解。但只有對業務有參考價值的可統計的數據才能叫做指標,因為它反映了用戶做了哪些行為,給業務帶來了怎樣的結果指標。
1.數據指標的分類
(1)結果型指標
用于衡量用戶發生某個動作后所產生的結果,通常是延后知道的,很難進行干預。結果型指標更多的是監控數據異常,或者是監控某個場景下用戶需求是否被滿足。
(2)過程型指標
用戶在做某個動作時候所產生的指標,可以通過某些運營策略來影響這個過程指標,從而影響最終的結果,過程型指標更加關注用戶的需求為什么被滿足或沒被滿足。
2.數據指標體系
數據指標體系是通過技術手段,從不同的“維度”梳理業務過程,將零散的、有關聯性的指標,系統化的組織起來,通過數據看板或接口形式,提供給運營、算法等不同的業務方使用。
一個好的數據指標體系能幫助使用者準確快速地下結論,比如定義業務運作的好壞、能滿足多場景的歸因,即使出現異動,也能快速定位原因,最終提高發現問題、分析問題、解決問題的效率。
06、數據資產
數據資產是指由企業擁有或者控制的,能夠為企業帶來未來經濟利益的,以物理或電子的方式記錄的數據資源,如文件資料、電子數據等。但在企業中,并非所有的數據都構成數據資產,數據資產是能夠為企業產生價值的數據資源。
數據資產管理是對存量數據進行系統化梳理,與數據標準匹配,推動數據資源轉化為數據資產的過程,即指規劃、控制和提供數據及信息的一組業務職能,包括開發、執行和監督有關數據的計劃、政策、方案、項目、流程、方法和程序,從而控制、保護、交互和提高數據資產的價值。數據資產管理需要充分融合業務、技術和管理,以確保數據資產保值增值。

▲數據治理實施步驟
在數據治理架構中,數據資產管理位于底層數據和數據管理與應用之間,處于承上啟下的重要地位。對上支撐數據安全管理等職能建設以價值發掘為導向的
數據應用,對下實現底層數據的梳理、對接數據標準,達成企業內部“統一數據標準”的目標。
07、數據交換與共享
出于各種原因,組織會選擇數據交換與共享。例如,內部與內部的數據交換共享,企業與企業之間的數據交換共享,以及政府或企業對個人或服務提供商的數據交換與共享。數據交換共享就是讓不同地方使用不同計算機、不同軟件的用戶能夠讀取他人數據并進行各種操作運算和分析。
也就是當數據從一個系統跨授權邊界訪問或傳遞到另一個系統時,就需要使用一個或多個協議來指定每個組織的責任、要訪問或交換的數據類型和影響界別、如何使用交換數據,以及在交換系統的兩端處理、存儲或傳輸數據時如何保證數據安全。
常見的數據交換/共享場景包括但不限于:在授權用戶之間共享數據和信息;提供對數據的自定義訪問;合作進行聯合項目;提供完整的、短暫的、間歇性的、永久的或臨時的數據交換共享活動;通過交換共享減少數據收集工作量和成本;提供在線培訓;為關鍵數據和備份文件提供安全存儲。
例如,某農發行數據交換平臺針對綜合業務系統、信貸、國際結算等源業務系統的數據通過億信數據交換平臺進行統一抽取,通過數據轉義、碼值轉換等實現數據標準化,并將處理后的數據以文件或庫表等形式下發給消費系統。

(圖:農發行數據交換平臺架構圖)
08、數據安全
根據《數據安全法》第三條,“數據安全是指通過采取必要措施,確保數據處于有效保護和合法利用的狀態,以及具備保障持續安全狀態的能力。”
數據安全并不僅僅局限于數據本身的安全,而是一個綜合概念。在數據從客戶端到服務端傳輸過程中,涉及很多風險因素,比如客戶端訪問主體的身份是否真實可靠,數據在傳輸過程中是否完整、防篡改,到達服務端后以明文件存儲還是加密存儲,以及哪些用戶使用等等。

從整體來看,在數據生命周期的每個環節,包括數據收集、存儲、使用、加工、傳輸、提供、公開等,都存在三個重要概念:數據處理主題、數據本身、數據處理行為。
從數據源頭上,要確保
數據采集主題身份真實、可信;對于數據本身,在傳輸中要確保其真實性(數據來源真實可信)、完整性(數據未被非授權篡改)、機密性(數據未被非授權者獲得)、可用性(數據可被授權者正常使用)等;對于數據處理行為,要確保其發送或接收行為、時間點的不可否認性。
09、數據生命周期
數據的生命周期是指某個集合的數據從產生或獲取到銷毀的過程。數據生命周期分為:采集、存儲、整合、呈現與使用、分析與應用、歸檔和銷毀幾個階段。在數據的生命周期中,數據價值決定著數據生命周期的長度,并且數據價值會隨著時間的變化而遞減。
數據生命周期管理是一種基于策略的方法,用于管理信息系統的數據在整個生命周期內的流動:從數據創建和初始的存儲,直到它過時被刪除或銷毀。

數據生命周期管理的目標主要有4點:
①通過規范數據的生命周期管理,提高數據的整體管理水平,滿足監管要求;
②優化存儲結構,有效控制在在線數據規模,提高生產數據訪問效率;
③提高系統資源使用效率,確保系統安全、穩定、高效運行;
④做好歷史數據管理,為用戶的客戶服務和經營分析提供數據支撐。
這里需要注意的是,數據的采集粒度與時效性、存儲方式、整合狀況、可視化程序、分析的深度和應用銜接的程序,都會對數據價值的體現產生影響。所以需針對數據生命周期各個階段的特點采取不同的管理方式和控制手段。總之,在成本可控、可量化、可管理的前提下,從數據中挖掘出更多有效的數據價值。
與此同時,數據全生命周期管理與企業數據戰略也是密不可分的。數據戰略決定了數據采集策略和范圍、存儲和計算資源投入、數據整合能力、可視化的程序和分析的廣度與深度等資源投入。
10、小結
通過前文基本概念的介紹,想必大家已經對數據治理有一個整體清晰的認識。狹義上講,數據治理專注在數據本身。數據治理的目標,是對數據質量進行提高,同時確保數據的安全性,推進數據資源的整合、共享進程。
廣義上講,數據治理是對數據實現全生命周期管理。只要是為整個數據生命期而展開的業務、技術、管理活動,都屬于數據治理的范疇,包括但不限于傳統數據集成和存儲環節的工作(如數據采集、清洗、轉換等)、數據資產目錄、數據標準、質量、安全、數據開發、數據價值、數據服務與應用等。
業界很多廠商都開發了相關軟件工具,但多是單獨功能呈現的軟件,而睿治
數據治理平臺是由億信華辰完全自主研發的、開創性的、一站式綜合數據治理整體解決方案。睿治數據治理平臺融合數據集成、數據交換、實時計算存儲、
元數據管理、數據標準管理、數據質量管理、
主數據管理、數據資產管理、數據安全管理、數據生命周期管理十大產品模塊,打通數據治理各個環節,十大產品模塊可獨立或任意組合使用,快速滿足政府、企業各類不同的數據治理場景。

睿治數據治理平臺架構圖
(部分內容來源網絡,如有侵權請聯系刪除)