- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2023-09-03來源:盛夏天瀏覽數:749次
在數據量不斷增長、數據生態系統復雜的時代,追蹤數據從源頭到目的地,及其經過的各種流程和系統的信息,對確保數據質量、合規性和決策來說至關重要。這些信息被稱為數據血緣。
數據血緣既能回答“這些數據從哪里來,到哪里去”這樣的哲學問題,也能回答“數據是如何進行加工轉換的”這樣的技術問題,幫助我們深入了解數據資產的可靠性、可信度。
數據血緣的重要性超出了傳統的數據治理和合規性。它在智能數據分析、數據集成、數據質量管理和數據驅動決策方面發揮著至關重要的作用。了解數據血緣,能夠使組織識別數據異常、解決問題、跟蹤數據轉換,并確保遵守?GDPR、CCPA 等法規。
數據血緣是企業最重要的數據資產之一,而且未來它將充當更加重要的角色。
一方面,完整的數據血緣信息可以有效跟蹤敏感數據的全鏈路生命周期,實現數據安全合規。
例如:源端系統中的PII(個人身份識別信息)在數倉、大數據平臺、數據湖中是否得到有效的脫敏?哪些數據服務可能泄露機密?哪些數據可能被消費者獲取?
另一方面,數據血緣可以進行變更影響分析,即分析數據的變更對相關業務的影響。例如:當源端業務系統的數據結構發生變化時,要及時分析其對后端數據應用的影響,以便在源業務系統升級前給出合適的應對措施,保障后端應用的連續性。這種影響就如同在制造業中,上游原材料的價格波動對下游產品成本的影響。
數據血緣是元數據管理的重要手段之一。
在建設數據倉庫、數據集市、商業智能及大數據系統的過程中,國內許多組織對配套元數據模塊進行了多年探索,研發了許多數據血緣處理技術,試圖構建一套準確、完整、實用的數據血緣圖,以滿足業務需要。讓用戶在“管理數據、使用數據”的工作中,能夠了解數據的來龍去脈,做到心中有“數”。然而在實踐過程中,即使經過長期的持續建設,配套元數據模塊的實際效果仍會大打折扣,不盡如人意。

第一篇 數據血緣的概念
統一數據血緣的定義、元模型及數據血緣類型。
劃重點:數據血緣的層級、數據血緣的多種類型及其相關性。
第二篇 如何實現數據血緣
關于實現數據血緣的可行性見解和建議。
劃重點:“構建數據血緣的九步方法論”、數據血緣項目的“企業”范圍、記錄數據血緣的多種解決方案。
第三篇 如何使用數據血緣
利用數據血緣結果實現不同的業務目的。
劃重點:使用數據血緣實現數據質量檢查和控制、實施影響分析和根因分析。
第四篇 構建數據血緣業務案例
將數據血緣落地到業務案例中。
劃重點:實現數據血緣的具體步驟,實際可用的方法論工作模板。
下圖是本書提到的數據血緣的元模型,可以看到數據血緣涉及業務、概念、邏輯、物理四層。

通常講的“技術層面的數據血緣”指“物理層的數據流血緣”,主要是數據在大數據平臺中的數據加工邏輯。事實上技術上的數據血緣一定要與業務上的數據血緣相結合。才能形成立體的數據血緣關系,可以從技術血緣追溯到業務對象、業務流程,也可以通過技術血緣洞察業務流程上的關系。

數據管理和業務專業人員,可以針對數據血緣及其應用領域拓寬思路。
與數據血緣概念有關的資源很少,主要是互聯網上的文章和數據血緣解決方案供應商網站。目前,數據血緣還缺乏統一的定義,這給初學者帶來了挑戰。本書深入分析了數據血緣,并提出了數據血緣元模型和相應的術語,有助于不同的利益相關者針對數據血緣進行交流。
具有技術背景的專業人員,可以更好地理解業務需要和數據血緣需求。
不同的利益相關者對數據血緣的理解、要求和需求明顯不同。技術專業人員主要關注實現物理層面上的元數據血緣,但術語對業務專業人員來說毫無意義。本書未涵蓋不同數據血緣解決方案的技術細節,而是幫助技術專業人員和業務人員在針對數據血緣的不同觀點之間搭建起一座橋梁。
項目管理專業人員,可以熟悉數據血緣實現的最佳實踐。
合適的實施范圍和適當的實施方法是項目成功的關鍵因素,許多因素都會影響項目范圍、方法和方案的選擇。項目管理專業人員可以從本書中獲得實用的建議,并熟悉開發數據血緣業務案例的技術,以及一些數據血緣解決方案。
