- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-04-23來源:捌月瀏覽數:1928次
數據血緣是在數據的加工、流轉過程產生的數據與數據之間的關系。隨著銀行數字化轉型的不斷深入,數據量的爆發式增長為數據治理工作帶來了巨大的挑戰,加強對數據血緣的管控變得愈發重要。數據血緣管控貫穿于數據的全生命周期中,確保血緣管控的完整性與及時性,有助于追蹤數據的上游來源和下游去向。同時,自動化工具提高了血緣管控的效率,在數據質量評估、個人信息追蹤、應用程序遷移等應用場景中發揮著重要的作用。
數據血緣的核心要素包括數據節點、流轉路徑、流轉規則等,可分為水平數據血緣和垂直數據血緣。
1.數據血緣要素
數據血緣關系一般由數據節點、數據流轉路徑、數據流轉規則構成,它們在血緣關系中以直接或間接可見的方式標志血緣信息。
1)數據節點
數據節點是有獨立數據功能業務的載體,體現了數據的業務屬性與存儲位置。從廣義上來說,數據庫、數據表、數據字段都是數據節點;在實際運用中,一般使用元數據信息作為區分數據節點的依據,每個數據節點都有唯一的身份標識。同時,每個節點在血緣圖中都占有一定的比重,比重越高的節點,對整個數據網絡的影響越大。數據節點分為以下三類:
數據流出節點:用于提供最基礎的數據,一般是底層源數據 中間節點:是數據血緣關系中類型最多的節點,既承接流入的數據,又向流入節點提供數據數據流入節點:是整個數據血緣的終端節點,承接中間節點流入的數據后,不再往下流轉。數據流入節點的數據一般即業務系統的輸出,用作可視化報表或者儀表板展示;在少數情況下,會對其他業務系統進行數據反哺
2)數據流轉路徑
數據流轉路徑通過表現數據流動方向、數據更新量級、數據更新頻率三個維度的信息,標明了數據的流入流出信息:
數據流動方向:通過箭頭的方式表明數據流動方向 數據更新量級:數據更新的量級越大,說明數據的重要性越高數據更新頻率:數據更新的頻率越高,說明數據的變化越頻繁,重要性越高
3)數據流轉規則
數據流轉規則體現了數據流轉在過程中發生的變化以及如何成為其他實體的構成部分,每一條數據流轉路徑都可以包含一個或者多個流轉規則,用戶通過查看流轉路徑,可查看該段流轉路徑的規則,規則可以是直接映射關系,也可以是復雜的規則,例如:
數據映射:不對數據做任何變動,直接抽取 數據清洗:由于各個節點對數據質量的要求不同,數據需要基于一定的數據標準流入實體,通過數據清洗的方式表現數據流轉過程中的篩選標準。例如要求數據不能為空值、符合特定格式等 數據轉換:數據流轉過程中,流出實體的數據需要進行特殊處理才能接入到數據需求方數據預警:針對數據檢測規則,一旦觸發預警閾值,就以特定方式進行報警,并對整條數據流轉路徑上的節點自動進行關聯檢測

數據血緣要素
2.水平數據血緣
數據血緣以手工記錄入檔的方式在系統之間流轉,從抽象的維度來理解,即為水平數據血緣。水平數據血緣通常是數據集(系統)粒度,適用人群主要為業務用戶與架構師。水平數據血緣通過提供大量圖文,來展示客戶數據在組織系統之間是如何流動,但無法實現從數據項切入并深入挖掘的需求。
3.垂直數據血緣
垂直數據血緣一般是由系統級、報表級、字段級三個不同層次組成的樹形結構,描繪了數據自下而上層層匯集的過程中各個實體之間的血緣關系,體現了逐層分析數據細節與逐列分析數據在遷移過程中的轉換處理邏輯,便于尋找報表中特定單元項數據值的來源,或者數據值在兩列數據之間流轉時的計算邏輯等問題。垂直數據血緣在出現數據報告指標異常、確認平臺遷移時數據影響范圍等場景應用較廣,適用于業務分析人員,能夠支持銀行業務系統的開發、測試與運維工作。
數據血緣管控的過程中,單純對存量血緣的管控是治標不治本的,管控的重點在于對增量血緣的管控。同時,血緣管控應確保血緣的完整性與及時性,保證血緣分析與數據的同步。
1.增量血緣管控思路
由于數據之間的復雜關系與流動性,數據的細微變動會引起系統級別數據的變化,因此,增量血緣管控的核心在于從源頭進行管控。數據血緣的分析通常按層級逐步推進,一般將分析層級分為系統級、表級與字段級,為了確保數據血緣的完整,需要將整個系統作為數據血緣的分析對象。通過增量數據血緣的源頭管控,實現數據來源的精準追溯與準確還原,進而在排查問題時實現精準定位。
2.存量血緣管控思路
存量數據血緣通常基于統一的溯源模板,通過報表口徑梳理的方式進行管控。以存量報表溯源模板為例,每一張目標表對應一個血緣文件。除目標表外,同文件的其他頁簽均為該文件的臨時表,通過查看相關代碼,尋找目標表的來源表,并完善加工邏輯與表之間的關聯信息。
報表溯源模板實例

03數據血緣管控方式
通過數據血緣分析,針對數據流轉過程中產生的各類信息進行采集、處理和分析,并對數據之間的血緣關系進行系統性梳理、關聯,將梳理完成的信息進行存儲。
1.增量血緣管控方式
血緣分析需要以實現業務需求為目標展開,針對增量數據血緣的管控,一般要求業務部門規范填寫報表需求模板,明確新增指標項或標準項的數據內容,而開發部門應通過數據一體化開發平臺的技術機制完善數據加工血緣,便于后續進行血緣管控與登記。業務部門新增報表主要包括以下內容:
報表屬性:包括功能碼、需求內容(新增整表/修改取數邏輯)、加工頻率(按月加工/按日加工)等 報表說明:包括業務說明、數據時間跨度、取數來源、邏輯簡述等 數據內容:包括字段名稱、指標類型、業務口徑等其他內容:時效性要求、驗證要求等
2.存量血緣管控方式
存量數據血緣的管控分為自動管控與人工管控,自動管控方式主要有自動解析、系統跟蹤與機器學習。數據血緣的自動管控通過大規模掃描IT環境,快速生成數據血緣圖譜,處理大量的數據列和ETL流程,進而節省追蹤數據血緣的工作的人力成本,在復雜場景下能夠實現記錄數據血緣口徑一致,但數據血緣自動化工具往往缺少業務場景需求,開發人員缺乏對數據血緣使用場景的理解與自動化工具落地的思維。
1)自動解析
自動解析通過對SQL語句、存儲過程、ETL過程等文件進行分析,從而收集數據血緣,是當前應用最普遍的血緣收集方法。自動解析血緣具有自動化、及時性、程度高的優點,但根據國際廠商的經驗,當代碼復雜或應用環境不適配時,自動解析可以覆蓋到企業數據的70-95%,目前無法做到100%全面覆蓋。
2)系統跟蹤
系統跟蹤是在數據加工流動過程中,加工主體工具發送數據映射的過程,一般適用于統一的、能夠管理自身全數據血緣周期的平臺。系統跟蹤具備更高的準確性與及時性、更細的顆粒度,但系統跟蹤一般適用于統一的加工平臺,并不能集成所有工具。
3)機器學習
機器學習的方法能夠基于數據集之間的依賴關系,計算數據的相似度,對工具和業務的依賴性較低,但需要人工確認準確率。
4)人工管控
通過人工的方式對數據血緣進行梳理適用于特定業務需求的場景,相比自動化的梳理方式,具備更高的準確性,但及時性不足,處理速度較慢。
人工、自動血緣管控方式優缺點對比

數據血緣能夠解讀并體現一個組織中的大多數業務流程,通過數據血緣挖掘業務價值鏈,是完善業務流程最有效或最高效的處理方式,以下為數據血緣的幾種應用場景:
1.保證報告數據的完整性
開發人員可以通過檢查數據血緣鏈中的每個節點,追溯異常數據元素的血緣,以確認數據的計算處理方式,并分析與該異常數據有交互的業務用戶行為,實現異常數據元素的排查,確認數據變更影響的下游數據對象,保證數據的完整性。
2.追蹤個人信息,控制傳播范圍
數據血緣可以將追蹤個人信息擴展到數據報告層和數據庫層,如果將報表中的特定數據元素進行標識,則能夠在涉及該數據元素的所有血緣路徑中找到標識元素所在列,并使用數據血緣工具控制數據傳播范圍。
3.遷移應用程序和報告
數據血緣不僅僅是數據流的簡單映射,更體現了對如何實現業務流程的理解。在遷移應用程序和報告時,能持續監控未使用到的數據表和ETL流程,發現并糾正在數據遷移過程中的不兼容性問題,實現可疑數據的提取,協助企業梳理并合理重構業務流程。
上一篇:數據管理的未來在哪?...
下一篇:大型央企數字化轉型實踐...