大數據時代,數據的來源極其廣泛,各種類型的數據在快速產生,也在爆發性增長,這導致了數據之間的關系也變得越發復雜。

因此對數據工程師來說,如何管理表之間、代碼之間的復雜關系,從而更好地認識和理解業務系統與底層表的關系、底層表的表間關系,理清當前數據(字段、關鍵指標或者數據標簽)從哪里來?到哪里去?搞清楚哪些下游系統在使用這些數據等成為一件很重要的事。
而要解決這個事,我們就不得不提到
元數據管理中的數據血緣。數據血緣描述了數據的來源和去向,以及數據在多個ETL處理過程中的轉換,因此,數據血緣是組織內使數據發揮價值的重要基礎能力。今天小億就來為大家分享下什么是數據血緣,以及如何做好血緣分析?
01、什么是數據血緣?
數據血緣,又稱數據血統、數據起源、數據譜系,是指數據的全生命周期中,數據從產生、處理、加工、融合、流轉到最終消亡,數據之間自然形成一種關系。其記錄了數據產生的鏈路關系,這些關系與人類的血緣關系比較相似,所以被成為數據血緣關系。
圖片2
比如,數據A經過ETL處理生成了數據B,那么我們就說數據A與B有著血緣關系,且數據A是數據B的上游數據,同時數據B是數據A的下游數據。按血緣對象來分,可分為系統級血緣、表級血緣、字段(列)級血緣。不管是結構化數據還是非結構化數據,都必定存在數據血緣關系。
而數據血緣分析是元數據管理的重要應用之一,其梳理系統、表、視圖、存儲過程、ETL、程序代碼、字段等之間的關系,并采用圖數據庫進行可視化展示。簡單地說就是通過可視化展示數據是怎么來的,經過了哪些過程、階段及計算邏輯。
02、數據血緣關系的4個特征
與人類社會中的血緣關系不同,數據的血緣關系包含4個特有的特征:
(1)歸屬性:數據是被特定組織或個人擁有所有權的,擁有數據的組織或個人具備數據的使用權,實現營銷、風險控制等目的。
(2)多源性:這個特性與人類的血緣關系有本質的差異,同一個數據可以有多個來源。來源包括,數據是由多個數據加工生成的,或者由多種加工方式或加工步驟生成的。
(3)可追溯:數據的血緣關系體現了數據的全生命周期,從數據生成到廢棄的整個過程,均可追溯。
(4)層次性:數據的血緣關系是具備層級關系的,就如同傳統關系型數據庫中,用戶是級別最高的,之后依次是數據庫、表、字段,他們自上而下,一個用戶擁有多個數據庫,一個數據庫中存儲著多張表,而一張表中有多個字段。他們有機結合在一起,形成完整的數據血緣關系。
圖片3
03、數據血緣分析主要應用在哪方面?1.數據溯源
溯源,指的是探尋事物的根本、源頭。我們分析處理的數據,可能來源很廣泛,不同來源的數據,其
數據質量參差不齊,對分析處理的結果影響也不盡相同。當數據發生異常,我們需要能追蹤到異常發生的原因,把風險控制在適當的水平。
換句話說,依托于數據血緣的可塑性特點,根據血緣中的數據鏈路關系,可實現指定數據的來源、去向的追溯,可幫助用戶理解數據含義、在全流程上定位數據問題、進行數據關聯影響分析等,解決多層復雜邏輯處理后的數據難以理解、難以應用、出現問題難以定位的問題。
2.數據價值評估
數據價值是數據管理的核心標準,不管是數據交易中的數據定價還是數據安全的保護等級,數據價值都是一個重要的參考因素。因此,如何準確地評估數據價值成為了企業面臨的一大難題。
傳統的數據價值評估,往往完全依靠相關法規要求和業務經驗,缺少在具體應用場景中的評估依據,數據價值評估脫離了數據的應用場景和真實的業務價值。而數據血緣則提供了一種基于數據實際應用的價值評估方法:使用者越多(需求方)、使用量級越大、更新越頻繁的數據往往更有價值。
(1)數據受眾:在血緣關系圖上,右邊的數據流出節點表示受眾,亦即數據需求方,數據需求方越多表示數據價值越大;
(2)數據更新量級:數據血緣關系圖中,數據流轉線路的線條越粗,表示數據更新的量級越大,從一定程度上反映了數據價值的大小;
(3)數據更新頻次:數據更新越頻繁,表示數據越鮮活,價值越高。在血緣關系圖上,數據流轉線路的線段越短,更新越頻繁。
圖片4
3.數據質量評估
數據血緣清晰的記錄了數據來源以及數據流轉過程中的處理方式和處理規則,能實現對各個數據節點的分析和數據質量評估。
4.數據歸檔參考
數據血緣中記錄了數據的去向,可清晰的掌握數據被消費的情況,一旦數據沒有消費者,那也就意味著數據已經失去價值。此時,可以對數據進行進一步評估,考慮進行歸檔或銷毀處理。
04、如何做好數據血緣關系分析?
數據血緣分析作為數據血緣的應用方式,不是單純的一種技術手段或一個工具,而是一個貫穿數據生命周期的過程,涉及流程、技術、產品等多維度的內容。在此,我們將數據血緣分析分為三大模塊:數據血緣建設,數據血緣分析,數據血緣可視化。
1.數據血緣建設
數據血緣建設并不是去建設數據血緣關系,因為數據血緣關系是數據流轉過程中自動產生的是生而有之的。數據血緣建設的目標是當這些生而有之的數據血緣關系產生時,能被及時、準確的記錄和存儲下來。因此,數據血緣建設并不是一個指定的動作,而是一種管理流程和數據意識,需要延伸到數據產生之前,從
數據存儲的設計開始。
數據血緣建設是數據血緣分析的前提條件,準確、完整、及時記錄信息才能帶來有效的血緣分析效果,考慮到部分數據源本身的數據血緣建設準備較差,在某些業務場景中需要人工介入進行梳理。
2.數據血緣分析
數據血緣分析針對數據流轉過程中產生并記錄的各種信息進行采集、處理和分析,對數據之間的血緣關系進行系統性梳理、關聯、并將梳理完成信息進行存儲。考慮到企業的數據龐雜問題,數據血緣分析往往需要借助工具或系統展開,實現血緣信息數據的自動采集、自動分析。
數據血緣分析通常會按數據血緣的層級進行,層級基于業務需求和某些數據特性可能有差別,常見的分析層級為應用(業務系統)級、數據(表/文件)級和字段級。數據血緣分析的目標是實現數據來源的精確追蹤、流轉過程的準確還原、數據去向的精準定位。
圖片5
3.數據血緣可視化
血緣分析完成后,需要依靠可視化技術將分析結果清晰、直觀地傳遞給用戶,幫助客戶進行二次分析和具體應用。數據血緣圖譜是血緣分析中最常用可視化方案。
業務需求的差異將決定血緣分析層次和血緣層級的差異,進而體現在數據血緣圖譜上,因此數據血緣圖譜也許要基于數據血緣層級進行分層展現,直觀的從應用層級、數據層級、字段層級呈現數據的血緣關系。
在具體的應用中,首先業務需求差異和可采集分析的血緣信息的影響,數據血緣圖譜的呈現方式可能存在差異,但其整體形態基本一致:以某個數據為核心節點,體現該節點的數據來源、數據去向、流轉路徑以及路徑中的處理方式和處理。因此,數據血緣可視化視圖中應該當至少包含以下元素:
(1)數據節點
標記數據的具體信息,如所有者、層次信息、終端信息等,根據不同的血緣層次和業務需求,數據節點的信息有所有差異。根據數據類型的不同,數據節點有可以分為:主節點,數據流入節點、數據流出節點。
①主節點:主節點是數據血緣圖譜的核心,是我們當前需要觀察的數據,它只有一個,整個圖譜呈現的就是它的血緣關系;主節點應該是可以且方便切換的。
②數據流入節點:數據流入節點標記主節點的數據來源,是主節點的父節點,它可能有多個甚至多層。
③數據流出節點:數據流出節點標記主節點的數據去向,是主節點的子節點,同樣可能有多個或多層;在數據流出節點中有一種特殊的終端節點,數據到達終端節點后,將不再向別處流轉。
(2)流轉線路
標記數據的流轉路徑,通常從流入節點匯聚到主節點,再主節點擴散到流出節點。在流轉線路中,不僅可標記出數據的流向和流轉關系,還可以通過線路的粗細、長短等標記數據量級和更新頻次。
(3)處理節點
標記數據流轉過程中的處理方式和處理規則,通常用于數據節點之間的流轉線路中。通過處理節點,可以直觀地了解到數據在兩個節點之間流轉時,通過什么樣的規則進行了怎樣的處理。
05、數據血緣分析時的注意事項
數據血緣分析時,需要考慮以下幾個方面:
1.全面性
數據處理過程實際上是程序對數據進行傳遞、運算演繹和歸檔的過程,數據的流動性和數據間的復雜關系,將導致某一數據的細微變動引起多個系統的數據發生變化。為了確保數據血緣的完整性,必須將整個系統能夠作為數據血緣的分析對象,真正做到追源頭溯尾。
2.及時性
據和數據之間的關系可能是隨時變動的 ,為了保證數據血緣的準確性和可用性,血緣分析必須與數據保持同步更新,確保數據血緣的分析結果面向最新的數據和數據關系。
3.適用性
血緣分析技術和實現有多種,分析的廣度、深度、維度也有不同,但所有的技術都是為需求服務的,血緣分析需要在實現需求目標的前提下展開。
06、小結
隨著數據的爆發式增長,數據之間的關系也變得越發復雜。在這樣的背景下,具備可塑性、歸屬性等特征的數據血緣將
數據治理過程中發揮越來越大的作用。數據的血緣對于分析數據、跟蹤數據的動態演化、衡量數據的可信度、保證數據的質量具有重要的意義。
但數據血緣應用需要依賴豐富的可分析數據、強大的
數據采集和血緣分析能力、清晰直觀的血緣圖譜,是一個貫穿數據生命周期的持續性工程。這里億信華辰
元數據管理平臺EsPowerMeta就可以幫助你。
圖片6
△億信華辰元數據管理平臺架構圖
億信華辰元數據管理平臺EsPowerMeta是基于B/S架構的軟件平臺,架構分為5層,數據源層、采集層、數據層、功能層和訪問層,其不僅適配各種數據庫、各類ETL、各類
數據倉庫和報表產品,還適配各類結構化或半結構化數據源。
圖片7
另外,元數據管理模塊還提供了豐富的元
數據分析功能,包括血緣分析、影響分析、全鏈分析、關聯度分析、屬性值差異分析等,分析出元數據的來龍去脈,快速識別元數據的價值,掌握元數據變更可能造成的影響,以便更有效的評估變化帶來的風險,從而幫助用戶高效準確的對數據資產進行清理、維護與使用!
圖片8
△全鏈分析
血緣分析可以滿足許多行業(包括醫療、金融、銀行和制造業等)對所呈現數據的特殊監管及合規性要求。
圖片9
△血緣分析
最后,影響度分析,也是較為血緣關系應用的一部分,其用來分析數據的下游流向。當系統進行升級改造時,能動態數據結構變更、刪除及時告知下游系統。通過依賴數據的影響性分析,可以快速定位出元數據修改會影響到哪些下游系統,哪些表和哪些字段。從而減少系統升級改造帶來的風險。
(部分內容來源網絡,如有侵權請聯系刪除)