一、數據血緣關系的概念
數據血緣關系是指數據在產生、處理、流轉到消亡過程中,數據之間形成的一種類似于人類社會血緣關系的關系。
數據血緣屬于
數據治理中的一個概念,是在數據溯源的過程中找到相關數據之間的聯系,它是一個邏輯概念。
數據治理里經常提到的一個詞就是血緣分析,血緣分析是保證數據融合的一個手段,通過血緣分析實現數據融合處理的可追溯。大數據數據血緣是指數據產生的鏈路,直白點說,就是我們這個數據是怎么來的,經過了哪些過程和階段。
二、數據血緣的特征
與人類社會的血緣關系不同,數據間的血緣關系包含了一些獨有的特征:
多源性:同一個數據可以有多個來源,即一個數據可以是經由多個數據加工而生成的,而且這種加工過程可以是多個;
歸屬性:一般來說,特定的數據會歸屬特定的組織或個人;
層次性:對數據的分類、歸納、總結等不同程度的描述信息形成了數據的層次。例如在數據庫中的結構化數據血緣關系的層次結構,是最經典的一種血緣關系層次結構。不同類型的數據,其血緣關系的層次結構之間會有細微的差別。
可追溯性:數據的血緣關系,體現了數據的生命周期,體現了數據從產生到消亡的整個過程,具備可追溯性。
三、數據血緣關系的作用
1、評估數據價值
數據的價值在數據交易領域非常重要,數據血緣關系,可以從數據受眾、數據更新量級、數據更新頻次幾方面來給數據價值的評估提供依據。
2、數據溯源
數據的血緣關系,體現了數據的來龍去脈,能幫助我們追蹤數據的來源,追蹤數據處理過程。
3、數據歸檔、銷毀的參考
從數據生命周期管理角度來看,數據的血緣關系有助于我們判斷數據的生命周期,是數據的歸檔和銷毀操作的參考。
4、數據質量評估
從數據質量評估角度來看,清晰的數據源和加工處理方法,可以明確每個節點數據質量的好壞。從數據的血緣關系圖上,可以方便地看到數據清洗的標準清單。
四、數據血緣關系的可視化
對于數據之間的血緣關系,可以利用計算機圖形學和圖像處理技術,通過可視化來清晰地展現在用戶面前,方便后續探討信息間的關聯關系、本質探索。
根據血緣關系的特點及所需要展現的表現含義,數據血緣關系的可視化元素可以包括數據流轉線路、信息節點、轉換規則節點、數據歸檔銷毀規則節點、清洗規則節點。
1)數據流轉線路:數據流轉線路從數據流入節點出來往主節點匯聚,又從主節點流出往數據流出節點擴散。數據流轉線路表現了三個維度的信息,分別是方向、數據更新量級、數據更新頻次;
2)信息節點:用來表現信息的所有者、層次信息及終端信息。信息節點有三種類型:主節點,數據流出節點,數據流入節點;
3)轉換規則節點:位于數據流轉線路上,用來表現數據流轉過程中發生的變化、變換;
4)數據歸檔銷毀規則節點:當數據不再具備使用價值,就可以考慮對其進行歸檔或者直接銷毀;
5)清洗規則節點:用來表現數據流轉過程中的篩選標準。其簡略圖形一般會位于數據流轉線路上,表示該線路上流轉的數據符合這些標準才能繼續流轉下去。