數據治理使組織能夠處理其擁有的數據,從該數據中獲取更多價值,并使用戶可以看到該數據的重要方面。它還提供管理這些方面的功能。這不僅是因為現有數據的錯誤和遺漏,而且因為數據的新用途通常需要新的屬性,因此需要新的元數據來支持它們。那么,數據治理需要什么技術。
一、傳統數據治理痛點
1)業務難結合:業務元數據的廣泛缺失,導致業務人員無法使用技術性的元數據系統,元數據缺乏業務用戶,使用者少;
2)應用場景缺:元數據被當成單獨的系統,而不是廣泛的技術基礎,導致只關心元數據本身的應用場景;
3)管理范圍窄:要做數據治理首先要知道有哪些數據,傳統的
數據治理往往只管理了數據領域,很少關注業務、管理和開發相關的數據資產,數據管理范圍比較窄,而且,受限于技術實現,即使在數據領域的數據資產也很難做到精確管理;
4)技術不完善:在技術層面存儲缺乏擴展性,采集自動程度不高,管理實時性不高。
二、數據治理的核心技術
1、數據規范化
數據規范化有簡單的底層數據層面的,如數據類型轉換、單位變換、格式表換等,也有較為復雜的數據項規范化處理,如電話號碼、郵編、地址等。這類問題的主要成因是自然語言表達上的差異性會造成同一實體存在多種表達形式。數據的規范化處理需要根據應用的需求特點,確定數據粒度和表達方式。地址規范化處理背后的問題是實體鏈指問題,即把同一實體的不同表達形式(不同名字)映射到同一個實體名字上,消除實體表達的語義鴻溝,進而通過關聯在數據集中不同地方出現的相同語義的實體,達到數據融合的目的。
2、數據的結構化處理
數據結構化處理首先要對原始數據進行解析,提取出需要的信息,再進一步將其轉換成結構化數據。結構化處理的主要輸出形式是二維表或者圖數據,它需要用戶確定數據在轉換過程中采用的規則。很多數據采用的是結構化強一些的數據模型,如JSO格式,這類數據相對關系型數據更靈活,在結構化轉換過程中也需要一些技術上的處理。也有很多非結構化數據、Web數據是以文本形式存在的,需要使用信息抽取技術識別文本中的實體、屬性、關系等信息。
3、數據質量評估與數據清洗
一些簡單的數據質量問題可以利用自動化的算法發現,因為數據質量問題的多樣性和不可預測性,數據可視化技術成為數據質量評估的關鍵技術。借助可視化技術,對數據語義非常了解的業務人員更容易發現數據存在的質量問題(如缺失、不一致、異常等)。
伴隨著數據質量問題的發現,用戶可以定義一些數據清洗規則,批量化地處理數據中存在的質量問題,提高數據清洗的效率。在數據庫研究領域,也有人借助眾包的思路提升數據清洗的效率。這種做法也是基于用戶在數據清洗過程中發揮的重要作用進行的。在數據清洗過程中,需要多輪次的人機交互,系統的交互界面和交互方式對于數據清洗算法的有效性尤為重要。
