數據是政府、企業和機構的重要資源。
數據治理關注數據資源有效利用的眾多方面,如數據資產確權、數據管理、數據開放共享、數據隱私保護等。從數據管理的角度,探討了數據治理中的一項關鍵技術:數據整理。介紹了以數據擁有者和直接使用者(行業用戶)為核心的數據整理的關鍵技術,包括數據結構化處理、
數據質量評估及
數據清洗、數據規范化、數據融合與摘取、數據整理的發布共享等。最后,針對加強數據整理方面的研究提出了一些思考。
大數據作為一種資源,在政府、大型企業和機構中發揮著越來越重要的作用。隨著大
數據應用的不斷推進,與數據資源的價值提煉、保值和增值密切相關的大數據治理越來越引起人們的重視。大數據治理是一項復雜的工程,它需要在國家、行業、企業等多個層面上開展體系化的建設,技術上包含數據資產確權、數據管理、數據開放共享、數據隱私保護等諸多方面。這些技術面臨的挑戰多、難度大,很多方面還沒有形成被廣泛認可的系統化的解決方案。本文從數據管理這一關鍵環節出發,探討其中的關鍵支撐技術:數據整理。
數據整理也叫數據準備,是在挖掘提煉
數據價值的過程中進行的前期的數據預處理工作。它看似不足輕重,實則非常重要。有調查研究表明,很多
大數據分析任務80%以上的工作花費在數據整理上,這給數據分析帶來了巨大的人力成本。很多分析設想因為承擔不起前期的數據整理工作而最終被放棄。更重要的是,由于缺少系統性和理論性的支撐,數據整理的質量千差萬別,這給數據分析的結果帶來了很大的不確定性,大大影響了大數據價值的挖掘與提煉。因此,人們很有必要重視數據整理的研究工作,它是整個數據治理環節中一項重要的基礎性工作,但是這項工作在學術界和企業界并沒有得到應有的重視。

數據整理的核心技術
1.1 數據的結構化處理
很多數據模型和算法是構建在結構化數據基礎上的,多源異構數據要更好地與其他數據集融合,結構化處理是必不可少的過程。數據結構化處理首先要對原始數據進行解析,提取出需要的信息,再進一步將其轉換成結構化數據。很多非結構化數據、Web數據是以文本形式存在的,需要使用信息抽取技術識別文本中的實體、屬性、關系等信息。也有很多數據采用的是結構化強一些的數據模型,如JSO格式,這類數據相對關系型數據更靈活,在結構化轉換過程中也需要一些技術上的處理。結構化處理的主要輸出形式是二維表或者圖數據,它需要用戶確定數據在轉換過程中采用的規則。
1.2 數據質量評估與數據清洗
結構化處理主要是數據表達形式上的轉換,數據結構化之后并不意味著能夠直接使用。處理后的數據還要進行質量評估,如果發現數據中存在問題,則采取進一步的數據清洗措施。這個過程稱作數據質量評估。一些簡單的數據質量問題可以利用自動化的算法發現,因為數據質量問題的多樣性和不可預測性,
數據可視化技術成為數據質量評估的關鍵技術。借助可視化技術,對數據語義非常了解的業務人員更容易發現數據存在的質量問題(如缺失、不一致、異常等)。伴隨著數據質量問題的發現,用戶可以定義一些數據清洗規則,批量化地處理數據中存在的質量問題,提高數據清洗的效率。在數據庫研究領域,也有人借助眾包的思路提升數據清洗的效率。這種做法也是基于用戶在數據清洗過程中發揮的重要作用進行的。在數據清洗過程中,需要多輪次的人機交互,系統的交互界面和交互方式對于數據清洗算法的有效性尤為重要。
1.3 數據規范化
數據清洗還有一項重要的內容是數據規范化,這也是數據準備中常見的問題。規范化有簡單的底層數據層面的,如數據類型轉換、單位變換、格式表換等,也有較為復雜的數據項規范化處理,如電話號碼、郵編、地址等。這類問題的主要成因是自然語言表達上的差異性會造成同一實體存在多種表達形式。比較典型的例子是地址,人們需要對其進行規范化處理,以提升數據的質量。地址的規范化面臨的一個比較大的挑戰就是粒度的選取,同一個地址可以用不同粒度進行表達。數據的規范化處理需要根據應用的需求特點,確定數據粒度和表達方式。地址規范化處理背后的問題是實體鏈指問題,即把同一實體的不同表達形式(不同名字)映射到同一個實體名字上,消除實體表達的語義鴻溝,進而通過關聯在數據集中不同地方出現的相同語義的實體,達到數據融合的目的。
睿治
數據治理平臺是億信華辰軟件有限責任公司完全自主研發的一站式綜合數據治理整體解決方案,是一款面向全用戶角色的、智能的、敏捷的數據全生命周期管理應用平臺。睿治平臺擺脫了傳統的一個問題一個工具的局限性,實現了數據治理場景全覆蓋,九大核心模塊:元數據、
數據標準、數據質量、
主數據、數據資產、數據安全、數據交換、數據處理、數據生命周期等,所有模塊可自由組合,并支持本地或云上使用,全面滿足客戶各類治理需求。
億信睿治作為國內少有的覆蓋數據全生命周期的數據治理平臺,全界面操作,“零”表達式治理,極高的易用性,可高效便捷完成數據從創建到消亡的全過程的監控和治理。一站式數據統一管理,保證了企業的業務數據在采集、匯總、轉換、存儲、應用整個過程中的完整性、準確性、一致性和時效性,從而幫助客戶建立起符合自身特征的數據架構和數據治理體系。

億信睿治平臺具備極強的通用性,各模塊功能可直接在各行業實施治理,解決常見數據問題。目前已深入服務了金融、制造、地產、電力、政務、衛生等多個行業,并正在高速拓展中。
數據整理需要研究的工作還有很多。如何開展有針對性的研究工作,并系統化地集成各方面的相關研究工作,形成數據整理方面整體上的研究和應用影響力?投入系統化的數據準備工具將更好地應用在實際場景中。這或許是一條較為可行的技術路線。
(部分內容來源網絡,如有侵權請聯系刪除)