尋求競爭優勢的公司也在積極主動地利用數據治理,為公司業務增加價值。所有這些,都需要企業在合適的時間向合適的人提供合適的信息,并且使整個企業都獲得新的機遇,而不是單單以一種被動的方式來管理數據。而今天我們就一起來了解一下,大數據技術中的數據治理流程是怎樣的。
什么是數據治理?
數據治理(Data Governance)是組織中涉及數據使用的一整套管理行為。由企業數據治理部門發起并推行,關于如何制定和實施針對整個企業內部數據的商業應用和技術管理的一系列政策和流程。
國際數據治理研究所(DGI)給出的定義:數據治理是一個通過一系列信息相關的過程來實現決策權和職責分工的系統,這些過程按照達成共識的模型來執行,該模型描述了誰(Who)能根據什么信息,在什么時間(When)和情況(Where)下,用什么方法(How),采取什么行動(What)。
數據治理的最終目標是提升數據的價值,數據治理非常必要,是企業實現數字戰略的基礎,它是一個管理體系,包括組織、制度、流程、工具。
數據治理主要建設哪些內容?
(1)數據接入標準化:通過制定接口規范,數據治理接入支持多源頭采集、多種形態的數形式,同時數據對賬清晰明了,對賬不僅是源頭有多少、進了多少做一個對比,另外一個層面是應該進多少,而進了多少的對比,通過設置預警閾值,對源頭的數據監控,及時發現源頭采集問題。
(2)數據處理自動化:通過自動化對標、自動化作業等產品、工具,以機器算法代替人力勞動,大大提高生產力。
(3)數據監控智能化:整個數據治理體系監控點很多,通過定義多種接口規范,實現運維監控的統一管理,短信、郵箱等多種提醒方式,及時發現并解決問題。
(4)數據組織知識化:通過分析各部門共享數據集,提煉權威數據,形成主數據模型。通過主題域建模,掌握各主題的內在關系,深度整合,形成以實體為單位的復雜的關系網絡,就是知識圖譜。
(5)數據運行可視化:ETL工具、服務總線產品與數據治理平臺有機結合,將數據治理實施流程各環節通過平臺去實現,由平臺驅動各產品協作完成整個數據治理過程。
(6)數據應用自助化:依托服務總線,建設統一的服務平臺,服務大廳,通過服務權限和數據權限控制,用戶可自助申請、自助使用、自助評價反饋。
如何進行數據治理?
一、 形成數據治理體系
大數據中心的建設需要通過數據治理體系來實施,主要包括以下幾點:
(1)建立匯聚、服務、共享標準,統一規范。
(2)對數據匯聚、清洗整合,解決數據質量問題和系統之間數據資源的融合問題。
(3)創建資源賬本,記錄數據資源數量,數據來源,標準情況等。
(4)建設共享服務,提供給內部和第三方使用。
二、構建數據治理架構
數據治理平臺的總體架構,設施和數據支撐層是基于政務云平臺和大數據平臺之上,主要是集中在數據資源層和資源服務層,包括數據中心、數據管理和數據服務。以億信華辰睿治數據治理平臺為例,數據治理架構如圖:

三、數據梳理
數據治理的前提是數據梳理,需要對數據資源情況進行摸底排查,掌握各系統的建設情況,包括數據調研、數據整理和數據反饋。
四、充分利用ETl工具
ETL,是英文Extract-Transform-Load的縮寫,用來描述將數據從來源端經過萃取(extract)、轉置(transform)、加載(load)至目的端的過程。利用ETL工具,與數據治理平臺無縫融合。ETL產品含五大特點,可視化、集成化、管道化、集群化、模板化,同時支持多種數據類型,通過統一的運行和管理平臺進行管理、平臺為ETL工具提供元數據支撐;ETL工具為平臺提供作業運行監控、數據對賬以及作業自動生成的能力。
一款好的數據治理工具,可以讓數據質量變得更好,發掘數據資產的商業價值,實現如下目標:對業務的支撐;降低經營風險、安全保障;對決策進行支持;滿足風險控制和外部監管要求;可企業持續發展。這里推薦睿治數據治理平臺,這款數據治理工具具備以下優勢:
平臺化:全面覆蓋數據治理10大領域,采用微服務架構,融合度高,延展性強
可視化:實現數據從創建到消亡全生命周期的可視化,也實現全角色的可視化
智能化:豐富的智能元素和功能,大大縮短數據管理周期、減少成本浪費