如今隨著互聯網的發展,數字化給我們帶來了更多的機會,在大數據時代,數據規模也在不斷的膨脹,所以各種企業需要大數據治理。
大數據治理包括數據規劃、
數據采集、數據儲存管理、數據應用四個方面。根據每一個方面的特點,我們可以將大數據治理總結為四個字,即“理”、“采”、“存”、“用”。
01理:梳理業務流程,規劃數據資源
對于企業來說,每天的實時數據都會超過TB級別,需要采集用戶的哪些數據,這么多的數據放在哪里,如何放,以什么樣的方式放?這些問題都是需要事先進行規劃的,需要有一套從無序變為有序的流程,這個過程需要跨部門的協作,包括了前端、后端、數據工程師、數據分析師、項目經理等角色的參與。
02采:ETL采集、去重、脫敏、轉換、關聯、去除異常值
前后端將采集到的數據給到數據部門,數據部門通過ETL工具將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
03存:大數據高性能存儲及管理
這么多的業務數據存在哪里?這需要有一高性能的大數據存儲系統,在這套系統里面將數據進行分門別類放到其對應的庫里面,為后續的管理及使用提供最大的便利。
04用:即時查詢、報表監控、智能分析、模型預測
大數據治理的最終目的就是輔助業務進行決策,前面的三個方面都是為最終的查詢、分析、監控做鋪墊。這個階段就是數據分析師的主場,分析師們運用這些標準化的數據可以進行即時的查詢、指標體系和報表體系的建立、業務問題的分析,甚至是模型的預測。
面向用戶的大數據治理的四個階段:
(1)第一階段:全面梳理企業信息,自動化構建企業的數據資產庫在第一階段,主要是對企業大數據的梳理,從而全面掌握企業大數據的情況,主要有以下三個方面。
?梳理全企業數據架構,對企業的數據模型、數據關系、數據處理有清晰化的認識。
?對數據資產形成統一的自動化管理,形成企業的元數據庫。
?對企業數據資產形成多種視圖,使數據資產能夠讓不同用戶,有不同視角的展示。
(2)第二階段:建立管理流程,落地數據標準,提升數據質量
在第二階段,需要建立大數據管控能力,包括從業務的角度梳理企業數據質量問題,形成質量控制能力,形成核心數據標準,并抓標準落地。針對關鍵問題,建立數據的管理流程,少而精,控制核心問題。
在這個階段主要是為數據部門形成一套管理大數據的能力,同時為數據部門形成數據管理的工作環境。
(3)第三階段:直接為用戶提供價值,向用戶提供數據微服務
通過前兩個階段,企業能夠建立基本的大數據治理的能力,在此基礎上,還需要以用戶為中心,為用戶提供直接獲取數據的能力。第三階段依賴于前兩個階段能力的建設,在這個階段的目標是向用戶提供自助化的數據服務,使用戶能夠自助地獲取和使用數據,并且在用戶的使用過程中再反過去進一步落地標準、控制質量。
(4)第四階段:智能化企業知識圖譜,為全企業提供數據價值
最后一個階段是將數據沉淀成為知識,形成企業的知識圖譜,提供從“關系”的角度去分析問題的能力。
人進行數據搜索是通過業務術語(知識)來搜索的,而知識之間是有相互聯系的,例如水果和西紅柿是上下位關系(后者是前者的具體體現),好的搜索除了要列出直接結果,還需要顯示與之關聯的知識,這就要建立知識圖譜。
簡單說知識圖譜就是概念、屬性以及概念之間的關聯關系,這個關系可以手工建立,也能通過自然語言處理等方法,對政策、法規、需求、數據庫comments、界面等多種來源進行分析,自動化建立起企業知識圖譜。從而使數據治理成為整個企業的數據工作環境,強化企業數據與知識體系之間的關聯,加快企業員工數據與知識之間的轉換效率,讓數據的深層價值得以體現。
通過這四個階段的建設,使大數據治理平臺由數據部門的工作環境,轉變成為全企業的數據工作環境,以用戶為中心,讓用戶能夠直接使用大數據,并通過用戶的使用來管理數據,持續優化數據質量,在達到治理數據目標的同時,也最大限度發揮了數據的價值。