- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2019-02-21來源:知乎瀏覽數:847次
2013年被眾多的IT人定義為中國的大數據元年,這一年國內的大數據項目開始在交通、電信、金融部門被廣泛推動。各大銀行對Hadoop的規劃、POC尤其風生水起,帶動了一波大數據應用的熱潮,這個熱潮和當初數據倉庫進入中國時的2000年左右很相似:應用還沒有想好,先歸集一下數據,提供一些查詢和報表,以技術建設為主,業務推動為輔。這就導致了這股Hadoop熱潮起來的時候,傳統企業都是以數據歸集為主的,而BAT這樣的企業則天生以數據為生,早早進入了數據驅動技術和業務創新的階段。
隨著Hadoop技術的提升,數據如何進來,如何整合,開展什么樣的應用都已經有了成熟的案例,可是,同傳統數倉時代一樣,垃圾進垃圾出,如何破?相比傳統數倉時代,進入Hadoop集群的數據更加的多樣、更加的復雜、量更足,這個數倉時代都沒有處理好的事情,如何能夠在大數據時代處理好,這是所有大數據應用者最最期盼的改變,也是大數據平臺建設者最有挑戰的難題:數據治理難的不是技術,而是流程,是協同,是管理。
數據治理并不等同于數據管理,而只是數據管理的頂層執行層面。數據管理指規劃、控制和提供數據及信息資產,發揮數據和信息資產的價值,強調在企業間或企業內部進行。數據治理是對數據資產管理活動行使權力和控制的活動集合(規劃、監控和執行)。數據治理制定正確的原則、政策、流程、操作規程,確保以正確的方式對數據和信息進行管理。
數據資產管理是業務部門和IT部門的共同職責,需要由業務部門和IT部門分別或共同制定相關決策,如業務運營模型、數據治理模型、企業信息模型、業務規范、信息規范、數據庫架構、數據倉庫/商務智能架構、元數據架構、技術元數據、數據安全管理等。
數據資產管理方法主要是面向數據的整個生命周期,從空間視角和時間視角實現治理和管控。從空間視角上看,因為數據在不同業務、不同系統中流動,因此數據治理必須實現跨系統、跨業務的端到端治理,需要有機構統籌規劃與決策、協調與推進。從時間視角上看,企業管理數據資產,就是管理數據的生命周期。數據首先被創建或獲得,然后存儲、維護和使用,最終被銷毀。因而有效的數據管理,開始于數據獲取之前,企業先期制定數據規劃、定義數據規范,以期獲得實現數據采集、交付、存儲和控制所需的技術能力。
數據資產管理主要工作包括數據治理政策制定、數據標準管理、數據結構管理、數據流管理、數據庫管理、數據運用管理、數據治理質量改善等方面。
數據管理是系統化的工程,不僅僅是單純的技術問題、管理問題或者實施問題,而是三者緊密聯系,共同發揮作用,共同促進數據管理機制完善并發揮作用的過程。相應的,大數據平臺數據治理也應采取分步驟實施,有序推進的策略。
建立完整的、科學的、安全的、高質量的數據管控技術體系,是首要的任務。作為數據管控的基石,為了更好支撐后續工作的開展,技術體系必須一步到位,是功能完備、高質量、高擴展性的,而不是僅實現部分功能,或者功能不完善的“半成品”。
疊加更多業務數據、細化數據業務屬性與管理屬性、優化與調整數據管控流程,尤其是適應未來的現代企業數據管控制度的建立完善,是逐步積累推廣、不斷磨合改進的長期過程。這些工作應及早啟動,并成為后續大數據平臺建設工作的重點。
演進目標一般分為兩步走,當前和遠期:

當前要做的是功能框架的完善,而完善的著力點則是“數據資產目錄”:用資產化的視角來管理一個企業的數據,只有把數據作為資產來認識和管理,大數據項目才能達成預期,也能夠治理好。大數據時代帶來的價值,個人認為主要有兩個,一個是技術架構,主要是架構理念的進步,另外一個更重要的則是對數據的重視。大數據時代是數據的時代,IT向DT轉型,不單單是BAT,所有的IT公司,未來都在數據這兩個字上。
而資產目錄就是管理資產的形式和手段,他像菜單一樣對企業的資產進行梳理、分門別類,提供給使用者;使用者通過菜單,點選自己需要的數據,認可菜單對應的后端處理價值,后廚通過適當的加工,推出相應的數據服務;這是一個標準的流程,而這些流程之上,附著一整套數據管理目標和流程。
大數據平臺以數據資產目錄為核心,將元數據、數據標準、主數據、數據質量、數據生命周期、數據輪廓等信息在邏輯層面關聯起來,在管理層面上整合成統一的整體,構建起數據管理體系,全面的支持數據服務等具體應用。
大數據平臺實現了數據存儲、清洗和應用。在數據匯入和匯出的過程中,需要對數據的元數據進行統一記錄和管理,以利于后續的數據應用和數據血緣分析。數據質量一直是數據集成系統的基礎工作,對數據的各個環節設置數據質量檢查點,對數據質量進行剖析、評估,以保證后續應用的可信度。
在數據收集的過程中,隨著數據維度、指標的聚集,如何找到所需的業務指標及屬性,并且評估相關屬性的業務及技術細節,需要對收集的所有數據進行業務屬性,并進行分類,建立完善的數據資產目錄。
數據資產目錄是整個大數據平臺的數據管理基礎,而數據資產目錄由于數據的多樣性,在使用的過程中,必然涉及數據權限的申請、審批管控流程,而管控流程的建立依賴于相應崗位的設立和對應職責的建立。
大數據平臺的數據管理架構規劃,通過數據物理集中和數據邏輯整合,徹底擺脫企業“數據豎井”的困境。大數據平臺數據管理架構分為功能架構、流向規劃和數據架構三個層面。
數據流向規劃架構:規劃整個大數據平臺的數據流向,并在數據流入、數據整合、數據服務的具體環節實現精細化管理。
數據管理的數據架構:以數據資產目錄為核心,數據項為最小管理單元,將技術元數據(實體、屬性和關系)、業務元數據和管理元數據(數據標準、主數據、數據質量、數據安全)融合為彼此緊密聯系、密不可分的整體,共同構成精細化管理的數據基礎。
數據管理在整個大數據平臺不僅僅是一個主要功能模塊,它還是整個企業層面數據治理的重要組成部分,它是技術和管理流程的融合,也需要合理管控流程框架下組織機構之前的協調合作。如何利用統一的數據管理模塊對企業所有進入到數據湖的數據進行有效管控,不單單取決于數據管理模塊本身,也取決于元數據的合理采集、維護,組織結構及制度的強力支持保證。

大數據平臺數據管理參照了DAMA對于數據管理的九個管理目標,并進行裁剪,并對部分管理目標進行了合并,并參照了CMMI制定DMM數據成熟度目標,采用循序漸進,逐步完善的策略對管理目標進行分階段完成,制定完整的管控流程和數據治理規范,以便持續的對數據進行管理,遞進實現DMM定義的成熟度目標。
大數據管理目標和DAMA的對應關系如下:

大數據平臺數據管理的核心內容是數據資產目錄,圍繞數據資產目錄的數據流入、數據整合、數據服務都是數據管理的核心。數據管理主要管理數據的流動,以及管理流動帶來的數據變化,并對數據底層的數據結構、數據定義、業務邏輯進行采集和管理,以利于當前和未來的數據使用。為了更好的對數據進行管理和使用,制度層面的建設、流程的設立必不可少,同時也兼顧到數據在流動過程中產生的安全風險和數據隱私風險。
因此數據管理介入到完整的數據流轉,并在每個節點都有相應的管理目標對應,整個數據流框架如下圖所示:
