一、數據治理定義
狹義上講,
數據治理是指對數據質量的管理、專注在數據本身。廣義上講,數據治理是對數據的全生命周期進行管理,包含數據采集、清洗、轉換等傳統數據集成和存儲環節的工作、同時還包含數據資產目錄、數據標準、質量、安全、數據開發、數據價值、數據服務與應用等,整個數據生命期而開展開的業務、技術和管理活動都屬于數據治理范疇。
二、數據治理目標
數據治理的目標是提高數據的質量(準確性和完整性),保證數據的安全性(保密性、完整性及可用性),實現數據資源在各組織機構部門的共享; 推進信息資源的整合、對接和共享,從而提升 企業 信息化水平,充分發揮信息化作用。
三、數據治理平臺基本功能
1、數據采集
1)支持構建歸集層數據模型,支持常規字段類型、索引、是否允許空值等;支持物化(將數據模型物化到數據庫)和反物化(將數據庫掃描到數據模型);
2)支持數據庫到數據庫、API到數據庫、消息中間件到數據庫、文件到數據的數據采集;支持采集任務調度,可自定義采集周期,采集任務分組管理、采集日志查看等,支持全量采集、增量采集模式;
3)支持將各類外部數據源接入到平臺中,同時實現接入驗證;包括關系型數據庫mysql、oracle、sqlserver、postgresql ;非關系型數據庫MongoDB;數倉hive;消息隊列kafka;
2、數據治理
1)支持數據加工任務的分類管理,實現數據從歸集層到專題庫的ETL,并在ETL過程中自定義實現數據加工算法;支持加工任務調度,可以自定義任務周期;
2)支持命名標準,通過命名標準約束數據建模過程中對于數據模型的命名,支持轉換標準,可以轉換字符串實現數據脫敏以及去除空格等;
3、數據共享
1)支持接口瀏覽、訂閱、取消訂閱、接口測試等;
2)支持接口訂閱審核管理功能,可對于申請訂閱的請求進行審核,接口審核后調用者才能正常調用接口請求;
3)支持自定義開發接口,可以開發數據庫接口及實時數據接口,并以json格式返回數據;可以自定義數據返回格式;支持接口分級分類管理;
4、數據填報:
1)支持用戶通過excel文件方式,按照指定格式將數據填報到歸集庫或專題庫中;
2)支持用戶通過頁面表單進行數據填報,填報完成后數據直接進入歸集庫或專題庫;
四、數據治理功能模塊
1、主數據管理
主數據管理是通過運用相關的流程、技術和解決方案,對企業核心數據的有效管理過程。主數據管理涉及主數據的所有參與方,如用戶、應用程序、業務流程等,創建并維護企業核心數據一致性、完整性、關聯性和正確性。主數據是企業內外被廣泛應用和共享的數據,被譽為是企業數據資產中的“黃金數據”,主數據管理是撬動企業數字化轉型的支點,是企業數據治理最核心的部分。
2、元數據管理
元數據管理是對企業涉及的業務元數據、技術
元數據、管理元數據進行盤點、集成和管理,按照科學、有效的機制對元數據進行管理,并面向開發人員、最終用戶提供元數據服務,以滿足用戶的業務需求,對企業業務系統和數據分析平臺的開發、維護過程提供支持。借助變更報告、影響分析等應用,控制數據質量、減少業務術語歧義和建立業務和技術之間的良好溝通渠道,進一步提高各種數據的可信性、可維護性、適應性和可集成性。
3、數據質量管理
建立數據質量管理體系,明確數據質量管理目標、控制對象和指標、定義數據質量檢驗規則、執行數據質量檢核,生產數據質量報告。通過數據質量問題處理流程及相關功能實現數據質量問題從發現到處理的閉環管理,從而促進數據質量的不斷提升。
4、數據標準管理
數據標準適用于業務數據描述、信息管理及應用系統開發,可以作為經營管理中所涉及數據的規范化定義和統一解釋,也可作為信息管理的基礎,同時也是作為應用系統開發時進行數據定義的依據。涉及國家標準、行業標準、企業標準和地方標準,在定義元數據實體或元素時進行關聯。數據標準需要不斷的補充完善、更新優化和積累,以便更好的支撐業務的開發和系統的集成。
5、數據安全管理
數據安全應貫穿數據治理全過程,應保證管理和技術兩條腿走路。從管理上,建立數據安全管理制度、設定數據安全標準、培養起全員的數據安全意識。從技術上,數據安全包括:數據的存儲安全、傳輸安全和接口安全等。當然,安全與效率始終是一個矛盾體,數據安全管控越嚴格,數據的應用就可能越受限。企業需要在安全、效率之間找到平衡點。