一、數據治理的基本概念
數據治理是企業數據治理部門發起并推行的,關于如何制定和實施針對整個企業內部數據的商業應用和技術管理的一系列政策和流程。數據治理是一套持續改善管理機制,通常包括了數據架構組織、數據模型、政策及體系制定、技術工具、數據標準、數據質量、影響度分析、作業流程、監督及考核等內容。數據治理涉及的IT技術主題包括元數據管理、主數據管理、數據質量、數據集成、監控與報告等。
二、數據治理包括哪幾個方面
數據治理項目的范圍中數據安全、元數據管理、數據價值、數據開發、數據質量為關鍵路徑。
1、數據安全
數據安全主要是對數據的安全脫敏管控和安全檢查,脫敏機制有兩種方案:
1)針對用戶進行脫敏管理,數據倉庫的每一層都需要對敏感數據進行脫敏處理,對于敏感數據申請權限的用戶可以查看敏感信息,沒有權限的用戶只能查看脫敏表。這種脫敏機制好處在于對開發沒什么影響,但加大安全管理的復雜度,需要全域掃描敏感信息,脫敏工作大。
2)在數據倉庫的接入和輸出進行脫敏管控:數據接入識別敏感信息,通過脫敏工具進行脫敏處理,產生脫敏表和敏感表兩張表(脫敏表與敏感表之間要有映射關系),敏感數據不對中間層開放,對于數倉中間層則只有脫敏表,開發和測試的時候也只能使用脫敏表,在數據輸出層,首先應用層的開發先對敏感數據進行申請,申請通過后得到敏感表的使用權,開發通過映射關系將敏感表的脫敏數據進行關聯處理。
2、元數據管理
元數據從數據的角度可以分為三類:技術元數據、管理元數據和業務元數據。
技術元數據自然就是從技術的角度去描述數據,例如:表的sql、字段長度、字段類型等多種技術描述;管理
元數據是包含數據管理的信息在里面,例如:表的業務屬主、表的技術負責人;業務元數據是從業務的視角去描述數據,讓不懂數據的人可以快速讀懂數據,例如:表名稱、表的血緣關系、表的字段說明、指標的統計口徑等多種業務描述。
元數據的管理通常包含:血緣分析、數據生命周期。
血緣分析:對元數據的上下游進行分析,血緣分析分為了兩類,首先是存在Hadoop平臺的血緣分析,可用通過腳本解析出到字段級的上下游關系;其次建表有主外鍵的,可通過主外鍵建立血緣關系。
數據生命周期:數據都存在生命周期,當元數據訪問量變低,數據價值不存在的時候,可將它下線清除,釋放存儲空間。
3、數據價值
數據治理最重要的產出物,通過數據治理能為業務帶來的業務價值。對于不同看數據角色定義不同的價值,對于數據業務分析人員,通過數據標準化管理和平臺搭建,讓不懂數據的業務能夠快速掌握數據,并可以自己進行數據挖掘、數據分析等工作。
對于高層領導,將公司的業務數據以報告的形式,讓領導快速了解數據的成本及分布情況。當然不同的公司側重的價值會不一樣,
數據治理同時也能有效的控制數據成本,減少因為數據帶來的摩擦,提升數據質量和安全。
4、數據開發
對數據開發進行標準的流程管理是數據治理核心的一部分,首先根據公司實際情況分析、制定可落地的數據開發管理規范。過于復雜的數據開發規范維護成本高,同時也加重開發工作量,導致難以執行。過于簡單的規范又無法很好的管理開發流程。最主要的還是定制完規范后拉各關聯方進行評審,大家對可落地,可管理的角度是評估規范。
5、數據質量
數據質量的提升通常包含以下幾個方面:
1)數據質量檢查,提供可配置化的檢查規則,通過腳本定時調度執行;
2)數據質量監控,提供報警規則,根據配置檢查規則的閥值,對超出閥值的進行不同程級的告警和通知;
3)數據質量評估,提供數據質量評估能力,如數據一致性、完整性、正確性、合規性、及時性等,對數據進行全面檢查;
4)問題處理機制,對數據問題按照流程進行處理,規范問題處理機制和步驟,強化問題認證,提高數據質量;
5)根據血緣關系和業務場景鎖定高價值數據,進行高安全級別管控,避免數據出錯。