- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2021-12-30來源:悲情浪漫者瀏覽數:415次
? ? ? ?數據治理的問題并不僅僅只是治理數據本身,其最終目標是提升數據價值,它是一個包括組織、制度、流程、工具的管理體系。去年我曾寫過一篇關于數據治理的文章《數據治理落地難?攜程度假數據治理需求設計實踐》,從團隊提效、需求梳理、模型設計、指標管理四個方面分享了攜程度假在數據治理中的經驗。
? ? ? ?數據治理不是簡單的一次性的行為,它是一個長期持續性的項目集,要想通過數據治理將企業的數據管理、數據應用水平提升到新高度,而不是淪為理論實踐兩張皮,需要跨組織職能的協調以及在數據治理的各環節中將標準管理落實到位。
? ? ? ?數據治理是涵蓋數據的采集、處理、分析、使用的全流程管理體系,數據標準則是數據治理各項活動的基礎,是企業數據治理理論和方法與實際信息系統和數據的橋梁。攜程度假的實踐經驗總結發現,數據標準管理需要包含以下三要素:
? ? ? ?范圍:成功的數據治理應當是清楚地了解需要治理什么
? ? ? ?工具:對規范數據治理活動標準提供系統的支持
? ? ? ?制度:對在人員和流程方面的行為方式及有效地使用工具提供指導
? ? ? ?下文將從數據管理的兩個核心領域中選取部分案例來分享一下攜程度假在數據治理方面的探索與實踐:
? ? ? ?數據集成
? ? ? ?元數據管理
? ? ? ?攜程度假覆蓋的數據源有業務系統類的結構化數據、埋點日志類的半結構化數據及其他內容類的非結構化數據。數據集成不僅只是解決技術上的從源端抽取到數據中臺,其數據內容的變更通常會對現有流程及下游的數據應用產生影響,因此基礎數據的管理重點在于變更管理和統一標準管控。這里會介紹針對結構化數據生產變更的標準管理。
? ? ? ?生產變更的標準管理主要解決了以下問題:
? ? ? ?第一、哪些變更是需要通知的?
? ? ? ?1)結構類變更,這部分的操作都會經過數據庫的DDL轉換,所以方案上只需要監聽變更消息,自動進行解析出核心的變更信息,比如庫名、表名、表OWNER、變更類型(新增/修改/刪除)、變更對象(表/字段)等,并且定義一個標準的數據結構用于通知。目前工具可以對以下類型的變更做自動化感知及通知:
? ? ? ?2)內容類變更,這部分往往通過系統化的方式無法感知到,需要對應表的研發評估出影響面,并線下周知下游。這種方式常常會有兩種問題產生,其一是影響面評估不準——漏報;其二是依賴人的責任心——忘報。目前工具可以對以下類型的變更做線上人工提報及通知:

? ? ? ?第二、變更通知誰(影響范圍)?
? ? ? ?能評估全、評估準生產變更對于數據側的影響面及通知人對于研發側的TO來說是一件有挑戰的事情。但從數據中臺能力的角度而言,數據血緣是一個中臺基礎元數據組件,其中已經包含了完整的關系信息,表與人、表與表、表與字段、字段與字段等,我們可以基于這些關系信息建立起影響分析的能力。
? ? ? ?目前攜程度假的感知做到了ODS層,如圖,TO在界面上選擇相應的庫和表,影響分析就能識別展示出相關的影響面及通知人。下一階段我們還將打通應用端的影響分析,將會通過整合應用端數據血緣信息覆蓋到數據應用終端的影響面識別。

? ? ? ?第三、有工具如何能保證強執行?
? ? ? ?生產變更制度與流程:
? ? ? ?1)當生產發生變更時,通過自動化感知或TO在線提報的方式通知到下游相關數據OWNER,正常境況下都會有一定的時間余量。
? ? ? ?2)數據OWNER接收到生產變更通知后,需要及時確認影響面,必要的溝通確認還是不可缺少的重要環節,并評估改動成本及計劃時間。
? ? ? ?3)無論是自動感知還是在線提報,都有可能由于人為因素導致執行不到位,所以必須對于所有的變更感知方式有一個事后的DQC告警,同時告警的能力最好能夠做到T+0,因為可以及時感知告警在第一時間處理解決,保障任務的基線和數據應用不受影響。
? ? ? ?4)最后需要把質量閉環加入到流程中,保證在流程中發現的問題和由于人為因素導致的執行不到位能定期反饋到QA或者在質量會上曝光,以此來提升大家的質量意識,形成良性循環。
? ? ? ?元數據對于數據管理和數據使用來說都是必不可少的。所有大型組織都會產生和使用大量的數據,在整個組織中,不同的人擁有不同層面的數據知識,但沒有人知道關于數據的一切。因此,必須將這些信息記錄下來,否則組織可能會丟失關于自身的寶貴知識。
? ? ? ?元數據管理提供了獲取和管理組織數據的主要方法,建立業務術語表,用于定義和定位組織中的數據,確保組織中數量繁多的元數據被管理和應用。假如沒有可靠的元數據,組織就不知道它擁有什么數據,為保證其高質量,應把元數據當作產品來進行管理。好的元數據不是偶然產生,而是認真計劃的結果。這里介紹攜程度假對于業務元數據的標準管理。
? ? ? ?業務元數據的標準管理主要解決了以下問題:
? ? ? ?第一、數據地圖中的業務元數據需要覆蓋哪些?
? ? ? ?攜程度假的數據地圖工具集成了模型、指標、看板、數據集四種業務元數據,除了元數據信息的搜索與展示,也打通了權限申請流程及在線管理的功能。
? ? ? ?模型:數據中臺中規范化的主題域模型。
? ? ? ?指標:數據中臺中標準化的業務分析指標。
? ? ? ?看板:支持有固化場景的標準化的指標分析看板。
? ? ? ?數據集:支持無固化場景下的明細查詢與數據探索分析。

? ? ? ?第二、如何管理并維護準確一致的元數據?
? ? ? ?建表元數據規范
? ? ? ?數倉模型建表的流程需要嚴格遵守建表工具規范,主要的元數據信息有:
? ? ? ?分層:按照經典建模分層思路,分為ODS層(操作數據層),EDW層(明細數據層),CDM層(匯總數據層),ADM層(數據應用層),MID層(中間層),DIM層(維度層)
? ? ? ?一級主題:按照數據域進行劃分,例如常規的訂單域、日志域、商品域、服務域等
? ? ? ?二級主題:按照業務線進行劃分,度假包含的業務線較多,例如團隊游、門票、用車、租車等
? ? ? ?分區類型:全量分區或增量分區
? ? ? ?重要等級:標識表的重要程度優先級,分為P0-P3
? ? ? ?敏感級別:標識商密與個密敏感程度,分為L1-L4

? ? ? ?建表工具會根據元數據的選擇自動生成標準的建表語句模板,其中包含了表名規范、字段名及注釋規范等,表owner根據工具的引導完成表名及表的邏輯結構的設計,并將這些信息和完整的注釋通過工具提交建立正式表。

? ? ? ?指標元數據規范
? ? ? ?指標的定義是由組成指標的業務術語構建而成,主要的業務術語有:
? ? ? ?數據域:指面向業務分析,將業務過程或者維度進行抽象的集合。例如常規的訂單域、日志域、商品域、服務域等
? ? ? ?業務過程:指企業的業務活動事件。例如訂單域中的下單、支付、退款等
? ? ? ?時間周期:指用來明確數據統計的事件范圍或者時間點。例如最近30天、最近半年、截至當日等
? ? ? ?修飾詞類型:指對修飾詞的一種抽象劃分。例如商品維度-商品類型、時間維度-預定日期、渠道維度-分銷渠道等
? ? ? ?修飾詞:指除了統計維度外指標的業務場景限定抽象。
? ? ? ?原子指標:指基于某一業務行為下的度量,是業務定義中不可再拆分的指標。例如成交-訂單數
? ? ? ?維度:指用來反應業務的一類屬性,這類屬性的集合構成一個維度。例如商品維度、時間維度、渠道維度等
? ? ? ?維度屬性:指隸屬于一個維度下的屬性值。例如地理維度下的城市ID、城市名稱、所屬國家等
? ? ? ?派生指標:派生指標=業務線+一個原子指標+多個修飾詞(可選)+時間周期。例如團隊游_成交-訂單數

? ? ? ?指標的設計與注冊必須嚴格遵守指標的定義規范,且在指標管理系統中進行操作,所有上述的業務屬于都在系統后臺事先進行標準化,標準化的內容包括術語的命名、分類以及準確的定義。原子指標和派生指標的生成過程都是基于標準化的組裝,所有的相關信息也是結構化的自動生成。

? ? ? ?指標實踐中在最終生成一個派生指標完整元數據時,有兩個設計上必須考慮到兩點:
? ? ? ?第一,指標的口徑必須有一個明確的業務維護人而不應該只有一個數據開發owner,關于指標的生命周期管理(變更或者下線)都是需要指標業務owner收口,這樣才能保證指標的定義和業務的一致性;
? ? ? ?第二,在業務術語定義標準結構化的同時,最好加上一個業務話術的定義描述,便于業務更好的理解指標的業務含義。

? ? ? ?第三、數據地圖如何更好的幫助業務使用數據?
? ? ? ?門戶看板的指標應用標準化
? ? ? ?業務門戶看板是固化場景的數據查詢分析入口,其中包含了標準化的指標、篩選條件及可視化圖表。由于前端展示的個性化需求,指標的展示名稱往往不能直接反應指標的口徑,往往存在同名不同意的情況,導致業務匯報及使用數據的混亂或需要頻繁的線下溝通及確認。
? ? ? ?門戶看板的指標應用標準化就是通過整合數據地圖的指標元數據,在看板工具中強制需要綁定標準化過的指標ID,即已在指標管理系統中維護的指標,在前端的交互上,會清晰的顯示出相關指標的指標定義,如果業務還需要進一步查看更多元數據信息,也可以跳轉到具體指標信息詳情頁,會有更多的相關信息可供業務查看。

? ? ? ?自助分析的取數場景標準化
? ? ? ?除了固化場景的看板與數據集,自助取數是另一個讓業務能快速利用數據解決業務分析的通道。但對于業務而言,自身對于數據的理解程及取數能力往往遠低于門檻線,自助取數中的效率和質量都難以達到相對可用的標準。
? ? ? ?自主分析的取數場景標準化就是通過固化相對標準且注釋清晰的取數場景模板,簡化業務方編寫SQL代碼的能力,通過簡單參數的修改,一鍵查詢即可跳轉至自助取數平臺進行業務分析。

? ? ? ?數據管理是一個復雜的過程,在這個過程中絕不僅僅只是數據團隊的努力,要將制定制度和實施細則,在組織內多個層次上實踐數據管理,并參與組織變革管理工作,積極向組織傳達改進數據治理的好處以及成功地將數據作為資產管理所必須的行為。
? ? ? ?企業的數據戰略必須和業務戰略目標保持高度一致,即使擁有最佳的數據戰略,數據治理和數據管理計劃也可能不會成功,除非企業愿意接受并進行管理變革。數據治理越顯著地幫助解決組織問題,才會有越來越多的人去接受改變、去接受數據治理實踐。
? ? ? ?攜程度假的數據治理之路還很漫長,其中也參考了不少領域中優秀成熟的治理思路與方案,希望本文的一點點實踐經驗能給讀者帶來一點點的幫助。
下一篇:六個數字化意識和習慣...