
有效的數(shù)據(jù)治理是指通過(guò)設(shè)計(jì)嵌入到數(shù)據(jù)流程中的數(shù)據(jù)質(zhì)量、完整性和安全控制等的應(yīng)用。這與傳統(tǒng)數(shù)據(jù)治理模式形成鮮明對(duì)比,傳統(tǒng)數(shù)據(jù)治理工作在實(shí)施后花費(fèi)了大量精力來(lái)發(fā)現(xiàn)數(shù)據(jù)系統(tǒng)、構(gòu)建數(shù)據(jù)沿襲以及實(shí)施數(shù)據(jù)質(zhì)量和完整性控制。在實(shí)踐中如何運(yùn)作呢?
一個(gè)簡(jiǎn)單的例子
讓我們舉一個(gè)我在實(shí)踐中多次看到的簡(jiǎn)單例子:

有一個(gè)客戶創(chuàng)建流程,其中收集并創(chuàng)建某些客戶數(shù)據(jù)以創(chuàng)建新的客戶檔案。該數(shù)據(jù)被發(fā)送到存儲(chǔ)客戶數(shù)據(jù)的系統(tǒng)中。基于該中央系統(tǒng)中的數(shù)據(jù),存在三個(gè)使用該數(shù)據(jù)的下游系統(tǒng)。首先,有一個(gè)產(chǎn)品開(kāi)放系統(tǒng),客戶開(kāi)始消費(fèi)所提供的一些產(chǎn)品和服務(wù)。其次,有一個(gè)營(yíng)銷系統(tǒng)來(lái)宣傳新的、額外的產(chǎn)品和服務(wù)。第三,有一個(gè)客戶管理系統(tǒng),如果客戶致電提出疑問(wèn)或問(wèn)題,呼叫中心的代理可以訪問(wèn)客戶信息。
傳統(tǒng)的數(shù)據(jù)治理方法
在傳統(tǒng)方法中,將這些數(shù)據(jù)系統(tǒng)和流程納入治理可能是一項(xiàng)艱巨的任務(wù)。我們必須確定流程和關(guān)鍵數(shù)據(jù),定義需求,然后開(kāi)始設(shè)計(jì)控制措施以確保數(shù)據(jù)確實(shí)得到充分管理。
對(duì)于示例中的 5 個(gè)過(guò)程中的每一個(gè),我們都可以識(shí)別所涉及的關(guān)鍵數(shù)據(jù)。然后我們可以識(shí)別它們之間的數(shù)據(jù)流并創(chuàng)建數(shù)據(jù)沿襲。數(shù)據(jù)沿襲的一種常見(jiàn)方法是從下游的數(shù)據(jù)開(kāi)始,明確數(shù)據(jù)流,返回上游。然后,我們從中央數(shù)據(jù)平臺(tái)獲取數(shù)據(jù),將其提取到數(shù)據(jù)質(zhì)量工具中,并測(cè)量數(shù)據(jù)質(zhì)量。我們還從消費(fèi)流程中獲取數(shù)據(jù),再次測(cè)量數(shù)據(jù)質(zhì)量,并將其與集中存儲(chǔ)的客戶數(shù)據(jù)進(jìn)行比較以確保一致性。
這種方法面臨許多挑戰(zhàn)。眾所周知,記錄數(shù)據(jù)沿襲非常困難且耗時(shí)。將數(shù)據(jù)質(zhì)量納入數(shù)據(jù)質(zhì)量工具的成本非常高,因?yàn)檫@相當(dāng)于有效地復(fù)制數(shù)據(jù)。衡量系統(tǒng)之間和跨系統(tǒng)的一致性很困難,因?yàn)橄到y(tǒng)可能來(lái)自不同的技術(shù)和供應(yīng)商,具有不同的預(yù)構(gòu)建模式和元數(shù)據(jù)實(shí)踐,并且可能是相隔數(shù)年構(gòu)建的。需要理解數(shù)據(jù)轉(zhuǎn)換并將其嵌入到數(shù)據(jù)質(zhì)量規(guī)則中。
適當(dāng)?shù)臄?shù)據(jù)訪問(wèn)和使用很難證明,因?yàn)閿?shù)據(jù)流沒(méi)有集中跟蹤,并且它們使用不同的模式。通過(guò)大量的手動(dòng)工作,相應(yīng)的系統(tǒng)和應(yīng)用程序所有者(如果存在)可能可以解釋數(shù)據(jù)訪問(wèn)過(guò)程,但這取決于他們的個(gè)人理解和本地保存(并且很少維護(hù))的文檔,因此這種數(shù)據(jù)治理模式具有很大的挑戰(zhàn)性。
那么我們?cè)鯓硬拍茏龅酶谩又悄堋⒖蓴U(kuò)展且面向未來(lái)

(1)數(shù)據(jù)采集控制
讓我們從數(shù)據(jù)捕獲開(kāi)始,自上而下地處理所述的流程。對(duì)于客戶創(chuàng)建流程,定義收集和創(chuàng)建的關(guān)鍵數(shù)據(jù)元素,并花時(shí)間明確記錄每個(gè)數(shù)據(jù)元素的要求。現(xiàn)在掌握了要求,返回創(chuàng)建功能并實(shí)施控制措施,以防止首先創(chuàng)建不準(zhǔn)確和不完整的數(shù)據(jù)。此步驟極其關(guān)鍵 — 預(yù)防數(shù)據(jù)問(wèn)題的成本效益至少比稍后在下游修復(fù)問(wèn)題的成本效益高 10 倍。
有許多簡(jiǎn)單但功能強(qiáng)大的選項(xiàng)來(lái)實(shí)現(xiàn)數(shù)據(jù)捕獲控件。可以嵌入控件以確保進(jìn)度停止,直到完成必填字段。下拉菜單非常適合郵政編碼或國(guó)家/地區(qū)等標(biāo)準(zhǔn)化字段。如果給定數(shù)據(jù)元素沒(méi)有有限的有效值集,請(qǐng)考慮在接受格式之前如何檢查格式。有效性或一致性規(guī)則可以掃描非法字符、不可能的重復(fù)字符或意外的數(shù)據(jù)長(zhǎng)度。人工智能也可以發(fā)揮作用,例如將數(shù)據(jù)與公共和第三方數(shù)據(jù)或從掃描圖像檢索的數(shù)據(jù)進(jìn)行比較。無(wú)需完全停止該過(guò)程,而是可以向創(chuàng)建功能模塊發(fā)送彈出窗口以確認(rèn)數(shù)據(jù)的準(zhǔn)確性,如果需要,可以覆蓋該彈出窗口。
一些數(shù)據(jù)捕獲控制可以是基于流程的,而不是由技術(shù)驅(qū)動(dòng)的。以一家健康診所為例,我們發(fā)現(xiàn)多達(dá) 40% 的患者電話號(hào)碼不準(zhǔn)確。審查并澄清了數(shù)據(jù)采集職責(zé),并實(shí)施了簡(jiǎn)單的流程變更。當(dāng)創(chuàng)建患者病例時(shí),前臺(tái)人員現(xiàn)在會(huì)要求他們驗(yàn)證電話號(hào)碼,這實(shí)際上消除了數(shù)據(jù)質(zhì)量問(wèn)題。
(2)源頭數(shù)據(jù)質(zhì)量
客戶數(shù)據(jù)幾乎對(duì)任何組織都至關(guān)重要。在我們的示例中,我們定義了 3 個(gè)消費(fèi)系統(tǒng),但在現(xiàn)實(shí)生活中通常有數(shù)十個(gè)使用該數(shù)據(jù)的系統(tǒng)。因此,客戶數(shù)據(jù)的存儲(chǔ)應(yīng)作為“數(shù)據(jù)產(chǎn)品”在戰(zhàn)略位置進(jìn)行管理。無(wú)論此數(shù)據(jù)產(chǎn)品是通過(guò) CRM、MDM、CDP 還是其他類型的解決方案啟用,都建議在源頭控制數(shù)據(jù)質(zhì)量。
也就是說(shuō),無(wú)論數(shù)據(jù)存儲(chǔ)在何處,都應(yīng)將其質(zhì)量作為標(biāo)準(zhǔn)、持續(xù)的實(shí)踐進(jìn)行衡量和發(fā)布。該解決方案應(yīng)該內(nèi)置數(shù)據(jù)質(zhì)量控制。按照冷凍食品存儲(chǔ)控制的類比,您想知道在任何時(shí)間存儲(chǔ)了哪些食物以及存儲(chǔ)溫度。如果溫度升高超過(guò)某個(gè)閾值,您會(huì)想立即知道- 而不是想等待每月更新的儀表板。冰箱至少應(yīng)該配備集成溫度控制裝置,可以顯示溫度并在超出閾值時(shí)發(fā)出警報(bào)。如果可以避免的話,您不想在事后手動(dòng)構(gòu)建這些東西。
根據(jù)所涉及的解決方案技術(shù),可以考慮許多選項(xiàng)。所有領(lǐng)先的數(shù)據(jù)平臺(tái)都允許應(yīng)用標(biāo)準(zhǔn)和規(guī)則。適用于數(shù)據(jù)捕獲點(diǎn)的類似規(guī)則和要求(例如,與郵政編碼格式的有效性相關(guān))也可以在數(shù)據(jù)源處強(qiáng)制執(zhí)行。許多平臺(tái)可以根據(jù)可用元數(shù)據(jù)自動(dòng)計(jì)算表中包含的數(shù)據(jù)的數(shù)據(jù)質(zhì)量指標(biāo)。同樣,數(shù)據(jù)質(zhì)量檢查可以輕松嵌入到現(xiàn)有的攝取和整合作業(yè)中,以便過(guò)濾掉、拒絕、修復(fù)和/或安排數(shù)據(jù)管理員審查包含可能不正確數(shù)據(jù)的記錄。
并不總是需要?jiǎng)?chuàng)建數(shù)據(jù)質(zhì)量規(guī)則并執(zhí)行它們。如果嵌入了數(shù)據(jù)質(zhì)量控制來(lái)保證數(shù)據(jù)以給定格式到達(dá)并且之后不會(huì)被損壞(例如,因?yàn)橹当仨毨^續(xù)匹配一組參考數(shù)據(jù)),那么數(shù)據(jù)質(zhì)量指標(biāo)可能會(huì)變得多余。這一切都是為了確保數(shù)據(jù)完整性,但如何做到這一點(diǎn)取決于您。
(3)數(shù)據(jù)訪問(wèn)控制
客戶數(shù)據(jù)應(yīng)受到保護(hù),以確保只有具有適當(dāng)權(quán)限的人員和流程才能訪問(wèn)它。與基于角色的訪問(wèn)控制相關(guān)的最佳實(shí)踐是眾所周知的并且已記錄在案,因此無(wú)需深入研究。
然而,從數(shù)據(jù)治理的角度來(lái)看,僅僅引用訪問(wèn)控制是不夠的。特別是對(duì)于云原生應(yīng)用程序,建議實(shí)現(xiàn)不可變的、自動(dòng)生成的訪問(wèn)和審核日志。每當(dāng)訪問(wèn)數(shù)據(jù)時(shí),都會(huì)在日志中創(chuàng)建一個(gè)條目,該條目指定誰(shuí)或什么獲得了訪問(wèn)權(quán)限以及基于什么憑據(jù)。這些日志可以存儲(chǔ)在相對(duì)冷的倉(cāng)庫(kù)中,以最大限度地降低成本。
在源頭,可以對(duì)數(shù)據(jù)進(jìn)行屏蔽或模糊處理,以確保通過(guò)適當(dāng)配置的數(shù)據(jù)訪問(wèn)流程,人員和流程只能根據(jù)他們擁有的權(quán)限訪問(wèn)他們真正需要的數(shù)據(jù)。
上述所有控件的共同點(diǎn)是它們都是內(nèi)置的、可擴(kuò)展的且靈活的。當(dāng)建立系統(tǒng)、應(yīng)用程序和集成時(shí),它們非常容易實(shí)現(xiàn)。之后,如果數(shù)據(jù)量或使用量激增,或者添加新角色,也不會(huì)影響控制的有效性。
(4)可發(fā)現(xiàn)的數(shù)據(jù)流
為了創(chuàng)建和實(shí)現(xiàn)數(shù)據(jù)流,無(wú)論數(shù)據(jù)流的技術(shù)或性質(zhì)、大小和頻率如何,都需要定義一些事情:數(shù)據(jù)來(lái)自哪里,在傳輸過(guò)程中對(duì)數(shù)據(jù)做了什么,以及它被發(fā)送到哪里。任何經(jīng)驗(yàn)豐富的數(shù)據(jù)治理專家都知道為已經(jīng)存在一段時(shí)間的系統(tǒng)和應(yīng)用程序構(gòu)建數(shù)據(jù)沿襲的恐怖故事。然而,在創(chuàng)建時(shí),當(dāng)數(shù)據(jù)工程師仍在設(shè)計(jì)他們的管道時(shí),通過(guò)稍微調(diào)整它們來(lái)確保這些流可以通過(guò)設(shè)計(jì)發(fā)現(xiàn)是相對(duì)簡(jiǎn)單的工作。
跨數(shù)據(jù)流模式,為與流本身一起提供的元數(shù)據(jù)腳本或文件定義模板。這些腳本應(yīng)該標(biāo)準(zhǔn)化,并包含最少的業(yè)務(wù)和技術(shù)元數(shù)據(jù)集,例如源、目的地、頻率、包含的關(guān)鍵數(shù)據(jù)元素以及一系列指標(biāo)(例如分類、PII 指標(biāo))。最佳實(shí)踐是每次更新數(shù)據(jù)流時(shí)都會(huì)更新這些元數(shù)據(jù)文件(如果可能的話,自動(dòng)更新)并在目錄中維護(hù)。然后,確保將這些元數(shù)據(jù)文件推送或拉入元數(shù)據(jù)管理工具(例如數(shù)據(jù)目錄)、譜系圖可以自動(dòng)創(chuàng)建。
遵循上述準(zhǔn)則并堅(jiān)持互操作性標(biāo)準(zhǔn),可以推動(dòng)“通過(guò)設(shè)計(jì)實(shí)現(xiàn)數(shù)據(jù)沿襲”。
(5)數(shù)據(jù)變更控制
我們示例中的下游系統(tǒng) - 產(chǎn)品開(kāi)放、營(yíng)銷和呼叫中心客戶管理,全部使用來(lái)自中央客戶數(shù)據(jù)存儲(chǔ)平臺(tái)的數(shù)據(jù)。我們需要確保實(shí)際上使用了正確、準(zhǔn)確的數(shù)據(jù)。我們不需要重新衡量數(shù)據(jù)質(zhì)量,唯一需要控制的是數(shù)據(jù)與我們的權(quán)威來(lái)源一致。如果那里的數(shù)據(jù)不準(zhǔn)確或丟失,那么應(yīng)該在那里檢測(cè)并解決問(wèn)題——而不是下游。那么我們?nèi)绾伪WC這種一致性呢?
一種簡(jiǎn)單的方法是在客戶數(shù)據(jù)平臺(tái)中構(gòu)建直接接口。例如對(duì)于呼叫中心運(yùn)營(yíng)來(lái)說(shuō),這是非常可行的。如果代理需要審查或編輯客戶數(shù)據(jù),則可以直接與源連接來(lái)完成此操作,從而保證數(shù)據(jù)質(zhì)量在傳輸過(guò)程中不會(huì)受到損壞。
出于營(yíng)銷目的,例如推動(dòng)向特定目標(biāo)客戶的郵政地址發(fā)送定制信件的活動(dòng),這可能不可行。在這種情況下,數(shù)據(jù)協(xié)調(diào)檢查是首選解決方案。數(shù)據(jù)協(xié)調(diào)是描述數(shù)據(jù)傳輸期間驗(yàn)證階段的術(shù)語(yǔ),其中將目標(biāo)數(shù)據(jù)與原始源數(shù)據(jù)進(jìn)行比較,以確保數(shù)據(jù)已正確傳輸。
我并不是說(shuō)要提出任何新的建議——對(duì)賬控制已經(jīng)存在了幾十年。我的意思是,應(yīng)該將特定的數(shù)據(jù)標(biāo)準(zhǔn)嵌入到變更方法中,該方法要求實(shí)施控制以確保關(guān)鍵數(shù)據(jù)與源同步,以便在處于設(shè)計(jì)階段時(shí)自動(dòng)且強(qiáng)制地考慮這一點(diǎn)將創(chuàng)建或更改數(shù)據(jù)流的任何類型的轉(zhuǎn)換。確保將其直接嵌入到數(shù)據(jù)流中,而不是痛苦地創(chuàng)建全新的腳本來(lái)提取數(shù)據(jù)并將其與原始源數(shù)據(jù)進(jìn)行比較。
很久以前,我負(fù)責(zé)一家銀行抵押貸款信用風(fēng)險(xiǎn)模型的回測(cè)過(guò)程。我的一個(gè)腳本每月運(yùn)行一次,以檢查信用風(fēng)險(xiǎn)模型的性能。這是一個(gè)復(fù)雜的腳本——要收集所有客戶及其金融產(chǎn)品的數(shù)據(jù),以及長(zhǎng)達(dá) 48 個(gè)月的交易數(shù)據(jù),超過(guò) 2500 行代碼用于連接到源系統(tǒng),將交易映射到產(chǎn)品,將產(chǎn)品映射到客戶,并構(gòu)建各種統(tǒng)計(jì)模型來(lái)計(jì)算違約概率、違約風(fēng)險(xiǎn)和違約損失。當(dāng)腳本啟動(dòng)時(shí),需要一個(gè)小時(shí)才能完成(當(dāng)時(shí)還沒(méi)有進(jìn)入可擴(kuò)展的云處理時(shí)代),因此在此過(guò)程中停下來(lái)檢查中間結(jié)果并不容易。
我內(nèi)置了各種類型的對(duì)帳檢查,如果出現(xiàn)問(wèn)題,它們會(huì)向我發(fā)出警報(bào)。例如,在代碼中的不同點(diǎn),我會(huì)添加一行代碼來(lái)計(jì)算給定子集的客戶或交易數(shù)量,并將其直接與相同的總和進(jìn)行比較,通過(guò)不同的邏輯,我可以直接從源數(shù)據(jù)重新計(jì)算。大多數(shù)情況下,警報(bào)不會(huì)響起。但有一天,盡管腳本的執(zhí)行看似沒(méi)有錯(cuò)誤,但對(duì)賬檢查顯示有幾條記錄存在差異。隨后的分析表明,一些新客戶端的記錄在傳輸中被丟棄,因?yàn)槲艺谑褂玫奶幚硪鏌o(wú)法讀取某些“非法”字符,因此丟棄了這些記錄。在這種情況下,一些自定義代碼解決了該問(wèn)題,但更可持續(xù),從源頭開(kāi)始,數(shù)據(jù)質(zhì)量控制將確保這些非法字符不會(huì)再次出現(xiàn)在新客戶端中。
小結(jié)
上述兩種方法都可以得出結(jié)論:數(shù)據(jù)確實(shí)得到了適當(dāng)?shù)墓芾恚挥性搭^治理、過(guò)程治理的方法具有可擴(kuò)展性、成本效益和創(chuàng)造價(jià)值。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)