? ? ? ?導(dǎo)讀:本文將分享MobTech在數(shù)據(jù)治理、數(shù)據(jù)安全領(lǐng)域的一些實踐,主要包括以下幾部分內(nèi)容:
數(shù)據(jù)治理與安全概述——主要介紹數(shù)據(jù)治理的必要性及好處,企業(yè)為什么要做數(shù)據(jù)治理及從哪些維度做數(shù)據(jù)治理;
金融行業(yè)現(xiàn)狀與背景——以MobTech公司金融板塊數(shù)據(jù)為案例,介紹金融行業(yè)的數(shù)據(jù)特點及數(shù)據(jù)治理的嚴(yán)格性及必要性;
數(shù)據(jù)治理一體化架構(gòu)——分享MobTech數(shù)據(jù)治理一體化架構(gòu)的迭代和成型過程;
數(shù)據(jù)治理一體化建設(shè)——詳細(xì)介紹MobTech在數(shù)據(jù)治理方面的一些經(jīng)驗。
? ? ? ?01數(shù)據(jù)治理與安全概述
? ? ? ?數(shù)據(jù)治理是一整套的方法論,成熟的數(shù)據(jù)治理應(yīng)該是一個體系化、模塊化、工程化的工作,具有一套嚴(yán)謹(jǐn)科學(xué)的方法論。數(shù)據(jù)治理是一個很大的范疇,元數(shù)據(jù)、數(shù)據(jù)與安全、數(shù)據(jù)脫敏等方向都有很大的建設(shè)空間。
? ? ? ?1. 數(shù)據(jù)治理定義

? ? ? ?① 什么是數(shù)據(jù)治理
? ? ? ?類似“有江湖的地方就有是非”,同樣,有數(shù)據(jù)的地方就需要數(shù)據(jù)治理。數(shù)據(jù)治理就是對一個機構(gòu)(企業(yè)或政府部門)的數(shù)據(jù),從收集融合到分析管理、評估、指導(dǎo)和監(jiān)督(EDM)的過程,通過提供不斷創(chuàng)新的數(shù)據(jù)服務(wù),為企業(yè)創(chuàng)造價值。
? ? ? ?② 企業(yè)數(shù)據(jù)治理的現(xiàn)狀
? ? ? ?對于很多大數(shù)據(jù)公司而言,面對海量的數(shù)據(jù)、不同的數(shù)據(jù)源、不同的使用人員、不同的業(yè)務(wù)分析需求、不同的應(yīng)用方式,如果數(shù)據(jù)規(guī)劃管理不當(dāng),就很容易出現(xiàn)如下4個問題:
? ? ? ?系統(tǒng)林立,數(shù)據(jù)孤島:很多企業(yè)包括很多大的銀聯(lián)集團,它們有很多部門或很多子公司,需要考慮數(shù)據(jù)如何融合打通?如果數(shù)據(jù)只是各自使用各的,打通不了,就會造成對數(shù)據(jù)挖掘深度不夠、也無法規(guī)劃如何使用,這樣就形成了數(shù)據(jù)孤島。
? ? ? ?數(shù)據(jù)冗余,缺乏規(guī)劃:如果數(shù)據(jù)不做統(tǒng)一的管理規(guī)劃,隨著數(shù)據(jù)規(guī)模越來越大,就會造成數(shù)據(jù)存儲混亂。比如因建模不合理、每次使用數(shù)據(jù)都是單次結(jié)果導(dǎo)向型,沒有統(tǒng)一數(shù)據(jù)規(guī)劃,就會造成大量的數(shù)據(jù)存儲浪費和管理混亂。尤其對于頭部互聯(lián)網(wǎng)公司或者專門的數(shù)據(jù)公司來說,每年可能付出超過上千萬的數(shù)據(jù)運維成本。
? ? ? ?需求繁雜,管理不力:如果對數(shù)據(jù)使用的需求不明確、不統(tǒng)一,就會造成大量的二次開發(fā)浪費、數(shù)據(jù)重復(fù)利用率低。
質(zhì)量低下,價值難現(xiàn):在數(shù)據(jù)治理前,存在的最直觀的問題就是數(shù)據(jù)質(zhì)量低下、數(shù)據(jù)價值難以體現(xiàn)出來。如果企業(yè)數(shù)據(jù)質(zhì)量低下,就會造成企業(yè)對數(shù)據(jù)的挖掘深度不夠,數(shù)據(jù)的實際價值無法展示出來。
? ? ? ?2. 數(shù)據(jù)治理意義

? ? ? ?既然數(shù)據(jù)存在很多問題,企業(yè)要投入人力成本或者花費很大的精力去做數(shù)據(jù)治理,那么數(shù)據(jù)治理的好處有哪些呢?主要有以下幾方面:
? ? ? ?降低企業(yè)成本
? ? ? ?首先最直觀的好處就是對企業(yè)來說數(shù)據(jù)治理能降低企業(yè)成本。尤其對于數(shù)據(jù)規(guī)模大的公司,比如像我們MobTech袤博公司每年生產(chǎn)上百PB以上的數(shù)據(jù)規(guī)模,如果不做數(shù)據(jù)治理,可能每年就有30%數(shù)據(jù)存儲的冗余空間,每年數(shù)據(jù)運維都可能是上百萬、上千萬的運維成本。開展數(shù)據(jù)治理可有效降低數(shù)據(jù)存儲規(guī)模,優(yōu)化計算使用資源,能夠有效節(jié)省很多服務(wù)器,實現(xiàn)服務(wù)器資源復(fù)用。
? ? ? ?加強數(shù)據(jù)安全
? ? ? ?完整的數(shù)據(jù)治理體系,可有效加強數(shù)據(jù)安全。當(dāng)前,對于很多公司來說,數(shù)據(jù)就是公司資產(chǎn),數(shù)據(jù)安全是非常重要的。國家對于數(shù)據(jù)的管控也越來越嚴(yán)格,如歐盟2018年5月25日出臺的GDPR(《General Data Protection Regulation》通用數(shù)據(jù)保護條例)、中國2021年9月1日起施行的《中華人民共和國數(shù)據(jù)安全法》等,公司要確保數(shù)據(jù)安全不泄露,就需要完整體系化的開展數(shù)據(jù)治理工作,做到數(shù)據(jù)合規(guī)、敏感數(shù)據(jù)脫敏處理、數(shù)據(jù)交互安全管控等,保障數(shù)據(jù)安全。
? ? ? ?保障數(shù)據(jù)質(zhì)量
? ? ? ?數(shù)據(jù)治理,可有效保障數(shù)據(jù)的質(zhì)量。對于企業(yè)尤其是像MobTech袤博等一些數(shù)據(jù)公司來說,提供給客戶的很多數(shù)據(jù)都要求毫秒級的延遲,要保證給客戶交付數(shù)據(jù)的及時性,T+1的數(shù)據(jù)及時生成實時數(shù)據(jù),在數(shù)據(jù)準(zhǔn)確性、一致性保證下數(shù)據(jù)及時產(chǎn)出,這都需要在保證數(shù)據(jù)質(zhì)量的前提下才能做到,這需要一個體系化的數(shù)據(jù)治理工程體系建設(shè)。
? ? ? ?提升數(shù)據(jù)價值
? ? ? ?可以通過合理的數(shù)據(jù)建模、合理的數(shù)據(jù)清洗規(guī)則、挖掘算法等提高企業(yè)的數(shù)據(jù)價值。
? ? ? ?3. 數(shù)據(jù)治理鏈路

? ? ? ?數(shù)據(jù)治理有那么多好處,那么需要從數(shù)據(jù)哪些環(huán)節(jié)、哪些方面開展數(shù)據(jù)治理工作呢?
? ? ? ?數(shù)據(jù)治理是一個全鏈路的過程,從數(shù)據(jù)的生成到最終數(shù)據(jù)的消亡,或者是永久的保存,都需要進行數(shù)據(jù)治理。一般主流公司數(shù)據(jù)流向是從數(shù)據(jù)采集開始,經(jīng)過數(shù)據(jù)存儲、數(shù)據(jù)分析到數(shù)據(jù)輸出。數(shù)據(jù)治理則面向數(shù)據(jù)流向各環(huán)節(jié)展開,其中,
? ? ? ?數(shù)據(jù)采集時確保數(shù)據(jù)是否符合標(biāo)準(zhǔn)規(guī)范、脫敏是否合規(guī);
? ? ? ?數(shù)據(jù)存儲時如何保證數(shù)據(jù)安全穩(wěn)定的存儲,或保證數(shù)據(jù)的及時性、完整性;
? ? ? ?數(shù)據(jù)分析時,數(shù)據(jù)分析模型是否精準(zhǔn)、算力是否合理;
? ? ? ?數(shù)據(jù)輸出給用戶或者自己使用時,如何做好數(shù)據(jù)的權(quán)限管控、風(fēng)險評估。
? ? ? ?因此,整個數(shù)據(jù)治理可以從數(shù)據(jù)的全鏈路、全生命周期去考慮,任何一個模塊都可以做一個精細(xì)化的管理,更要結(jié)合公司實際業(yè)務(wù)需求,站在公司實際業(yè)務(wù)應(yīng)用場景來談數(shù)據(jù)治理。
? ? ? ?4. 數(shù)據(jù)治理范疇

? ? ? ?數(shù)據(jù)治理既然是一個全鏈路的,那么可以抽象成哪些模塊去做數(shù)據(jù)治理呢?,這里認(rèn)為可以抽象出四大模塊:
? ? ? ?一是數(shù)據(jù)安全
? ? ? ?數(shù)據(jù)安全是最基本、且貫穿數(shù)據(jù)全生命周期的。它包括容災(zāi)、數(shù)據(jù)加密、隱私數(shù)據(jù)脫敏、完整健全的數(shù)據(jù)審核或?qū)徲嬛贫取?shù)據(jù)分級管理等。這樣,可通過數(shù)據(jù)容災(zāi)做異地機房的災(zāi)備,保證數(shù)據(jù)物理層面的安全;數(shù)據(jù)采集在網(wǎng)絡(luò)傳輸中是否采用加密方式;隱私數(shù)據(jù)是否采用脫敏化、模糊化處理;數(shù)據(jù)使用是否建立健全完整的數(shù)據(jù)審核或?qū)徲嫷闹贫龋粩?shù)據(jù)是否有分級管理,尤其公司上百PB乃至上千PB的數(shù)據(jù),因成本負(fù)擔(dān)無法做到所有數(shù)據(jù)的統(tǒng)一監(jiān)控,就可以把數(shù)據(jù)分級處理,隱私數(shù)據(jù)或重要數(shù)據(jù)分級,明確哪些人可以使用,哪些數(shù)據(jù)需要監(jiān)控等等。數(shù)據(jù)安全也可以以模塊化方式去做安全監(jiān)控管理。
? ? ? ?二是數(shù)據(jù)規(guī)范
? ? ? ?從數(shù)據(jù)采集、數(shù)據(jù)標(biāo)準(zhǔn)、模型建設(shè)、數(shù)據(jù)開發(fā)、數(shù)據(jù)應(yīng)用、指標(biāo)體系等方面建立健全完整的數(shù)據(jù)規(guī)范。如:數(shù)據(jù)采集是否有采集規(guī)范、是否符合國家法律法規(guī);數(shù)據(jù)傳輸、使用是否符合數(shù)據(jù)安全;數(shù)據(jù)標(biāo)準(zhǔn)方面,是否可能涉及數(shù)倉的重復(fù)建設(shè)?在數(shù)據(jù)多、數(shù)據(jù)源混亂、業(yè)務(wù)場景復(fù)雜情況下,數(shù)據(jù)如何建設(shè)等。比如:保證數(shù)據(jù)一致性,是通過SEX,還Male、Female,這些是需要統(tǒng)一一個字段去定義、去約束;模型建設(shè)方面,統(tǒng)一標(biāo)準(zhǔn)開展模型建設(shè),后期維護也方便;數(shù)據(jù)開發(fā)規(guī)范方面,包括簡單的注釋、開發(fā)流程、如何上線等;數(shù)據(jù)應(yīng)用方面,可能存在公司擁有海量數(shù)據(jù)存儲或計算時數(shù)據(jù)應(yīng)用規(guī)范可能更明確,數(shù)據(jù)量少的公司可能沒有嚴(yán)格的數(shù)據(jù)應(yīng)用規(guī)范的情況。但對于數(shù)據(jù)應(yīng)用方式不同,如是多維應(yīng)用、還是自己使用,是給客戶使用、還是通過導(dǎo)入第三方共同使用(如聯(lián)邦建模的方式),可通過不同的應(yīng)用體系做不同的應(yīng)用規(guī)范建設(shè)。
? ? ? ?三是資產(chǎn)管理
? ? ? ?大數(shù)據(jù)本質(zhì)解決兩個問題,一個是海量數(shù)據(jù)存儲,一個是海量數(shù)據(jù)的計算。所有數(shù)據(jù)標(biāo)準(zhǔn)、安全等數(shù)據(jù)治理都是圍繞這兩個方面展開的。既然數(shù)據(jù)是企業(yè)的資產(chǎn),那就需要有資產(chǎn)管理,包括元數(shù)據(jù)管理、血緣圖譜分析、生命周期管理/數(shù)據(jù)版本管理、資產(chǎn)統(tǒng)計、成本核算、應(yīng)用/權(quán)限管理。其中,元數(shù)據(jù)管理,通過分析算力元數(shù)據(jù)、分析任務(wù)資質(zhì)信息,可以做最基本的數(shù)據(jù)存儲治理、庫表治理;通過血緣,可以做血緣圖譜分析、任務(wù)鏈路的分析、數(shù)據(jù)流轉(zhuǎn)分析、數(shù)據(jù)的調(diào)用分析等;生命周全管理,如數(shù)據(jù)超過生命周期,如何做到數(shù)據(jù)自動化廢棄以減少人工篩檢刪除,對于數(shù)據(jù)規(guī)模非常大的公司來說,自動化手段能節(jié)省很多人力;資產(chǎn)統(tǒng)計,包括哪些人在使用哪些數(shù)據(jù)的統(tǒng)計、不同子公司不同部門甚至每個人對數(shù)據(jù)的使用情況統(tǒng)計、每個子公司數(shù)據(jù)資產(chǎn)的情況統(tǒng)計、每天數(shù)據(jù)增長規(guī)模統(tǒng)計等;成本核算管理,對于很多公司數(shù)據(jù)使用、存儲、計算都是核算成本的;應(yīng)用權(quán)限管理,對數(shù)據(jù)應(yīng)用、使用權(quán)限的管理。
? ? ? ?四是數(shù)據(jù)質(zhì)量
? ? ? ?相對比較成熟,如配置監(jiān)控報警等。MobTech公司數(shù)據(jù)質(zhì)量目前還處于不斷迭代的過程,在數(shù)據(jù)質(zhì)量監(jiān)控、性能優(yōu)化、數(shù)據(jù)熔斷機制等方面做的還不錯。
? ? ? ?02金融行業(yè)現(xiàn)狀與背景
? ? ? ?結(jié)合MobTech公司在金融行業(yè)的情況,分享一下金融行業(yè)數(shù)據(jù)治理的需求。雖然數(shù)據(jù)治理是一個通用的框架,各個公司都可以遵循,但仍需要結(jié)合行業(yè)對數(shù)據(jù)的要求,及應(yīng)用場景等特點來開展數(shù)據(jù)治理工作。
? ? ? ?1. MobTech的數(shù)據(jù)規(guī)模

? ? ? ?當(dāng)數(shù)據(jù)達到一定的規(guī)模,會有越來越多的數(shù)據(jù)治理的需求,如阿里巴巴、騰訊等數(shù)據(jù)量特別大的互聯(lián)網(wǎng)公司,需要數(shù)據(jù)治理的范疇更大、細(xì)節(jié)也更多,這樣數(shù)據(jù)治理帶來的成本節(jié)省也會越來越大,數(shù)據(jù)管理也會越來越精細(xì)化。如果數(shù)據(jù)體量不大,可能不需要復(fù)雜的數(shù)據(jù)治理。數(shù)據(jù)治理要根據(jù)公司的整體情況,選擇一些數(shù)據(jù)治理框架,而不是照搬阿里、騰訊這些大公司完整的數(shù)據(jù)治理體系架構(gòu),否則得不償失。
? ? ? ?目前,MobTech公司DAU日活大概在3億左右,MAU月活在15億+,興趣標(biāo)簽體系在6000+,整體數(shù)據(jù)體量在上百PB,整體數(shù)據(jù)規(guī)模在數(shù)據(jù)公司中還是比較大的,數(shù)據(jù)治理需求比較迫切,數(shù)據(jù)治理整體功能隨著公司業(yè)務(wù)發(fā)展還在不斷完善。
? ? ? ?2. MobTech數(shù)據(jù)應(yīng)用場景

? ? ? ?MobTech公司一共四大商業(yè)板塊,這里主要以金融板塊為例展開介紹。
? ? ? ?3. MobTech在金融風(fēng)控領(lǐng)域

? ? ? ?MobTech公司在金融領(lǐng)域布局主要涉及金融風(fēng)控。針對金融風(fēng)控領(lǐng)域,公司數(shù)據(jù)產(chǎn)品主要有特征、自有評分、融合評分三種形態(tài)。公司有兩大平臺,一個是智熵SAAS平臺,一個是智熵PAAS平臺。在金融風(fēng)控方面,主要做風(fēng)控前置、貸前風(fēng)控和貸中風(fēng)控,對數(shù)據(jù)的及時性、準(zhǔn)確性要求相對比較高。
? ? ? ?比如以智熵SAAS平臺為例,客戶通過智熵SAAS平臺調(diào)用HBase的實時接口完成用戶畫像的匹配,HBase中存放了客戶萬億規(guī)模的QA,每天的新增數(shù)據(jù)100T左右,客戶可以通過實時調(diào)用查詢每個用戶的風(fēng)控情況,做貸前風(fēng)控評估,為信貸公司、商貸公司、中小銀行提供數(shù)據(jù),數(shù)據(jù)查詢后,通過實時加密傳輸,實時判斷用戶的風(fēng)險情況。智熵PAAS平臺是客戶可以實時導(dǎo)入自己數(shù)據(jù)到畫像平臺,加上客戶自定義配置,選定條件,可以進行多維的過濾和篩選,實現(xiàn)客群的定制。
? ? ? ?風(fēng)險評估融合分

? ? ? ?以貸前風(fēng)控中風(fēng)險評估融合分為例,介紹風(fēng)險評估是如何開展的。金融客戶通過用戶的Phone或身份證實時調(diào)用MobTech公司提供的數(shù)據(jù),MobTech公司提供用戶貸前評分、貸前風(fēng)控管理等數(shù)據(jù)去判斷該用戶是否適合貸款,屬于什么樣的風(fēng)險狀態(tài)。金融公司通過MobTech公司提供的風(fēng)控數(shù)據(jù),對用戶進行風(fēng)險評估,包括利率的評估、貸款是否通過等。因此,對數(shù)據(jù)準(zhǔn)確性、及時性要求非常高,數(shù)據(jù)應(yīng)用基本都是毫秒級應(yīng)用,要求公司HBase的數(shù)據(jù)要保證及時性、完整性、準(zhǔn)確性、一致性。
? ? ? ?4. 金融風(fēng)控領(lǐng)域數(shù)據(jù)要求

? ? ? ?金融行業(yè)對數(shù)據(jù)要求的特點可總結(jié)為以下幾方面:
? ? ? ?嚴(yán)苛的數(shù)據(jù)合規(guī)性,不管數(shù)據(jù)是采集、使用還是三方合作,數(shù)據(jù)都必須合規(guī)。
? ? ? ?極端的數(shù)據(jù)及時性,金融風(fēng)險評估這塊要求數(shù)據(jù)必須及時返回、可用。
? ? ? ?回溯數(shù)據(jù)的一致性,金融風(fēng)控通常會通過用戶歷史行為數(shù)據(jù)去分析觀察用戶未來的需求,因此會有回溯場景數(shù)據(jù)應(yīng)用。通過用戶加密的Phone為主鍵的標(biāo)簽數(shù)據(jù),回溯該設(shè)備3年內(nèi)任意時刻當(dāng)時的用戶行為與風(fēng)險的關(guān)系,通常會要求回溯過去時間的數(shù)據(jù),回溯數(shù)據(jù)一定要確保一致,不能出現(xiàn)數(shù)據(jù)錯亂的情況。
? ? ? ?基礎(chǔ)數(shù)據(jù)的準(zhǔn)確性,金融風(fēng)控數(shù)據(jù)不能出現(xiàn)很大的數(shù)據(jù)偏差或容錯,如判斷一個用戶的風(fēng)險情況,一定要在銀行或金融公司要求的數(shù)據(jù)準(zhǔn)確性范圍之內(nèi),不能出現(xiàn)高風(fēng)險的用戶判定為低風(fēng)險用戶的情況,否則會造成銀行經(jīng)濟損失。
? ? ? ?03數(shù)據(jù)治理一體化架構(gòu)
? ? ? ?下面分享一下MobTech公司數(shù)據(jù)治理一體化架構(gòu),從數(shù)據(jù)全鏈路做了數(shù)據(jù)治理,建立了一整套數(shù)據(jù)應(yīng)用模型和應(yīng)用架構(gòu)。
? ? ? ?1. MobTech數(shù)據(jù)管理架構(gòu)的演變與完善

? ? ? ?初期MobTech公司數(shù)據(jù)沉淀不多、以結(jié)果為導(dǎo)向、技術(shù)開發(fā)實力也相對薄弱,當(dāng)時的數(shù)據(jù)治理或數(shù)倉建設(shè)也是屬于粗放型的,使用開源的組件、配合很多人工化治理。
? ? ? ?隨著公司業(yè)務(wù)不斷發(fā)展,數(shù)據(jù)沉淀越來越多,數(shù)據(jù)使用場景越來越復(fù)雜,數(shù)據(jù)調(diào)用越來越多,公司進入快速迭代期,自有資產(chǎn)管理平臺上線,包括血緣分析、鏈路分析等;由于嚴(yán)苛的數(shù)據(jù)要求,公司還上線了QC數(shù)據(jù)質(zhì)量平臺,開展數(shù)據(jù)質(zhì)量監(jiān)控,還有任務(wù)監(jiān)控管理平臺等。
? ? ? ?截止到當(dāng)前,公司數(shù)據(jù)治理一體化架構(gòu)已經(jīng)上線了5大系統(tǒng),包括安全管理、資產(chǎn)管理、數(shù)據(jù)質(zhì)量、模型管理、任務(wù)監(jiān)控,確保數(shù)據(jù)的SLA。
? ? ? ?2. MobTech數(shù)據(jù)治理一體化架構(gòu)

? ? ? ?MobTech數(shù)據(jù)治理一體化架構(gòu)包含5大系統(tǒng),資產(chǎn)、模型、質(zhì)量、調(diào)度監(jiān)控、安全。生命周期和安全管理是數(shù)據(jù)從采集到消亡或永久保存的全鏈路都要參與的。生命周期的模塊,如生命周期配置、生命周期管理、數(shù)據(jù)歸檔等是放在數(shù)據(jù)資產(chǎn)管理系統(tǒng)的。
? ? ? ?04數(shù)據(jù)治理一體化建設(shè)
? ? ? ?下面分享一下數(shù)據(jù)治理一體化在MobTech的實踐。
? ? ? ?1. MobTech數(shù)據(jù)安全管理系統(tǒng)

? ? ? ?數(shù)據(jù)安全管理貫穿數(shù)據(jù)采集、存儲、分析到數(shù)據(jù)應(yīng)用的全鏈路。MobTech作為數(shù)據(jù)科技公司,對數(shù)據(jù)的安全把控更加嚴(yán)格,其安全管理系統(tǒng)從安全審批、權(quán)限管理、數(shù)據(jù)監(jiān)控、安全傳輸、去隱私化、數(shù)據(jù)脫敏6大維度保證數(shù)據(jù)的安全。其中,
? ? ? ?數(shù)據(jù)脫敏,從數(shù)據(jù)收集開始,從數(shù)據(jù)源頭避免數(shù)據(jù)泄露。
? ? ? ?去隱私化,隱私數(shù)據(jù)要模糊化處理,脫敏處理等。
? ? ? ?安全傳輸,數(shù)據(jù)在內(nèi)部或外部傳輸過程中,都要通過加密傳輸,做好網(wǎng)絡(luò)安全管控。
? ? ? ?數(shù)據(jù)監(jiān)控,采用數(shù)據(jù)分級,結(jié)合數(shù)據(jù)實際等級,對數(shù)據(jù)建立不同的監(jiān)控規(guī)則,包括脫敏數(shù)據(jù)監(jiān)控、異常行為監(jiān)控、數(shù)據(jù)全鏈路監(jiān)控等。
? ? ? ?權(quán)限管理,根據(jù)數(shù)據(jù)分級制度,形成用戶對數(shù)據(jù)存儲和權(quán)限隔離機制。
? ? ? ?安全審批,根據(jù)數(shù)據(jù)分級,建立一套完整的數(shù)據(jù)安全審批制度。對于一級核心數(shù)據(jù),可能要到部門領(lǐng)導(dǎo)或大數(shù)據(jù)總監(jiān)級別審批;普通數(shù)據(jù)到數(shù)據(jù)管理人員或部門經(jīng)理審批。數(shù)據(jù)使用審批必須做匯總統(tǒng)計、監(jiān)控。核心數(shù)據(jù)導(dǎo)入、導(dǎo)出采用什么格式存放都有明確的制度。

? ? ? ?基于國家刑法、數(shù)據(jù)安全法等實施,為公司數(shù)據(jù)安全提供了被動防御機制,約束相關(guān)數(shù)據(jù)管理人員泄露數(shù)據(jù)行為。
? ? ? ?2. MobTech數(shù)據(jù)模型管理系統(tǒng)

? ? ? ?數(shù)據(jù)模型管理系統(tǒng)是從數(shù)據(jù)建設(shè)方面考慮,包括模型創(chuàng)建、模型校驗、模型審核、模型維護。
? ? ? ?模型創(chuàng)建,包括模型需求管理規(guī)范,包括業(yè)務(wù)需求提出按什么格式、需求如何提交開發(fā);模型設(shè)計,開發(fā)如何開展模型設(shè)計,使用什么方式數(shù)倉建模(三范式、維度建模或Inmon建模等);模型開發(fā),采用什么標(biāo)準(zhǔn)模型開發(fā),如何保證字段一致性,確保一致性的專用詞庫等。
? ? ? ?模型校驗,建立模型校驗系統(tǒng),模型開發(fā)完后,將模型輸入到校驗系統(tǒng),基于匹配好的規(guī)則對模型進行打分,如模型設(shè)計是否合理,模型存儲格式是否正確,模型字段、表命名規(guī)則是否合理,是否體現(xiàn)出分層等,幫助用戶做模型校驗。
? ? ? ?模型審核,模型校驗合格后,模型代碼上線,需要負(fù)責(zé)人review才能審批上線發(fā)布。
? ? ? ?模型維護,模型迭代更新、迭代更新版本控制、更新描述記錄等。
? ? ? ?3. MobTech數(shù)據(jù)資產(chǎn)管理系統(tǒng)

? ? ? ?數(shù)據(jù)資產(chǎn)管理系統(tǒng)包含資產(chǎn)全景、血緣鏈路、元數(shù)據(jù)、資產(chǎn)管理四大模塊。
? ? ? ?血緣鏈路,MobTech公司采用自研模式,血緣hive基于Hook、Spark link等在源碼上做了很多改動,去實現(xiàn)血緣的收集。基于血緣,提供血緣分析追蹤、鏈路分析展示、血緣分析管理。如通過血緣分析追蹤可查看數(shù)據(jù)的實際瀏覽情況、數(shù)據(jù)調(diào)用情況、表流轉(zhuǎn)/引用/調(diào)用情況等;鏈路分析展示,上游變更如何快速通知下游、QC數(shù)據(jù)熔斷等。
? ? ? ?元數(shù)據(jù),包括表元數(shù)據(jù)和集群元數(shù)據(jù)。元數(shù)據(jù)統(tǒng)計、分析可以為數(shù)據(jù)存儲治理、圖表判斷、表寫入時間、有無調(diào)用、數(shù)據(jù)生命周期設(shè)置是否合理等提供依據(jù)。
? ? ? ?資產(chǎn)管理,主要是資產(chǎn)管理注冊。數(shù)據(jù)資產(chǎn)有很多公司或部門使用,可獨立管理自己的數(shù)據(jù)資產(chǎn),管理員也可以統(tǒng)一管理公司的數(shù)據(jù)資產(chǎn)。同時還提供敏感數(shù)據(jù)監(jiān)控,對數(shù)據(jù)資產(chǎn)進行掃描,確定是否有敏感字段,對敏感數(shù)據(jù)進行標(biāo)記,提醒數(shù)據(jù)管理者進行處理。
? ? ? ?資產(chǎn)全景,主要包括資產(chǎn)分布統(tǒng)計、成本核算、資產(chǎn)評分。如各子公司、部門使用數(shù)據(jù)資產(chǎn)的情況,數(shù)據(jù)治理投入產(chǎn)出比,對數(shù)據(jù)模型算法做了評分管理確定哪些模型實際應(yīng)用價值、使用率最高等。
? ? ? ?4. MobTech調(diào)控監(jiān)控告警管理系統(tǒng)

? ? ? ?MobTech公司調(diào)度監(jiān)控告警管理是基于Apache DolphinScheduler開發(fā),在此基礎(chǔ)上做了很多改動,新增了許多功能。包括任務(wù)調(diào)度、監(jiān)控告警、任務(wù)治理等。公司重點突出的是任務(wù)治理,通過任務(wù)日志分析,如長尾任務(wù)判斷參數(shù)設(shè)置是否合理、簡單的hive任務(wù)通過分析map執(zhí)行情況判斷是否有任務(wù)長尾現(xiàn)象,或數(shù)據(jù)量是否合理,或程序并行度是否不夠等,最終實現(xiàn)對任務(wù)的打分,最終將分析結(jié)果反饋給用戶,提供任務(wù)推薦優(yōu)化。并提供任務(wù)治理管理,對任務(wù)跟蹤、同比環(huán)比分析、任務(wù)執(zhí)行慢的原因分析等。
? ? ? ?5. MobTech數(shù)據(jù)質(zhì)量監(jiān)控系統(tǒng)

? ? ? ?QC數(shù)據(jù)質(zhì)量監(jiān)控系統(tǒng)是MobTech公司重點應(yīng)用系統(tǒng),主要包括規(guī)則管理、監(jiān)控配置、監(jiān)控管理、全景報表4大模塊。MobTech公司認(rèn)為在QC方面做的比較好的是熔斷機制方面,基于告警,對下游任務(wù)進行自動熔斷,以減少資源浪費。同時,對于重點任務(wù)則電話告警通知管理員,一般任務(wù)通過郵件或其他通訊方式告警通知管理員。比如,一個任務(wù),下游有30個依賴任務(wù),如果數(shù)據(jù)指標(biāo)明顯偏離,出現(xiàn)告警,則將下游任務(wù)熔斷。數(shù)據(jù)熔斷需要考慮下游數(shù)據(jù)及時性的問題,MobTech公司策略是核心任務(wù)配置數(shù)據(jù)熔斷,也要預(yù)留一定的時間,同時提供緊急調(diào)用資源,保證核心任務(wù)的運行。全景報表,對監(jiān)控效果、監(jiān)控數(shù)據(jù)使用情況提供報表展示。
? ? ? ?05精彩問答
? ? ? ?Q:金融場景的數(shù)據(jù)架構(gòu)和數(shù)據(jù)更新機制?
? ? ? ?A:一般金融場景的數(shù)據(jù)都放在HBase、ClinkHouse,實時更新數(shù)據(jù)通過Flink將加工完后的數(shù)據(jù)實時導(dǎo)入HBase供客戶調(diào)用;離線數(shù)據(jù)采用T+1方式,加工完后導(dǎo)入到HBase或ClinkHouse給客戶使用。數(shù)據(jù)更新機制是需要結(jié)合實際的場景來描述。
? ? ? ?Q:MobTech處理的日數(shù)據(jù)量有多大規(guī)模?遇到過哪些比較麻煩的問題?
? ? ? ?A:查看上文“02 金融行業(yè)現(xiàn)狀與背景 - 1. MobTech的數(shù)據(jù)規(guī)模”部分,有相關(guān)介紹。遇到的問題通常包含:數(shù)據(jù)體量比較大,在集群資源比較緊張的時候,需要考慮如何保證數(shù)據(jù)的及時性、準(zhǔn)確性。MobTech公司處理的數(shù)據(jù)通常會有很多大標(biāo)簽,以金融場景為例,數(shù)據(jù)包含很多回溯標(biāo)簽,單張表的數(shù)據(jù)規(guī)模都會在1PB以上,一旦數(shù)據(jù)出現(xiàn)傾斜,在資源不足情況下,如何保障數(shù)據(jù)及時性處理;另外,數(shù)據(jù)QC方面,在數(shù)據(jù)做熔斷之后,如何保證數(shù)據(jù)及時性產(chǎn)出且不影響業(yè)務(wù)使用;這些MobTech公司還在不斷探討、完善。
? ? ? ?Q:金融場景的數(shù)據(jù)處理有哪些特殊的地方?
? ? ? ?A:金融場景下對數(shù)據(jù)要求的嚴(yán)苛性方面,如數(shù)據(jù)合規(guī)、數(shù)據(jù)準(zhǔn)確性要更加嚴(yán)格一些。
? ? ? ?Q:針對新的“數(shù)據(jù)安全法”出臺,MobTech公司內(nèi)部數(shù)據(jù)資產(chǎn)管理有無新的方案來加強數(shù)據(jù)資產(chǎn)保護?
? ? ? ?A:MobTech公司建設(shè)了完整的“數(shù)據(jù)安全管理系統(tǒng)”,該系統(tǒng)從數(shù)據(jù)采集到數(shù)據(jù)最終應(yīng)用來保障數(shù)據(jù)安全。系統(tǒng)還在不斷完善迭代,包括敏感數(shù)據(jù)的監(jiān)控、數(shù)據(jù)全鏈路的分級監(jiān)控等能力;另外,MobTech公司作為數(shù)據(jù)公司在建立健全數(shù)據(jù)的安全審批、安全管理制度。
? ? ? ?Q:發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,但沒有準(zhǔn)確的對標(biāo)系統(tǒng),有沒有遇到類似問題,又是怎么解決的?
? ? ? ?A:也許是數(shù)據(jù)標(biāo)準(zhǔn)出了問題。以用戶畫像標(biāo)簽為例,我們做了用戶畫像的模型,比如某個人是不是喜歡喝啤酒,或者是不是喜歡踢足球,模型做出來很簡單。但判斷該模型是否精準(zhǔn),有很多專門的算法或通過金融數(shù)據(jù)、營銷數(shù)據(jù)等反哺模型,校驗標(biāo)間準(zhǔn)不準(zhǔn)確,逐步迭代完善模型。
? ? ? ?Q:數(shù)據(jù)分類能全部用自動化工具實現(xiàn)嗎?
? ? ? ?A:如果數(shù)據(jù)源穩(wěn)定,先人為數(shù)據(jù)篩選,定好大的框架后,在后續(xù)更新完全可以做到工具化分類、篩檢。如果數(shù)據(jù)源不穩(wěn)定,則做不到完全自動化。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)