與傳統(tǒng)的數(shù)據(jù)架構(gòu)要求整合、面向主題、固定分層等特點(diǎn)不同,數(shù)據(jù)湖為企業(yè)全員獨(dú)立參與數(shù)據(jù)運(yùn)營(yíng)和應(yīng)用創(chuàng)新提供了極大的靈活性,并可優(yōu)先確保數(shù)據(jù)的低時(shí)延、高質(zhì)量和高可用,給運(yùn)營(yíng)商數(shù)據(jù)架構(gòu)優(yōu)化提供了很好的參考思路。
01運(yùn)營(yíng)商數(shù)據(jù)架構(gòu)的現(xiàn)狀及挑戰(zhàn)
從數(shù)據(jù)的系統(tǒng)歸屬上看,運(yùn)營(yíng)商數(shù)據(jù)可分為MSS(管理支撐系統(tǒng))的面向人、財(cái)、物管理類數(shù)據(jù),BSS(業(yè)務(wù)支撐系統(tǒng))的面向客戶和產(chǎn)品的營(yíng)銷及客戶服務(wù)數(shù)據(jù),OSS(運(yùn)營(yíng)支撐系統(tǒng))的面向產(chǎn)品和網(wǎng)絡(luò)的功能及運(yùn)營(yíng)服務(wù)數(shù)據(jù),三者之間既相對(duì)松耦合,又有著緊密的協(xié)作關(guān)系,BSS和OSS的銜接點(diǎn)主要在產(chǎn)品及開(kāi)通、排障服務(wù),MSS和BSS、OSS的銜接點(diǎn)主要在參與人和資源。從數(shù)據(jù)分類來(lái)看,運(yùn)營(yíng)商的數(shù)據(jù)可分為作為企業(yè)核心的功能類實(shí)體數(shù)據(jù)、表示企業(yè)所有運(yùn)營(yíng)過(guò)程的活動(dòng)類數(shù)據(jù)、體現(xiàn)內(nèi)外部客戶感知并圍繞兩大主線所產(chǎn)生的感知類指標(biāo)數(shù)據(jù)以及與管理相關(guān)的人、財(cái)、物及流程數(shù)據(jù)。電信運(yùn)營(yíng)商數(shù)據(jù)范圍示例如圖1所示。
由于國(guó)內(nèi)運(yùn)營(yíng)商以兩級(jí)經(jīng)營(yíng)模式為主體,系統(tǒng)的集約化建設(shè)程度相對(duì)較低,以分域(M/B/O)、分省建設(shè)為主,即便是同類系統(tǒng)的數(shù)據(jù),因?yàn)榉?1個(gè)省市建設(shè),各省市的業(yè)務(wù)管理模式、數(shù)據(jù)模型標(biāo)準(zhǔn)、主數(shù)據(jù)等千差萬(wàn)別,跨省、跨域、跨系統(tǒng)的模型標(biāo)準(zhǔn)統(tǒng)一非常困難,即便通過(guò)數(shù)據(jù)副本的模式進(jìn)行整合匯聚,也存在轉(zhuǎn)換不專業(yè)和數(shù)據(jù)失真等問(wèn)題。同時(shí),域與域之間雖是松耦合的,但因?yàn)槭褂谜吆徒ㄔO(shè)者的不同,相互之間會(huì)冗余存儲(chǔ)對(duì)方數(shù)據(jù),而建模和主數(shù)據(jù)又不同,跨域之間數(shù)據(jù)的關(guān)聯(lián)整合非常復(fù)雜,跨域、跨省的端到端應(yīng)用困難。運(yùn)營(yíng)商的數(shù)據(jù)還有一個(gè)顯著的特點(diǎn),就是與網(wǎng)絡(luò)密切相關(guān),網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)和網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)需要與網(wǎng)絡(luò)保持實(shí)時(shí)一致,且數(shù)據(jù)量比較大,網(wǎng)絡(luò)智能化后的實(shí)時(shí)數(shù)據(jù)應(yīng)用需求也越來(lái)越多。通信網(wǎng)絡(luò)是一張大網(wǎng),即便引入云計(jì)算、虛擬化技術(shù),依然有大量網(wǎng)絡(luò)節(jié)點(diǎn)遍布31個(gè)省市,海量網(wǎng)絡(luò)數(shù)據(jù)的實(shí)時(shí)采集、處理及應(yīng)用也是運(yùn)營(yíng)商數(shù)據(jù)架構(gòu)需要考慮的一個(gè)重要因素。國(guó)內(nèi)運(yùn)營(yíng)商目前都不同程度地建立了自己的企業(yè)級(jí)大數(shù)據(jù)平臺(tái),有的分總部/省兩級(jí)部署,支撐兩級(jí)數(shù)據(jù)分析,統(tǒng)一全網(wǎng)的架構(gòu)、來(lái)源、算法、規(guī)則,總部數(shù)據(jù)輕度匯總,按需采集匯聚高價(jià)值詳單數(shù)據(jù);有的采用1+N模式,建設(shè)總部和省互補(bǔ)協(xié)作平臺(tái),總部提供跨域數(shù)據(jù)和特定的大數(shù)據(jù)能力,作為N的省向總部提供本地化數(shù)據(jù)能力與自定義算法。電信運(yùn)營(yíng)商數(shù)據(jù)平臺(tái)架構(gòu)示例如圖2所示。
不管采用哪種模式,都不同程度地存在其下屬各專業(yè)公司、各部門(mén)根據(jù)各自需要,或在生產(chǎn)系統(tǒng)內(nèi)構(gòu)建含大數(shù)據(jù)技術(shù)的混搭數(shù)據(jù)架構(gòu),或建設(shè)域內(nèi)自用的大數(shù)據(jù)平臺(tái),因此有很多數(shù)據(jù)未進(jìn)入企業(yè)級(jí)大數(shù)據(jù)平臺(tái),或數(shù)據(jù)平臺(tái)的應(yīng)用未達(dá)到預(yù)期。其原因可歸結(jié)為如下幾點(diǎn):
1、平臺(tái)數(shù)據(jù)質(zhì)量不高
平臺(tái)數(shù)據(jù)來(lái)自于M/B/O的生產(chǎn)系統(tǒng),而運(yùn)營(yíng)商分兩級(jí)31省市建設(shè)的生產(chǎn)系統(tǒng),不但數(shù)據(jù)模型、主數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,業(yè)務(wù)管理模式的差異也很大。數(shù)據(jù)經(jīng)過(guò)多次模型轉(zhuǎn)換,存在嚴(yán)重失真的問(wèn)題,且很難對(duì)數(shù)據(jù)質(zhì)量問(wèn)題追蹤溯源。
2、平臺(tái)數(shù)據(jù)不夠?qū)崟r(shí)
數(shù)據(jù)經(jīng)過(guò)多級(jí)采集匯聚,處理環(huán)節(jié)多,采集周期長(zhǎng)。網(wǎng)絡(luò)相關(guān)海量數(shù)據(jù)跨省傳輸,占用大量帶寬,數(shù)據(jù)時(shí)延較大。數(shù)據(jù)平臺(tái)目前只能以支撐離線的決策分析為主,難以滿足SDN/NFV/云網(wǎng)絡(luò)及物聯(lián)網(wǎng)等實(shí)時(shí)/準(zhǔn)實(shí)時(shí)數(shù)據(jù)應(yīng)用需求。
3、平臺(tái)的靈活性不足
數(shù)據(jù)平臺(tái)的建設(shè)以存儲(chǔ)計(jì)算一體化架構(gòu)為主,平臺(tái)與應(yīng)用緊耦合,多基于公共數(shù)據(jù)平臺(tái)和整合后的數(shù)據(jù)支撐應(yīng)用創(chuàng)新。對(duì)于新的數(shù)據(jù)整合、數(shù)據(jù)計(jì)算分析技術(shù)引入、平臺(tái)擴(kuò)容支撐等需求響應(yīng)不靈活,導(dǎo)致數(shù)據(jù)平臺(tái)應(yīng)用不足。
4、平臺(tái)和應(yīng)用互鎖,形成惡性循環(huán)
企業(yè)級(jí)數(shù)據(jù)平臺(tái)難以滿足生產(chǎn)系統(tǒng)數(shù)據(jù)應(yīng)用需求,生產(chǎn)系統(tǒng)就沒(méi)有動(dòng)力將自身數(shù)據(jù)和應(yīng)用遷入數(shù)據(jù)平臺(tái),進(jìn)而數(shù)據(jù)平臺(tái)的數(shù)據(jù)質(zhì)量和可用性越來(lái)越差。同時(shí),還導(dǎo)致生產(chǎn)系統(tǒng)和各個(gè)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)重復(fù)采集、重復(fù)存儲(chǔ),且相互之間數(shù)據(jù)訪問(wèn)技術(shù)和管理壁壘嚴(yán)重,建設(shè)和維護(hù)成本大幅提高。
02數(shù)據(jù)湖方案的價(jià)值及可行性分析
數(shù)據(jù)湖推崇存儲(chǔ)原生數(shù)據(jù),對(duì)不同結(jié)構(gòu)的數(shù)據(jù)統(tǒng)一存儲(chǔ),使不同數(shù)據(jù)有一致的存儲(chǔ)方式,在使用時(shí)方便連接,真正解決數(shù)據(jù)集成問(wèn)題。數(shù)據(jù)湖的本質(zhì)是一種數(shù)據(jù)管理的思路,利用低成本技術(shù)來(lái)捕捉、提煉和探索大規(guī)模、長(zhǎng)期的原始數(shù)據(jù)存儲(chǔ)的方法與技術(shù)。數(shù)據(jù)湖可存儲(chǔ)任何種類的數(shù)據(jù),高質(zhì)量、高效率地存儲(chǔ)數(shù)據(jù),更快速、更廉價(jià)地處理數(shù)據(jù),將建模應(yīng)用問(wèn)題丟給最終開(kāi)發(fā)者。數(shù)據(jù)湖的方案應(yīng)用可以帶來(lái)如下幾個(gè)顯著的好處:
1、規(guī)模大、成本低
全企業(yè)海量數(shù)據(jù)統(tǒng)一存儲(chǔ),采用開(kāi)源技術(shù),基于低成本硬件資源,建立和維護(hù)成本相比數(shù)據(jù)倉(cāng)庫(kù)低一個(gè)數(shù)量級(jí)。
2、數(shù)據(jù)“原汁原味”
數(shù)據(jù)湖以原始形式保存數(shù)據(jù),并在整個(gè)數(shù)據(jù)生命周期捕獲對(duì)數(shù)據(jù)和上下文語(yǔ)義的更改,尤其便于進(jìn)行合規(guī)性和內(nèi)部審計(jì)。如果數(shù)據(jù)經(jīng)歷了轉(zhuǎn)換、聚合和更新,將很難在需求出現(xiàn)時(shí)將數(shù)據(jù)拼湊在一起,而且?guī)缀鯖](méi)有希望確定清晰出處。
3、數(shù)據(jù)方便易用
結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)都是原樣加載和存儲(chǔ),以后再進(jìn)行轉(zhuǎn)換,開(kāi)發(fā)和保存成本低,產(chǎn)生和使用之間時(shí)延小。客戶、供應(yīng)商和數(shù)據(jù)運(yùn)營(yíng)者不需要數(shù)據(jù)擁有者提供太多幫助即可整合數(shù)據(jù),消除了數(shù)據(jù)共享的內(nèi)部政治或技術(shù)障礙。
4、應(yīng)用按需建模
數(shù)據(jù)湖提供數(shù)據(jù)給靈活的、面向任務(wù)的結(jié)構(gòu)化應(yīng)用,詳細(xì)的業(yè)務(wù)需求和艱苦的數(shù)據(jù)建模都不是數(shù)據(jù)湖的先決條件。數(shù)據(jù)湖給予最終用戶最大的靈活度來(lái)處理數(shù)據(jù),對(duì)于同一份原始數(shù)據(jù),不同的用戶可能有不同的理解。目前,大部分運(yùn)營(yíng)商采用傳統(tǒng)的以數(shù)據(jù)為中心的處理架構(gòu)(存儲(chǔ)計(jì)算一體化,如主流MPP、Hive和分布式計(jì)算廠商產(chǎn)品),好處是計(jì)算效率高、技術(shù)成熟,缺點(diǎn)也很明顯,如靈活性不足,使得數(shù)據(jù)應(yīng)用適用于少數(shù)人,這也制約了原生數(shù)據(jù)提供者向平臺(tái)提供的積極性,進(jìn)而導(dǎo)致數(shù)據(jù)的質(zhì)量、數(shù)據(jù)的全面性都得不到很好的保障。引入數(shù)據(jù)湖概念的一個(gè)顯著特點(diǎn)就是存儲(chǔ)和計(jì)算松耦合,可采用以計(jì)算為中心的處理模式(存儲(chǔ)與計(jì)算分離,如Spark技術(shù)及AWS、阿里云等云服務(wù)提供商產(chǎn)品),使得運(yùn)營(yíng)商可以更加專注于數(shù)據(jù)的存儲(chǔ)和管理,存儲(chǔ)和計(jì)算不用相互制約,從而優(yōu)先確保數(shù)據(jù)的高質(zhì)量、低時(shí)延、高可用,并為數(shù)據(jù)應(yīng)用的快速構(gòu)建提供了極大的靈活性。數(shù)據(jù)湖按照成熟度可劃分為4個(gè)階段:第一個(gè)階段,應(yīng)用程序獨(dú)立建設(shè),部分應(yīng)用將數(shù)據(jù)提供給數(shù)據(jù)倉(cāng)庫(kù),基于數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建分析應(yīng)用;第二個(gè)階段,數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)并存,應(yīng)用程序向數(shù)據(jù)湖提供副本數(shù)據(jù),基于數(shù)據(jù)湖開(kāi)發(fā)分析型應(yīng)用,數(shù)據(jù)倉(cāng)庫(kù)和應(yīng)用也可從數(shù)據(jù)湖提取數(shù)據(jù);第三個(gè)階段,新系統(tǒng)以數(shù)據(jù)湖為中心構(gòu)建,應(yīng)用通過(guò)數(shù)據(jù)湖交互彼此數(shù)據(jù),數(shù)據(jù)湖成為數(shù)據(jù)架構(gòu)的核心,數(shù)據(jù)倉(cāng)庫(kù)基于數(shù)據(jù)湖提供特定的應(yīng)用需求,數(shù)據(jù)治理變得重要;第四個(gè)階段,所有新的應(yīng)用均基于數(shù)據(jù)湖構(gòu)建,數(shù)據(jù)湖成為彈性的分布式平臺(tái),數(shù)據(jù)的治理和安全需持續(xù)加強(qiáng),支撐企業(yè)的數(shù)據(jù)運(yùn)營(yíng)和分析能力。電信運(yùn)營(yíng)商目前普遍處于第二個(gè)階段向第三個(gè)階段演進(jìn)的過(guò)程中,在構(gòu)建數(shù)據(jù)技術(shù)方案方面具備較好的基礎(chǔ)條件。
03運(yùn)營(yíng)商數(shù)據(jù)湖建設(shè)思路
調(diào)整現(xiàn)有分析型數(shù)據(jù)平臺(tái)建設(shè)思路,將其數(shù)據(jù)與應(yīng)用解耦,引入數(shù)據(jù)湖概念,強(qiáng)調(diào)原生數(shù)據(jù)入湖,并與全網(wǎng)生產(chǎn)系統(tǒng)模型和主數(shù)據(jù)標(biāo)準(zhǔn)化協(xié)同推進(jìn),兼顧層次化的傳統(tǒng)數(shù)據(jù)架構(gòu)和扁平化的數(shù)據(jù)湖架構(gòu)的優(yōu)點(diǎn),SchemaonRead和SchemaonWrite并存,統(tǒng)一支撐企業(yè)實(shí)時(shí)、準(zhǔn)實(shí)時(shí)和離線數(shù)據(jù)應(yīng)用快速創(chuàng)新,是電信運(yùn)營(yíng)商實(shí)現(xiàn)以數(shù)據(jù)為中心IT架構(gòu)轉(zhuǎn)型的有效途徑。數(shù)據(jù)湖作為運(yùn)營(yíng)商數(shù)據(jù)存儲(chǔ)和訪問(wèn)的唯一出口,成為所有IT系統(tǒng)共享的基礎(chǔ)設(shè)施,統(tǒng)一存儲(chǔ)全企業(yè)IT和網(wǎng)絡(luò)數(shù)據(jù),通過(guò)開(kāi)放架構(gòu)支撐智慧運(yùn)營(yíng),并可作為IT系統(tǒng)集約化演進(jìn)的紐帶。
1、數(shù)據(jù)統(tǒng)一存儲(chǔ)
統(tǒng)一存儲(chǔ)MSS、BSS、OSS及網(wǎng)元平臺(tái)的實(shí)時(shí)、歷史、在線、離線數(shù)據(jù),全網(wǎng)的原生數(shù)據(jù)只存儲(chǔ)一份在邏輯統(tǒng)一的分布式數(shù)據(jù)湖內(nèi),原生數(shù)據(jù)與生產(chǎn)系統(tǒng)數(shù)據(jù)模型標(biāo)準(zhǔn)和主數(shù)據(jù)一致,新IT系統(tǒng)/網(wǎng)元平臺(tái)的生產(chǎn)數(shù)據(jù)直接使用數(shù)據(jù)湖存儲(chǔ)。
2、數(shù)據(jù)統(tǒng)一管理
所有入湖數(shù)據(jù)的目錄、元數(shù)據(jù)、數(shù)據(jù)應(yīng)用及數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)安全必須統(tǒng)一管理。數(shù)據(jù)模型標(biāo)準(zhǔn)和主數(shù)據(jù)動(dòng)態(tài)維護(hù),數(shù)據(jù)質(zhì)量集中治理,原生系統(tǒng)的數(shù)據(jù)問(wèn)題溯源處理,生產(chǎn)系統(tǒng)建設(shè)者全程參與數(shù)據(jù)管理,責(zé)任權(quán)利保持一致。
3、數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)
生產(chǎn)系統(tǒng)管理部門(mén)負(fù)責(zé)31省市系統(tǒng)模型和主數(shù)據(jù)的標(biāo)準(zhǔn)化;數(shù)據(jù)湖統(tǒng)一管理生產(chǎn)系統(tǒng)的數(shù)據(jù)模型及主數(shù)據(jù);暫未進(jìn)行標(biāo)準(zhǔn)化的生產(chǎn)系統(tǒng)數(shù)據(jù)模型,由對(duì)應(yīng)系統(tǒng)的管理部門(mén)負(fù)責(zé)數(shù)據(jù)模型的轉(zhuǎn)換和運(yùn)營(yíng),協(xié)調(diào)推進(jìn)生產(chǎn)系統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)程。
4、數(shù)據(jù)近源采集
提供數(shù)據(jù)統(tǒng)一采集、實(shí)時(shí)訂閱分發(fā)框架,支撐實(shí)時(shí)/準(zhǔn)實(shí)時(shí)數(shù)據(jù)、離線數(shù)據(jù)的采集。各網(wǎng)元/平臺(tái)數(shù)據(jù)采集能力以組件方式納入數(shù)據(jù)湖,分專業(yè)采集、預(yù)處理加工,海量實(shí)時(shí)數(shù)可靠近網(wǎng)絡(luò)近源部署前置采集模塊。非網(wǎng)絡(luò)類數(shù)據(jù)(如BSS、MSS、OSS流程等),初期以副本采集方式匯聚入湖,遠(yuǎn)期直接以服務(wù)交互方式入湖。
5、數(shù)據(jù)與應(yīng)用分離
數(shù)據(jù)應(yīng)用環(huán)境與數(shù)據(jù)存儲(chǔ)環(huán)境分離,按應(yīng)用計(jì)算的網(wǎng)絡(luò)帶寬需要就近部署。提供統(tǒng)一的服務(wù)化訪問(wèn)、小批量數(shù)據(jù)訂閱、數(shù)據(jù)分析計(jì)算云平臺(tái)環(huán)境。基于云平臺(tái)環(huán)境,應(yīng)用開(kāi)發(fā)者可自行整合數(shù)據(jù)、構(gòu)建應(yīng)用,數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)整合、平臺(tái)組件、數(shù)據(jù)應(yīng)用間相互解耦,建設(shè)的進(jìn)程不會(huì)相互制約。同時(shí),建立全生命周期數(shù)據(jù)目錄,統(tǒng)一標(biāo)識(shí)各項(xiàng)數(shù)據(jù),完善數(shù)據(jù)治理機(jī)制,管理數(shù)據(jù)湖數(shù)據(jù)的生產(chǎn)加工流程,對(duì)各項(xiàng)數(shù)據(jù)生成和使用過(guò)程進(jìn)行跟蹤記錄,支撐數(shù)據(jù)的應(yīng)用和溯源,是數(shù)據(jù)湖方案順利實(shí)施的關(guān)鍵要素。并且還需要加強(qiáng)數(shù)據(jù)標(biāo)準(zhǔn)的全生命周期流程以及數(shù)據(jù)標(biāo)準(zhǔn)的元數(shù)據(jù)及數(shù)據(jù)質(zhì)量問(wèn)題收集、自動(dòng)稽核、問(wèn)題溯源、影響分析及跟蹤處理等數(shù)據(jù)管理能力。可以采用爬蟲(chóng)的方式生成數(shù)據(jù)目錄,在不影響數(shù)據(jù)所有者或用戶的情況下自動(dòng)生成,
決定數(shù)據(jù)湖能否順利實(shí)施的因素有很多,包括數(shù)據(jù)湖涵蓋哪些數(shù)據(jù)及如何分區(qū)存儲(chǔ)、數(shù)據(jù)湖如何分布式部署、紛繁復(fù)雜的現(xiàn)有IT系統(tǒng)數(shù)據(jù)如何入湖、數(shù)據(jù)和應(yīng)用能否分離、數(shù)據(jù)湖與現(xiàn)有各類數(shù)據(jù)平臺(tái)的演進(jìn)關(guān)系等。當(dāng)然,更重要的是數(shù)據(jù)管理思維的轉(zhuǎn)變,這是一切的基礎(chǔ)。
04運(yùn)營(yíng)商數(shù)據(jù)湖建設(shè)的5個(gè)要點(diǎn)
針對(duì)運(yùn)營(yíng)商數(shù)據(jù)湖的實(shí)施,提出如下5個(gè)方面的關(guān)鍵要點(diǎn)及建議。
要點(diǎn)1:數(shù)據(jù)湖分區(qū)數(shù)據(jù)湖邏輯上可劃分為生產(chǎn)數(shù)據(jù)區(qū)、原生數(shù)據(jù)區(qū)、整合數(shù)據(jù)區(qū)、匯總數(shù)據(jù)區(qū)4個(gè)大的存儲(chǔ)區(qū)域。數(shù)據(jù)湖的應(yīng)用可基于PaaS平臺(tái)按需使用各個(gè)區(qū)的數(shù)據(jù),4個(gè)區(qū)的數(shù)據(jù)目錄、元數(shù)據(jù)、數(shù)據(jù)加工處理流程及數(shù)據(jù)應(yīng)用需要統(tǒng)一管理、維護(hù)和治理。
生產(chǎn)數(shù)據(jù)區(qū)
M/B/O系統(tǒng)生產(chǎn)數(shù)據(jù)的存儲(chǔ)區(qū)域,涵蓋實(shí)時(shí)交易型數(shù)據(jù)、實(shí)時(shí)/準(zhǔn)實(shí)時(shí)網(wǎng)絡(luò)采集數(shù)據(jù)等,可以是關(guān)系型和非關(guān)系型混搭的存儲(chǔ)結(jié)構(gòu),各生產(chǎn)系統(tǒng)需要進(jìn)行架構(gòu)優(yōu)化,數(shù)據(jù)與應(yīng)用分層解耦,將數(shù)據(jù)存入生產(chǎn)數(shù)據(jù)區(qū)。
原生數(shù)據(jù)區(qū)
將各系統(tǒng)的生產(chǎn)數(shù)據(jù)直接寫(xiě)入數(shù)據(jù)湖原生數(shù)據(jù)區(qū),以非關(guān)系型數(shù)據(jù)格式存儲(chǔ)生產(chǎn)系統(tǒng)數(shù)據(jù),方便各數(shù)據(jù)應(yīng)用使用,生產(chǎn)數(shù)據(jù)和原生數(shù)據(jù)模型標(biāo)準(zhǔn)、主數(shù)據(jù)一致。原生數(shù)據(jù)區(qū)涵蓋企業(yè)的任何內(nèi)容,無(wú)限接近企業(yè)各系統(tǒng)、部門(mén)的敏感信息。供數(shù)據(jù)湖科學(xué)家和技術(shù)人員訪問(wèn)使用。
整合數(shù)據(jù)區(qū)
存儲(chǔ)按照數(shù)據(jù)分析需求建模加工后的公用數(shù)據(jù)。模型從生產(chǎn)/原生數(shù)據(jù)模型派生而來(lái),被業(yè)務(wù)和IT部門(mén)熟知,可供企業(yè)各種應(yīng)用程序使用。原生數(shù)據(jù)區(qū)中依然有很多數(shù)據(jù)或?qū)傩詻](méi)有被真正理解,并未完全包含在這個(gè)數(shù)據(jù)區(qū)的模型中。
匯總數(shù)據(jù)區(qū)
存儲(chǔ)按需求分析匯總的結(jié)果數(shù)據(jù),一般可存儲(chǔ)在關(guān)系型數(shù)據(jù)存儲(chǔ)內(nèi),便于數(shù)據(jù)服務(wù)的快速加載呈現(xiàn)。數(shù)據(jù)湖生產(chǎn)數(shù)據(jù)區(qū)和原生數(shù)據(jù)區(qū)作為最重要的數(shù)據(jù)分區(qū),是數(shù)據(jù)湖內(nèi)數(shù)據(jù)整合和匯總的源頭數(shù)據(jù),數(shù)據(jù)質(zhì)量必須得到保障。另外,數(shù)據(jù)湖雖不鼓勵(lì)應(yīng)用特定模型,但也可劃分特定數(shù)據(jù)區(qū)給私有應(yīng)用使用,提供快速構(gòu)建數(shù)據(jù)應(yīng)用的途徑,這些應(yīng)用獲取數(shù)據(jù)湖數(shù)據(jù)且具有數(shù)據(jù)處理能力,數(shù)據(jù)湖構(gòu)建初期,可將已有業(yè)務(wù)應(yīng)用數(shù)據(jù)導(dǎo)入數(shù)據(jù)湖特定數(shù)據(jù)區(qū)中。電信運(yùn)營(yíng)商數(shù)據(jù)湖數(shù)據(jù)分區(qū)示例如圖4所示。
要點(diǎn)2:數(shù)據(jù)湖部署
數(shù)據(jù)湖部署方案的設(shè)計(jì)需要考慮如下要素:
現(xiàn)有BSS/OSS系統(tǒng)分省/總部?jī)杉?jí)建設(shè)和維護(hù),源系統(tǒng)模型屬地管理;網(wǎng)絡(luò)/平臺(tái)數(shù)據(jù)量大,且貼近網(wǎng)絡(luò)建設(shè)歸屬地,屬地應(yīng)用占比大;
M/B/O及網(wǎng)絡(luò)/平臺(tái)之間數(shù)據(jù)松耦合,主要通過(guò)企業(yè)主數(shù)據(jù)進(jìn)行銜接。數(shù)據(jù)湖原生數(shù)據(jù)區(qū)和生產(chǎn)數(shù)據(jù)區(qū)與數(shù)據(jù)源系統(tǒng)就近分布式部署(總部1+省市31模式)。
生產(chǎn)數(shù)據(jù)云節(jié)點(diǎn)由生產(chǎn)系統(tǒng)按需分區(qū)、分片部署,即支撐生產(chǎn)應(yīng)用交易處理,也支撐實(shí)時(shí)網(wǎng)絡(luò)數(shù)據(jù)采集和應(yīng)用。
原生數(shù)據(jù)云節(jié)點(diǎn)與生產(chǎn)數(shù)據(jù)云節(jié)點(diǎn)就近、集中部署,靠近數(shù)據(jù)歸屬地,數(shù)據(jù)實(shí)時(shí)從生產(chǎn)數(shù)據(jù)云節(jié)點(diǎn)寫(xiě)入原生數(shù)據(jù)云節(jié)點(diǎn)。原生數(shù)據(jù)云節(jié)點(diǎn)可再細(xì)分為核心數(shù)據(jù)區(qū)(如客戶、銷售品、產(chǎn)品、服務(wù)、資源、組織、人員等)、BSS數(shù)據(jù)區(qū)、OSS數(shù)據(jù)區(qū)、MSS數(shù)據(jù)區(qū)、網(wǎng)絡(luò)/平臺(tái)數(shù)據(jù)區(qū)。
數(shù)據(jù)湖整合、匯總數(shù)據(jù)云節(jié)點(diǎn)采用1+N模式部署,統(tǒng)一管理、控制和調(diào)度節(jié)點(diǎn)環(huán)境,兼顧全網(wǎng)統(tǒng)一和個(gè)性化應(yīng)用需求,數(shù)據(jù)科學(xué)家逐步探索和建模數(shù)據(jù),開(kāi)放數(shù)據(jù)應(yīng)用。1+N模式中的“1”支撐全網(wǎng)應(yīng)用,“N”支撐省內(nèi)應(yīng)用,并作為創(chuàng)新基地,有條件、數(shù)據(jù)量大、應(yīng)用豐富的省可選擇建設(shè)N分區(qū)。分區(qū)節(jié)點(diǎn)內(nèi)可按照應(yīng)用范圍(全局需求、特定需求)、地域歸屬(集團(tuán)、省)、數(shù)據(jù)層次(整合、匯總)、數(shù)據(jù)分級(jí)(普通、密級(jí))等進(jìn)一步分區(qū)存儲(chǔ)。電信運(yùn)營(yíng)商數(shù)據(jù)湖部署方案示例如下圖所示:
要點(diǎn)3:IT系統(tǒng)數(shù)據(jù)入湖
數(shù)據(jù)湖的建設(shè)不可能一蹴而就,需要根據(jù)運(yùn)營(yíng)商IT系統(tǒng)建設(shè)情況分別采用不同策略進(jìn)行數(shù)據(jù)入湖演進(jìn)。電信運(yùn)營(yíng)商IT系統(tǒng)入湖方案示例如圖6所示。
方式一:數(shù)據(jù)同步方式。
適合交易型系統(tǒng)已存在、數(shù)據(jù)模型和主數(shù)據(jù)已全網(wǎng)統(tǒng)一的場(chǎng)景,生產(chǎn)數(shù)據(jù)直接同步寫(xiě)入原生數(shù)據(jù)區(qū),如BSS、MSS、傳統(tǒng)OSS。
方式二:數(shù)據(jù)同步/轉(zhuǎn)換方式。
適合交易型系統(tǒng)已存在、數(shù)據(jù)模型和主數(shù)據(jù)并未全網(wǎng)統(tǒng)一的場(chǎng)景,如BSS、MSS、傳統(tǒng)OSS。將非標(biāo)準(zhǔn)生產(chǎn)數(shù)據(jù)寫(xiě)入原生數(shù)據(jù)區(qū),支撐省內(nèi)整合匯總應(yīng)用及集團(tuán)標(biāo)準(zhǔn)的寬表需求;將非標(biāo)準(zhǔn)生產(chǎn)數(shù)據(jù)按全網(wǎng)統(tǒng)一標(biāo)準(zhǔn)轉(zhuǎn)換,提供給全網(wǎng)數(shù)據(jù)整合匯總及數(shù)據(jù)治理使用。
方式三:數(shù)據(jù)正本方式。
適合交易型系統(tǒng)新建模式,如新一代OSS資源、編排、告警等。正本數(shù)據(jù)寫(xiě)入生產(chǎn)數(shù)據(jù)區(qū),統(tǒng)一模型和主數(shù)據(jù)標(biāo)準(zhǔn),基于交易型PaaS平臺(tái)完成應(yīng)用;生產(chǎn)數(shù)據(jù)區(qū)數(shù)據(jù)直接寫(xiě)入原生數(shù)據(jù)區(qū)。
方式四:采集入庫(kù)方式。
適合網(wǎng)絡(luò)監(jiān)控分析型系統(tǒng)新建模式,如新一代OSS的網(wǎng)絡(luò)采集數(shù)據(jù)、資源拓?fù)洹⑸疃确纸M檢測(cè)(DPI)數(shù)據(jù)等。數(shù)據(jù)采集文件、流數(shù)據(jù)等暫存在生產(chǎn)數(shù)據(jù)區(qū);寫(xiě)入原生數(shù)據(jù)區(qū)后,生產(chǎn)數(shù)據(jù)區(qū)不再保留;統(tǒng)一原生數(shù)據(jù)模型和主數(shù)據(jù)標(biāo)準(zhǔn),基于實(shí)時(shí)和非實(shí)時(shí)PaaS平臺(tái)完成分析型應(yīng)用。
要點(diǎn)4:數(shù)據(jù)湖數(shù)據(jù)與應(yīng)用分離
數(shù)據(jù)湖通過(guò)數(shù)據(jù)服務(wù)平臺(tái)、數(shù)據(jù)共享平臺(tái)及統(tǒng)一數(shù)據(jù)應(yīng)用環(huán)境按需支持交易類、實(shí)時(shí)監(jiān)控類、分析類應(yīng)用。數(shù)據(jù)增、刪、改、查服務(wù)統(tǒng)一部署在數(shù)據(jù)服務(wù)平臺(tái)上,供交易類應(yīng)用訪問(wèn)調(diào)用;通過(guò)訂閱需要監(jiān)控的數(shù)據(jù),由數(shù)據(jù)共享平臺(tái)將數(shù)據(jù)實(shí)時(shí)分發(fā)給監(jiān)控類應(yīng)用使用;數(shù)據(jù)的加工整合、分析應(yīng)用、海量搜索、人工智能等應(yīng)用均可部署在應(yīng)用環(huán)境內(nèi),按需動(dòng)態(tài)加載并臨時(shí)存儲(chǔ)數(shù)據(jù),結(jié)果寫(xiě)回到數(shù)據(jù)湖存儲(chǔ)環(huán)境,以服務(wù)方式啟動(dòng)任務(wù)和查詢結(jié)果數(shù)據(jù)。其中,應(yīng)用環(huán)境公共組件隨著技術(shù)的更新不斷疊加,逐漸平臺(tái)化共享,暫時(shí)無(wú)法滿足應(yīng)用需求的可由應(yīng)用在統(tǒng)一環(huán)境內(nèi)部署組件及加載數(shù)據(jù)。數(shù)據(jù)湖應(yīng)用加載數(shù)據(jù)的方式可分為實(shí)時(shí)增量加載、準(zhǔn)實(shí)時(shí)增量/全量加載、離線批量加載等,數(shù)據(jù)可按需全量或增量短期加載。對(duì)于應(yīng)用和數(shù)據(jù)無(wú)法解耦的組件(如Hive、MPP等),按需復(fù)制數(shù)據(jù),以空間換數(shù)據(jù)管理和應(yīng)用的靈活性;對(duì)于應(yīng)用和數(shù)據(jù)可以有效解耦的組件(如Spark等),可以按需動(dòng)態(tài)、實(shí)時(shí)加載數(shù)據(jù)。應(yīng)用組件逐漸由與數(shù)據(jù)緊耦合的組件向與數(shù)據(jù)松耦合的組件演進(jìn)。數(shù)據(jù)湖采用讀寫(xiě)分離、應(yīng)用計(jì)算與數(shù)據(jù)存儲(chǔ)分離、關(guān)系數(shù)據(jù)與非關(guān)系數(shù)據(jù)存儲(chǔ)并存的模式,并提供數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)分布式部署、服務(wù)化訪問(wèn)及統(tǒng)一數(shù)據(jù)加載、共享及分發(fā)能力,降低數(shù)據(jù)湖數(shù)據(jù)存儲(chǔ)訪問(wèn)負(fù)載,提升數(shù)據(jù)的可用性及數(shù)據(jù)訪問(wèn)效率。由數(shù)據(jù)湖提供數(shù)據(jù)的統(tǒng)一遷移,包括主從庫(kù)的復(fù)制、關(guān)系庫(kù)到非關(guān)系庫(kù)的數(shù)據(jù)轉(zhuǎn)換等;提供統(tǒng)一的關(guān)系和非關(guān)系庫(kù)數(shù)據(jù)訪問(wèn)及分布式數(shù)據(jù)路由以及數(shù)據(jù)共享開(kāi)放和訂閱分發(fā)管理框架,實(shí)現(xiàn)高效的數(shù)據(jù)訪問(wèn);提供統(tǒng)一的數(shù)據(jù)應(yīng)用環(huán)境管理,包括配額管理、數(shù)據(jù)訪問(wèn)權(quán)限管理、數(shù)據(jù)回寫(xiě)節(jié)點(diǎn)分配管理等,獨(dú)立部署分析計(jì)算類應(yīng)用,分析計(jì)算節(jié)點(diǎn)與數(shù)據(jù)湖數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)分離;提供統(tǒng)一的分布式服務(wù)運(yùn)行框架,基于服務(wù)調(diào)用實(shí)現(xiàn)交易類增、刪、改、查應(yīng)用的數(shù)據(jù)訪問(wèn),避免直接操作數(shù)據(jù)。電信運(yùn)營(yíng)商數(shù)據(jù)湖應(yīng)用方案示例如圖7所示。
要點(diǎn)5:數(shù)據(jù)湖數(shù)據(jù)統(tǒng)一管理
數(shù)據(jù)湖的實(shí)施,需要實(shí)現(xiàn)模型和主數(shù)據(jù)標(biāo)準(zhǔn)的動(dòng)態(tài)維護(hù)以及數(shù)據(jù)的集中治理,避免數(shù)據(jù)湖成為數(shù)據(jù)墓地。而數(shù)據(jù)來(lái)源眾多,數(shù)據(jù)管理需要依賴于多方的密切合作以及數(shù)據(jù)標(biāo)準(zhǔn)管理、目錄/元數(shù)據(jù)管理、應(yīng)用/服務(wù)管理、質(zhì)量等管理及海量數(shù)據(jù)探索分析等高效的管理工具。電信運(yùn)營(yíng)商數(shù)據(jù)湖管理體系示例如下圖所示:
電信運(yùn)營(yíng)商數(shù)據(jù)涉及系統(tǒng)眾多、關(guān)系復(fù)雜,沒(méi)有任何一個(gè)獨(dú)立的團(tuán)隊(duì)能夠通曉所有的數(shù)據(jù)模型和關(guān)聯(lián)關(guān)系,因此需要企業(yè)數(shù)據(jù)管理團(tuán)隊(duì)與專業(yè)數(shù)據(jù)管理團(tuán)隊(duì)分工合作,共同完成數(shù)據(jù)模型標(biāo)準(zhǔn)/主數(shù)據(jù)的管理及數(shù)據(jù)集中治理。建立橫縱向一體化的數(shù)據(jù)管理體系,明確企業(yè)數(shù)據(jù)管理和原生數(shù)據(jù)部門(mén)職責(zé)分工,固化數(shù)據(jù)管理流程制度。企業(yè)數(shù)據(jù)管理團(tuán)隊(duì)負(fù)責(zé)統(tǒng)籌標(biāo)準(zhǔn)和主數(shù)據(jù)管理及數(shù)據(jù)治理工作,負(fù)責(zé)數(shù)據(jù)建模挖掘和跨專業(yè)數(shù)據(jù)治理協(xié)作,負(fù)責(zé)為業(yè)務(wù)部門(mén)和應(yīng)用開(kāi)發(fā)者提供數(shù)據(jù)建模和平臺(tái)技術(shù)支持;專業(yè)數(shù)據(jù)管理團(tuán)隊(duì)負(fù)責(zé)建立專業(yè)數(shù)據(jù)的模型標(biāo)準(zhǔn)和管理主數(shù)據(jù),識(shí)別數(shù)據(jù)問(wèn)題及跟蹤處理;數(shù)據(jù)湖應(yīng)用開(kāi)發(fā)者負(fù)責(zé)提出數(shù)據(jù)需求,按需整合和構(gòu)建應(yīng)用,反饋數(shù)據(jù)問(wèn)題,評(píng)估數(shù)據(jù)變更影響。另外,作為企業(yè)最核心的數(shù)據(jù)資產(chǎn),其全生命周期的安全管理非常重要。需要針對(duì)數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)(生產(chǎn)數(shù)據(jù)、原生數(shù)據(jù)、整合數(shù)據(jù)、匯總數(shù)據(jù))、數(shù)據(jù)應(yīng)用、數(shù)據(jù)服務(wù)、數(shù)據(jù)分發(fā)共享等環(huán)節(jié)構(gòu)建端到端的安全管控體系。對(duì)涉及用戶行為特征及關(guān)鍵信息的敏感數(shù)據(jù)進(jìn)行統(tǒng)一處理,脫敏后提供給應(yīng)用使用;不管是敏感數(shù)據(jù)還是非敏感數(shù)據(jù),所有數(shù)據(jù)的直接訪問(wèn)均在數(shù)據(jù)湖的管理范圍內(nèi)進(jìn)行,具體措施包括數(shù)據(jù)應(yīng)用環(huán)境、服務(wù)訪問(wèn)環(huán)境、共享分發(fā)環(huán)境、數(shù)據(jù)存儲(chǔ)環(huán)境統(tǒng)一管控,需要經(jīng)過(guò)統(tǒng)一的對(duì)象和屬性等的鑒權(quán)才能訪問(wèn)數(shù)據(jù),數(shù)據(jù)不出數(shù)據(jù)湖(即數(shù)據(jù)訪問(wèn)不出臺(tái)),只能使用服務(wù)化方式或經(jīng)過(guò)鑒權(quán)認(rèn)證的數(shù)據(jù)共享分發(fā)方式進(jìn)行數(shù)據(jù)訪問(wèn)。同時(shí)需要對(duì)大數(shù)據(jù)安全事件具備閉環(huán)管控能力,增強(qiáng)數(shù)據(jù)安全事件快速分析能力,提升安全事件發(fā)生后的應(yīng)對(duì)處置效率。
說(shuō)明:本文部分文字與圖片資源來(lái)自于網(wǎng)絡(luò),分享此文是出于傳遞更多信息之目的,若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)立即后臺(tái)留言通知我們,情況屬實(shí),我們會(huì)第一時(shí)間予以刪除,并同時(shí)向您表示歉意。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)