隨著大數(shù)據(jù)時(shí)代的到來,以及現(xiàn)代信息化建設(shè)程度的加深,企業(yè)的業(yè)務(wù)不斷拓展,科技支撐越來越全面,信息系統(tǒng)越來越多,產(chǎn)生和處理的數(shù)據(jù)會(huì)越來越復(fù)雜,數(shù)據(jù)種類更加繁多,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)共存,而且隨著外部數(shù)據(jù)的加入,這些數(shù)據(jù)共同形成大數(shù)據(jù),大數(shù)據(jù)規(guī)模成幾何級(jí)增長(zhǎng),它們的管理和存儲(chǔ)成本大幅度增加,占據(jù)企業(yè)IT投資的重要部分。因此,在數(shù)據(jù)的不同階段采用不同的存儲(chǔ)和處理技術(shù),按照數(shù)據(jù)的生命周期對(duì)其遷移,實(shí)現(xiàn)各個(gè)階段的技術(shù)成本與價(jià)值之比達(dá)到最優(yōu)。
數(shù)據(jù)生命周期的定義
數(shù)據(jù)生命周期,通常是指某個(gè)集合的數(shù)據(jù)從產(chǎn)生或獲取到銷毀的過程。數(shù)據(jù)生命周期分為靜態(tài)數(shù)據(jù)生命周期與動(dòng)態(tài)數(shù)據(jù)生命周期。企業(yè)要實(shí)現(xiàn)數(shù)據(jù)價(jià)值的挖掘和應(yīng)用,需要對(duì)數(shù)據(jù)全生命周期管理加以重視。在數(shù)據(jù)采集策略和范圍、存儲(chǔ)和計(jì)算、數(shù)據(jù)整合能力、可視化的程度和分析的廣度與深度等方面投入相應(yīng)資源,然后,針對(duì)數(shù)據(jù)生命周期各個(gè)階段的特點(diǎn)采取不同的管理方法和控制手段,這樣才能從數(shù)據(jù)中挖掘出更多有效的數(shù)據(jù)價(jià)值。
靜態(tài)數(shù)據(jù)生命周期
生成期:數(shù)據(jù)的生成無時(shí)無刻不在進(jìn)行,一旦開始將幾乎無法進(jìn)行人為干預(yù)。數(shù)據(jù)的生成階段包括Who(由誰生成)、When(生成時(shí)間)、Where(生成地點(diǎn))以及How(如何生成)。為了避免數(shù)據(jù)生成失控,從而嚴(yán)重影響數(shù)據(jù)使用的安全性,需要事先指定數(shù)據(jù)生成規(guī)則。
活動(dòng)期:在活動(dòng)期,數(shù)據(jù)將會(huì)被用于查詢、更新、聚合、復(fù)制等各種活動(dòng)方式。數(shù)據(jù)活動(dòng)一般都體現(xiàn)為一定強(qiáng)度的曲線波動(dòng),且都符合一定的預(yù)期及規(guī)范,可以審查和追蹤。不是所有數(shù)據(jù)都具有活動(dòng)期,不同數(shù)據(jù)的活動(dòng)期差異度很大,例如很多臨時(shí)數(shù)據(jù)、日志數(shù)據(jù)等生成后就直接進(jìn)入歸檔期。
衰退期:數(shù)據(jù)活動(dòng)一段時(shí)間后,經(jīng)過多個(gè)階梯式階段,數(shù)據(jù)的使用強(qiáng)度開始逐步下跌。數(shù)據(jù)活動(dòng)會(huì)日益減少,但當(dāng)數(shù)據(jù)價(jià)值的再發(fā)現(xiàn)或數(shù)據(jù)安全性事件的發(fā)生,數(shù)據(jù)活動(dòng)會(huì)出現(xiàn)劇烈波動(dòng)。
歸檔期:當(dāng)數(shù)據(jù)訪問進(jìn)入非常稀疏的階段,并禁止數(shù)據(jù)被更新時(shí),就認(rèn)為其進(jìn)入歸檔期。歸檔數(shù)據(jù)需要進(jìn)行周全的保護(hù),因?yàn)閿?shù)據(jù)會(huì)存在價(jià)值再發(fā)現(xiàn)的過程,因此歸檔期的數(shù)據(jù)可能存在再次進(jìn)入活動(dòng)期的可能性。
銷毀期:為了降低成本和數(shù)據(jù)安全風(fēng)險(xiǎn),當(dāng)數(shù)據(jù)已經(jīng)沒有使用或被監(jiān)管的價(jià)值時(shí),就需要被銷毀。
動(dòng)態(tài)數(shù)據(jù)生命周期
數(shù)據(jù)采集:新數(shù)據(jù)產(chǎn)生或原數(shù)據(jù)出現(xiàn)變更時(shí),需要對(duì)數(shù)據(jù)進(jìn)行采集。數(shù)據(jù)采集范圍的分類可包括:圖片數(shù)據(jù)、語音數(shù)據(jù)、視頻數(shù)據(jù)、設(shè)備地理位置信息、用戶上網(wǎng)行為埋點(diǎn)、可穿戴設(shè)備等生活信息、網(wǎng)站信息、業(yè)務(wù)或管理系統(tǒng)日志等。數(shù)據(jù)的采集既包含在組織機(jī)構(gòu)內(nèi)部系統(tǒng)中生成的數(shù)據(jù),也包含組織機(jī)構(gòu)從外部采集的數(shù)據(jù)。
數(shù)據(jù)存儲(chǔ):指非動(dòng)態(tài)數(shù)據(jù)以任何數(shù)字格式進(jìn)行物理存儲(chǔ)的階段。應(yīng)當(dāng)選擇合適的存儲(chǔ)技術(shù)(文件系統(tǒng)、分布式關(guān)系數(shù)據(jù)庫、傳統(tǒng)關(guān)系數(shù)據(jù)庫、消息系統(tǒng)、Nosql存儲(chǔ)等),因?yàn)椋鶕?jù)數(shù)據(jù)使用頻率不同對(duì)時(shí)效性、讀寫查詢性能、存儲(chǔ)量等差異性要求。
數(shù)據(jù)處理:指組織機(jī)構(gòu)在內(nèi)部針對(duì)動(dòng)態(tài)數(shù)據(jù)進(jìn)行的一系列活動(dòng)的組合,通常會(huì)涉及到元數(shù)據(jù)管理、ETL、數(shù)據(jù)清洗、數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量等。
數(shù)據(jù)傳輸:指數(shù)據(jù)在組織機(jī)構(gòu)內(nèi)部從一個(gè)實(shí)體通過網(wǎng)絡(luò)流動(dòng)到另一個(gè)實(shí)體的過程。
數(shù)據(jù)交換:指數(shù)據(jù)經(jīng)由組織機(jī)構(gòu)內(nèi)部與外部組織機(jī)構(gòu)及個(gè)人交互過程中提供數(shù)據(jù)的階段。
數(shù)據(jù)銷毀:指通過對(duì)數(shù)據(jù)及數(shù)據(jù)的存儲(chǔ)介質(zhì)通過相應(yīng)的操作手段,使數(shù)據(jù)徹底消失且無法通過任何手段恢復(fù)的過程。
睿治智能數(shù)據(jù)治理平臺(tái)由億信華辰自主研發(fā),是一款融合數(shù)據(jù)集成、數(shù)據(jù)交換、實(shí)時(shí)計(jì)算存儲(chǔ)、元數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理、主數(shù)據(jù)管理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)安全管理、數(shù)據(jù)生命周期管理十大產(chǎn)品模塊,覆蓋數(shù)據(jù)全生命周期管理的應(yīng)用平臺(tái),打通數(shù)據(jù)治理各個(gè)環(huán)節(jié),十大產(chǎn)品模塊可獨(dú)立或任意組合使用,快速滿足政府、企業(yè)各類不同的數(shù)據(jù)治理場(chǎng)景。