日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

大數(shù)據(jù)必備知識:數(shù)據(jù)的分類方式

時間:2019-03-12來源:億信華辰瀏覽數(shù):3772

數(shù)據(jù)分類在收集、處理和應(yīng)用數(shù)據(jù)過程中非常重要。數(shù)據(jù)的分類方式很多,每種方式都有特別的作用。數(shù)據(jù)工作中不同角色往往需要理解和掌握不同的分類方式,以便更好地組織、管理、分析和應(yīng)用數(shù)據(jù)。


比如,數(shù)據(jù)平臺架構(gòu)師必須理解每個組件適合處理什么類型的數(shù)據(jù),數(shù)據(jù)倉庫工程師需要根據(jù)數(shù)據(jù)類型采取適合的數(shù)據(jù)清洗方法,數(shù)據(jù)分析人員必須知道數(shù)據(jù)的組織結(jié)構(gòu)才能找到想要的數(shù)據(jù)。


下面將逐個介紹各種常見分類方式,并簡單介紹每種分類的使用場景,以及對每個角色的重要程度。


(1)從字段類型上:文本類(string、char、text等)、數(shù)值類(int、float、number等)、時間類(data、timestamp等)

  • 文本類數(shù)據(jù)常用于描述性字段,如姓名、地址、交易摘要等。這類數(shù)據(jù)不是量化值,不能直接用于四則運(yùn)算。在使用時,可先對該字段進(jìn)行標(biāo)準(zhǔn)化處理(比如地址標(biāo)準(zhǔn)化)再進(jìn)行字符匹配,也可直接模糊匹配。
  • 數(shù)值類數(shù)據(jù)用于描述量化屬性,或用于編碼。如交易金額、額度、商品數(shù)量、積分?jǐn)?shù)、客戶評分等都屬于量化屬性,可直接用于四則運(yùn)算,是日常計算指標(biāo)的核心字段。郵編、身份證號碼、卡號之類的則屬于編碼,是對多個枚舉值進(jìn)行有規(guī)則編碼,可進(jìn)行四則運(yùn)算,但無實(shí)質(zhì)業(yè)務(wù)含義,不少編碼都作為維度存在。
  • 時間類數(shù)據(jù)僅用于描述事件發(fā)生的時間,時間是一個非常重要的維度,在業(yè)務(wù)統(tǒng)計或分析中非常重要。


這種分類方式是最基本的,和很多場景有關(guān)。其一在系統(tǒng)設(shè)計時,需要確定每個字段的類型,以便設(shè)計數(shù)據(jù)庫結(jié)構(gòu)。其二,在數(shù)據(jù)清洗時,文本類數(shù)據(jù)往往很難清洗,而且很多文本類數(shù)據(jù)也沒有清洗的必要,比如備注或客戶評論。數(shù)值類和時間類數(shù)據(jù)是清洗的重點(diǎn),這類字段在業(yè)務(wù)上一般都有明確的取值范圍,比如年齡必須大于0。對于不合法的取值,通常用默認(rèn)值填充。其三,在建立維度模型時,數(shù)值類中的編碼型字段和時間類字段通常作為維度,數(shù)值類中的量化屬性作為度量。


該分類對每種角色的重要程度:

  • 數(shù)據(jù)平臺架構(gòu)師:★
  • 數(shù)據(jù)倉庫工程師:★★★
  • 數(shù)據(jù)分析和挖掘人員:★★


(2)從數(shù)據(jù)結(jié)構(gòu)上:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)

  • 結(jié)構(gòu)化數(shù)據(jù)通常是指用關(guān)系數(shù)據(jù)庫方式記錄的數(shù)據(jù),數(shù)據(jù)按表和字段進(jìn)行存儲,字段之間相互獨(dú)立。
  • 半結(jié)構(gòu)化數(shù)據(jù)是指以自描述的文本方式記錄的數(shù)據(jù),由于自描述數(shù)據(jù)無需滿足關(guān)系數(shù)據(jù)庫上那種非常嚴(yán)格的結(jié)構(gòu)和關(guān)系,在使用過程中非常方便。很多網(wǎng)站和應(yīng)用訪問日志都采用這種格式,網(wǎng)頁本身也是這種格式。
  • 非結(jié)構(gòu)化數(shù)據(jù)通常是指語音、圖片、視頻等格式的數(shù)據(jù)。這類數(shù)據(jù)一般按照特定應(yīng)用格式進(jìn)行編碼,數(shù)據(jù)量非常大,且不能簡單地轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)。


這種分類方式近幾年特別重要,相關(guān)的場景包括:其一,結(jié)構(gòu)化數(shù)據(jù)是傳統(tǒng)數(shù)據(jù)的主體,而半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)是大數(shù)據(jù)的主體。后者的增長速度比前者快很多,大數(shù)據(jù)的量這么大,主要是因?yàn)榘虢Y(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的增長速度太快。其二,在數(shù)據(jù)平臺設(shè)計時,結(jié)構(gòu)化數(shù)據(jù)用傳統(tǒng)的關(guān)系數(shù)據(jù)庫便可高效處理,而半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)必須用Hadoop等大數(shù)據(jù)平臺。其三,在數(shù)據(jù)分析和挖掘時,不少工具都要求輸入結(jié)構(gòu)化數(shù)據(jù),因此必須把半結(jié)構(gòu)化數(shù)據(jù)先轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)。


該分類對每種角色的重要程度:

  • 數(shù)據(jù)平臺架構(gòu)師:★★★
  • 數(shù)據(jù)倉庫工程師:★★★
  • 數(shù)據(jù)分析和挖掘人員:★★★


(3)從描述事物的角度:狀態(tài)類數(shù)據(jù)、事件類數(shù)據(jù)、混合類數(shù)據(jù)

  • 用數(shù)據(jù)來描述客觀世界,一般可以從兩個方面出發(fā)。第一方面是描述客觀世界的實(shí)體,也即一個個對象,比如人、桌子、賬戶等等。對于這些對象,各有各的特征,不同種類的對象擁有不同的特征,比如人的特征包括姓名、性別和年齡,桌子的特征包括顏色和材質(zhì);對于同一種對象的不同個體,其特征值的不同,比如張三男20歲,李四女24歲。有些特征穩(wěn)定不變,而另一些則會不斷發(fā)生變化,比如性別一般不變,但賬戶金額、人的位置則隨時可能變化。因此,可以使用一組特征數(shù)據(jù)來描述每個對象,這些數(shù)據(jù)可以隨時間發(fā)生變化(數(shù)據(jù)的變化一方面依賴于對象的變化,另一方面依賴于變化反映到數(shù)據(jù)上的時間差),每個時點(diǎn)的數(shù)據(jù)反映這個時點(diǎn)對象所處的狀態(tài),因此稱之為狀態(tài)類數(shù)據(jù)。
  • 第二方面是描述客觀世界中對象之間的關(guān)系,它們是怎么互動的,怎么發(fā)生反應(yīng)的。我們把這一次次互動或反應(yīng)記錄下來,這類數(shù)據(jù)稱之為事件類數(shù)據(jù)。比如客戶到商店買了件衣服,這里出現(xiàn)三個對象,分別是客戶、商店、衣服,三個對象之間發(fā)生了一次交易關(guān)系。
  • 混合類數(shù)據(jù)理論上也屬于事件類數(shù)據(jù)范疇,兩者的差別在于,混合類數(shù)據(jù)所描述的事件發(fā)生過程持續(xù)較長,記錄數(shù)據(jù)時該事件還沒有結(jié)束,還將發(fā)生變化。比如訂單,從訂單生成到結(jié)案整個過程需要持續(xù)一段時間,首次記錄訂單數(shù)據(jù)是在訂單生產(chǎn)的時候,訂單狀態(tài)、訂單金額后續(xù)還可能多次變化。


這種分類方式在數(shù)據(jù)倉庫建模是特別重要。數(shù)據(jù)倉庫需要保存各種歷史數(shù)據(jù),不同類型的歷史數(shù)據(jù)保存方式差別很大。狀態(tài)類數(shù)據(jù)保存歷史的方式一般有兩種:存儲快照或者SCD方式。事件類數(shù)據(jù)一旦發(fā)生就已經(jīng)是歷史了,只需直接存儲或者按時間分區(qū)存儲。混合類數(shù)據(jù)保存歷史比較復(fù)雜,可以把變化的字段分離出來,按狀態(tài)類數(shù)據(jù)保存,剩下不變的則按事件類數(shù)據(jù)保存,使用時再把兩者合并。另一個相關(guān)場景就客戶畫像,客戶畫像通常用狀態(tài)類數(shù)據(jù),對于和客戶相關(guān)的事件類數(shù)據(jù)和混合類數(shù)據(jù),也會轉(zhuǎn)換成和狀態(tài)類數(shù)據(jù)相同的形態(tài)。


該分類對每種角色的重要程度:

  • 數(shù)據(jù)平臺架構(gòu)師:★
  • 數(shù)據(jù)倉庫工程師:★★★
  • 數(shù)據(jù)分析和挖掘人員:★★


(4)從數(shù)據(jù)處理的角度:原始數(shù)據(jù)、衍生數(shù)據(jù)

  • 原始數(shù)據(jù)是指來自上游系統(tǒng)的,沒有做過任何加工的數(shù)據(jù)。雖然會從原始數(shù)據(jù)中產(chǎn)生大量衍生數(shù)據(jù),但還是會保留一份未作任何修改的原始數(shù)據(jù),一旦衍生數(shù)據(jù)發(fā)生問題,可以隨時從原始數(shù)據(jù)重新計算。
  • 衍生數(shù)據(jù)是指通過對原始數(shù)據(jù)進(jìn)行加工處理后產(chǎn)生的數(shù)據(jù)。衍生數(shù)據(jù)包括各種數(shù)據(jù)集市、匯總層、寬表、數(shù)據(jù)分析和挖掘結(jié)果等等。從衍生目的上,可以簡單分為兩種情況,一種是為提高數(shù)據(jù)交付效率,數(shù)據(jù)集市、匯總層、寬表都屬于這種情況。另一種是為解決業(yè)務(wù)問題,數(shù)據(jù)分析和挖掘結(jié)果就屬于這種。


這種分類方式主要用在管理數(shù)據(jù)上,對原始數(shù)據(jù)的管理和衍生數(shù)據(jù)的管理有一些差別。原始數(shù)據(jù)通常只要保留一份,衍生數(shù)據(jù)卻不同,管理形式比較靈活,只要有利于提高數(shù)據(jù)分析和挖掘效率,產(chǎn)生更大的數(shù)據(jù)價值,任何形式都可以嘗試。比如為每個業(yè)務(wù)條線定制個性化數(shù)據(jù)集市,提高每個業(yè)務(wù)條線的數(shù)據(jù)分析效率,雖然不同集市存在大量冗余的數(shù)據(jù),但只要能大幅提高分析效率,用空間換時間也未嘗不可。


該分類對每種角色的重要程度:

  • 數(shù)據(jù)平臺架構(gòu)師:★★
  • 數(shù)據(jù)倉庫工程師:★★★
  • 數(shù)據(jù)分析和挖掘人員:★


(5)從數(shù)據(jù)粒度上:明細(xì)數(shù)據(jù)、匯總數(shù)據(jù)

  • 通常從業(yè)務(wù)系統(tǒng)獲取的原始數(shù)據(jù),是粒度比較小的,包括大量業(yè)務(wù)細(xì)節(jié)。比如,客戶表中包含每個客戶的性別、年齡、姓名等數(shù)據(jù),交易表中包含每筆交易的時間、地點(diǎn)、金額等數(shù)據(jù)。這種數(shù)據(jù)我們稱之為明細(xì)數(shù)據(jù)。明細(xì)數(shù)據(jù)雖然包括了最為豐富的業(yè)務(wù)細(xì)節(jié),但在分析和挖掘時,往往需要進(jìn)行大量的計算,效率比較低。
  • 為了提高數(shù)據(jù)分析效率,需要對數(shù)據(jù)進(jìn)行預(yù)加工,通常按時間維度、地區(qū)維度、產(chǎn)品維度等常用維度進(jìn)行匯總。分析數(shù)據(jù)時,優(yōu)先使用匯總數(shù)據(jù),如果匯總數(shù)據(jù)滿足不了需求則使用明細(xì)數(shù)據(jù),以此提高數(shù)據(jù)使用效率。


這種分類方式的相關(guān)場景有兩種,一種是在數(shù)據(jù)倉庫設(shè)計時,如何對數(shù)據(jù)進(jìn)行匯總,按什么方式進(jìn)行匯總,才能達(dá)到使用效率和匯總成本的平衡。另一種是數(shù)據(jù)分析人員在分析數(shù)據(jù)時,在明細(xì)數(shù)據(jù)、各種匯總數(shù)據(jù)之間選擇合適的數(shù)據(jù),以提高分析效率。


該分類對每種角色的重要程度:

  • 數(shù)據(jù)平臺架構(gòu)師:★
  • 數(shù)據(jù)倉庫工程師:★★★
  • 數(shù)據(jù)分析和挖掘人員:★★★


(6)從更新方式上:批量數(shù)據(jù)、實(shí)時數(shù)據(jù)

  • 源系統(tǒng)提供數(shù)據(jù)時,不同的源系統(tǒng)有不同的提供方式,主要可以分為兩種方式。 一種是批量方式 ,這種方式每隔一段時間提供一次,把該時段內(nèi)所有變化的都提供過來。批量方式時效較低,大部分傳統(tǒng)系統(tǒng)都采用T+1方式,業(yè)務(wù)用戶最快只能分析到前一天的數(shù)據(jù),看前一天的報表。
  • 另一種方式是實(shí)時方式,即每當(dāng)數(shù)據(jù)發(fā)生變化或產(chǎn)生新數(shù)據(jù),就會立刻提供過來。這種方式時效快,能有效滿足時效要求高的業(yè)務(wù),比如場景營銷。但該方式對技術(shù)要求更高,必須保證系統(tǒng)足夠穩(wěn)定,一旦出現(xiàn)數(shù)據(jù)錯誤,容易造成較嚴(yán)重的業(yè)務(wù)影響。


這種分類方式也非常重要,目前有越來越多系統(tǒng)采取該方式提供數(shù)據(jù)。這對數(shù)據(jù)處理、數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用產(chǎn)生了巨大的影響。一方面能為業(yè)務(wù)提供近乎實(shí)時的數(shù)據(jù)和報表支持,實(shí)現(xiàn)高時效的業(yè)務(wù)場景。另一方面也極大地增加了數(shù)據(jù)架構(gòu)、數(shù)據(jù)分析和應(yīng)用的技術(shù)難度。


該分類對每種角色的重要程度:

  • 數(shù)據(jù)平臺架構(gòu)師:★★★
  • 數(shù)據(jù)倉庫工程師:★★
  • 數(shù)據(jù)分析和挖掘人員:★★
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
產(chǎn)品功能
平臺化

全面覆蓋數(shù)據(jù)治理9大領(lǐng)域,采用微服務(wù)架構(gòu),融合度高,延展性強(qiáng)

可視化

實(shí)現(xiàn)數(shù)據(jù)從創(chuàng)建到消亡全生命周期的可視化,也實(shí)現(xiàn)全角色的可視化

智能化

豐富的智能元素和功能,大大縮短數(shù)據(jù)管理周期、減少成本浪費(fèi)

customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢