日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

億信ABI

一站式數(shù)據(jù)分析平臺

ABI（ALL in one BI）是億信華辰歷經(jīng)19年匠心打造的國產(chǎn)化BI工具，技術(shù)自主可控。它打通從數(shù)據(jù)接入、到數(shù)據(jù)建模與處理、再到數(shù)據(jù)分析與挖掘整個(gè)數(shù)據(jù)應(yīng)用全鏈路，可滿足企業(yè)經(jīng)營中各類復(fù)雜的分析需求，幫助企業(yè)實(shí)現(xiàn)高效數(shù)字化轉(zhuǎn)型。

在線免費(fèi)試用 DEMO體驗(yàn) 視頻介紹

億信ABI

一站式數(shù)據(jù)分析平臺

億信華辰深耕商業(yè)智能十多年，
打造一體化的填報(bào)、處理、可視化平臺。

免費(fèi)試用產(chǎn)品詳情

如何利用WonderDM實(shí)現(xiàn)可視化數(shù)據(jù)探索和預(yù)處理

時(shí)間：2018-12-12來源：億信華辰瀏覽數(shù)：1110次

跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程（CRISP-DM）把完整的數(shù)據(jù)挖掘過程定義為六個(gè)標(biāo)準(zhǔn)階段，分別是業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、創(chuàng)建模型、模型評估和模型應(yīng)用。

其中，數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘流程中的一個(gè)重要環(huán)節(jié)。具體工作主要包括清理、規(guī)約、轉(zhuǎn)換、抽樣等一系列的預(yù)處理工作，提高數(shù)據(jù)的質(zhì)量，使得數(shù)據(jù)挖掘算法可以更高效的執(zhí)行以及獲得更加有效的結(jié)果。

為什么要預(yù)處理數(shù)據(jù)

有些小伙伴可能會問，我的數(shù)據(jù)有現(xiàn)成的，為什么還要預(yù)處理數(shù)據(jù)，不能直接拿來進(jìn)行數(shù)據(jù)挖掘嗎？回答是，當(dāng)然能。但是，現(xiàn)實(shí)往往是殘酷的！

1.現(xiàn)實(shí)世界的數(shù)據(jù)是骯臟的（不完整，含噪聲，不一致）。

2.沒有高質(zhì)量的數(shù)據(jù)，就沒有高質(zhì)量的挖掘結(jié)果。

3.原始數(shù)據(jù)中存在很多問題，

不一致：數(shù)據(jù)內(nèi)部出現(xiàn)不一致情況

不正確：輸入的數(shù)據(jù)不符合字段的有效值

不準(zhǔn)確：數(shù)據(jù)可能是正確的，但是不準(zhǔn)確

重復(fù)數(shù)據(jù)：重復(fù)輸入的數(shù)據(jù)

不完整：感興趣的屬性值沒有

含噪聲：數(shù)據(jù)中存在著錯(cuò)誤、或異常（偏離期望值）的數(shù)據(jù)

高維度：存在信息冗余的多個(gè)屬性。

違反業(yè)務(wù)規(guī)則：例如起始日期大于截止日期等情況

有哪些數(shù)據(jù)預(yù)處理方法

常用的數(shù)據(jù)預(yù)處理方法可以歸納為四個(gè)方面。

數(shù)據(jù)清理

缺失值處理：數(shù)據(jù)中的缺失值會影響挖掘的正常進(jìn)行，造成挖掘結(jié)果不正確。對較大比例的缺失值可以進(jìn)行忽略處理，少量的缺失值可以采用最大、最小、均值、中位數(shù)、自定義表達(dá)式等方式進(jìn)行填充。

數(shù)據(jù)集成與過濾：用于去除冗余數(shù)據(jù)、進(jìn)行重復(fù)值檢測、編碼一致性、數(shù)據(jù)一致性等。

數(shù)據(jù)規(guī)約

維規(guī)約：減少所考慮的隨機(jī)變量或?qū)傩缘膫€(gè)數(shù)（主成分分析PCA）。

例如，一個(gè)汽車數(shù)據(jù)的樣本，里面既有“千米/每小時(shí)”的速度特征，也有“英里/小時(shí)”的速度特征，顯然有一個(gè)多余，需要消除冗余的特征。

數(shù)量規(guī)約和壓縮：用替代的、較小的數(shù)據(jù)表示形式替換原數(shù)據(jù)。

例如，不同年份的數(shù)據(jù)特征基本一樣，可以只保留一個(gè)年份的數(shù)據(jù)進(jìn)行挖掘。

數(shù)據(jù)變換

屬性構(gòu)造：從給定屬性構(gòu)造新的屬性，或者將屬性類別進(jìn)行變換，輔助數(shù)據(jù)挖掘過程。

例如根據(jù)月收入和獎(jiǎng)金等屬性可以構(gòu)造出年收入，便于用來預(yù)測年收入。

歸一化：將不同度量方式的數(shù)據(jù)放在同一個(gè)度量體系中進(jìn)行比較。

比如通過min-max標(biāo)準(zhǔn)化方法來求某個(gè)字段A的新值，然后進(jìn)行比較分析。歸一化是為了后面數(shù)據(jù)挖掘算法的方便，保正程序運(yùn)行時(shí)收斂加快，提高挖掘的精度。

標(biāo)準(zhǔn)化：數(shù)據(jù)的標(biāo)準(zhǔn)化是將數(shù)據(jù)按比例縮放，使之落入一個(gè)小的特定區(qū)間。可以通過z-score方法對原始數(shù)據(jù)的均值（mean）和標(biāo)準(zhǔn)差（standard deviation）進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化，同時(shí)不改變原始數(shù)據(jù)的分布。在某些比較和評價(jià)的指標(biāo)處理中經(jīng)常會用到，去除數(shù)據(jù)的單位限制，將其轉(zhuǎn)化為無量綱的純數(shù)值，便于不同單位或量級的指標(biāo)能夠進(jìn)行比較和加權(quán)。

離散化：也叫分箱，將數(shù)值屬性的原始值用區(qū)間標(biāo)簽或概念標(biāo)簽進(jìn)行替換。

如年收入數(shù)據(jù)，可以通過2-3W、3-5W等區(qū)間符號標(biāo)識，也可以用高收入、中等收入、低收入進(jìn)行離散化。

數(shù)據(jù)抽樣

通過數(shù)據(jù)抽樣來減少用于挖掘的數(shù)據(jù)量或者從一個(gè)大型數(shù)據(jù)集中提取大小固定的樣本。

隨機(jī)抽樣：按一定比例或者固定行數(shù)從總體中隨機(jī)的抽取樣本。

分層抽樣：將總體數(shù)據(jù)分成若干組或者分層，然后從分層中按比例或者固定個(gè)數(shù)抽取樣本。如果數(shù)據(jù)按層分布的特征比較明顯，可以采用分層抽樣，減少隨機(jī)抽樣造成的信息丟失。

如何進(jìn)行數(shù)據(jù)預(yù)處理

進(jìn)行數(shù)據(jù)預(yù)處理的一般流程為：

我們在網(wǎng)上找到了泰坦尼克乘客數(shù)據(jù)集（該數(shù)據(jù)集被評為五大最適合數(shù)據(jù)分析練手項(xiàng)目之一），想對該數(shù)據(jù)集進(jìn)行乘客是否存活的分類挖掘。

小編將為大家介紹如何利用億信華辰WonderDM的可視化數(shù)據(jù)探索和預(yù)處理功能，提高泰坦尼克乘客數(shù)據(jù)集的質(zhì)量，便于后續(xù)的挖掘。

上圖是泰坦尼克乘客數(shù)據(jù)集導(dǎo)入后的所有字段，可以看到數(shù)據(jù)集有12個(gè)字段（特征），除了Survived（表示是否獲救）外，其他是乘客的信息，為方便識別，我們利用WonderDM為每個(gè)字段加了中文標(biāo)題。

數(shù)據(jù)探索

WonderDM數(shù)據(jù)探索提供圖表與圖形幫助理解數(shù)據(jù)集統(tǒng)計(jì)信息。

泰坦尼克乘客數(shù)據(jù)集一共有891條記錄，其中Age，Cabin和Embarked三個(gè)字段有缺失值，為了準(zhǔn)確的挖掘，該數(shù)據(jù)集有下面幾個(gè)問題需要處理：

缺失值字段的處理

Cabin字段缺失值占比太高，后續(xù)不納入數(shù)據(jù)挖掘過程。

Age字段缺失值較少，且數(shù)據(jù)呈正態(tài)分布，考慮用平均值填充缺失值。

字段離散化

要按年齡段分析獲救人員情況，需要要將Age字段按年齡段分組為少年兒童、中青年、老年人。

值替換

要進(jìn)行分析的Survived字段用1和0分別表示是否獲救，不夠直觀，需要替換為更為直觀的Yes和No。

數(shù)據(jù)處理

WonderDM提供了一些簡便易懂的可視化數(shù)據(jù)預(yù)處理方式，能夠完成不同的數(shù)據(jù)預(yù)處理工作。

先用WonderDM創(chuàng)建一個(gè)自定義數(shù)據(jù)集，在這個(gè)新數(shù)據(jù)集上進(jìn)入”數(shù)據(jù)預(yù)處理”，通過“添加操作”菜單，添加需要的數(shù)據(jù)預(yù)處理操作。

一、設(shè)置數(shù)據(jù)源，選擇創(chuàng)建的titanic數(shù)據(jù)集對應(yīng)的表。

二、添加“值替換”，將Age字段空值替換為平均值。

三、添加“離散化”，對Age字段離散化，分為三個(gè)年齡段，離散化后的字段名為AGE_GRP。

四、離散化后的AGE_GRP字段值不直觀，則添加“值替換”進(jìn)一步替換為“少年兒童”，“中青年”，“老年”。

五、將Survived字段值替換為Yes和No。由于原字段是邏輯型，需增加一個(gè)字符型字段存放Yes和No，在界面上添加一個(gè)“添加字段”，輸入相應(yīng)的轉(zhuǎn)換表達(dá)式。

最后，一份完整的數(shù)據(jù)預(yù)處理過程列表見下圖，WonderDM還提供拖拽操作，調(diào)整各項(xiàng)操作的執(zhí)行順序，用戶可點(diǎn)擊主界面上的“運(yùn)行”按鈕開始數(shù)據(jù)預(yù)處理工作。

最終處理好的數(shù)據(jù)集如下圖所示，Age字段空值采用了平均值填充，離散化后的字段AGE_GRP采用了明確的年齡分組信息，IS_SURVIVED分別用Yes和No表示是否獲救。

至此，我們完成了一個(gè)數(shù)據(jù)處理工作，使用億信WonderDM可視化的數(shù)據(jù)預(yù)處理操作過程也非常方便易懂。

WonderDM(豌豆DM)是北京億信華辰軟件有限責(zé)任公司在十多年商業(yè)智能技術(shù)沉淀和豐富的行業(yè)經(jīng)驗(yàn)之上，潛心設(shè)計(jì)開發(fā)完成的一款零門檻、全程可視化的數(shù)據(jù)挖掘平臺。它具有數(shù)據(jù)預(yù)處理、圖形化數(shù)據(jù)探索、可視化建模、模型應(yīng)用等功能，可以實(shí)現(xiàn)客戶流失分析、風(fēng)險(xiǎn)分析、信用評價(jià)、關(guān)聯(lián)推薦、預(yù)測、關(guān)系網(wǎng)絡(luò)分析等各類數(shù)據(jù)的深入分析應(yīng)用。

（部分內(nèi)容來源網(wǎng)絡(luò)，如有侵權(quán)請聯(lián)系刪除）

立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用我要試用

上一篇：集團(tuán)企業(yè)數(shù)字化轉(zhuǎn)型之路，打造IT智慧運(yùn)維大屏很有必要...

下一篇：盤點(diǎn)：數(shù)據(jù)分析師必懂思維模型...