日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

讓數(shù)據(jù)清澈如水:數(shù)據(jù)清洗的策略與方法

時間:2020-11-23來源:知乎瀏覽數(shù):1234

數(shù)據(jù)倉庫中,數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務(wù)系統(tǒng)抽取而來,不同的數(shù)據(jù)來源加上歷史數(shù)據(jù)的堆積,難免會有問題數(shù)據(jù)出現(xiàn),這些問題數(shù)據(jù)大致可以分為三大類:不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)以及重復(fù)的數(shù)據(jù)。數(shù)據(jù)清洗的職責(zé)就是分辨、處理這些問題數(shù)據(jù)。

數(shù)據(jù)清洗,顧名思義,就是把數(shù)據(jù)拿去“洗一遍”,把其中的臟數(shù)據(jù)給“洗掉”,簡單來說,數(shù)據(jù)清洗就是發(fā)現(xiàn)并糾正數(shù)據(jù)中可識別的錯誤,從而來保持?jǐn)?shù)據(jù)的完整性、唯一性、一致性等。

針對不同問題數(shù)據(jù)有哪些清洗方式?
1、不完整的數(shù)據(jù)
不完整的數(shù)據(jù)是指一條數(shù)據(jù)中記錄某一特征的數(shù)據(jù)丟失了,比如員工信息表中名叫張三的員工的年齡缺失了。某些數(shù)據(jù)的缺失值可以從本數(shù)據(jù)源或其他數(shù)據(jù)源推導(dǎo)出來,像上例中的員工年齡就可以根據(jù)身份證號計算出來。除了這種特殊關(guān)系的數(shù)據(jù)缺失外,其他數(shù)據(jù)的缺失常用的清洗方法還有取平均值、最大值、最小值、計算結(jié)果值,或者取其他字段的值等等。

2、重復(fù)的數(shù)據(jù)
重復(fù)的數(shù)據(jù)就是相同的一條數(shù)據(jù)出現(xiàn)了兩次或以上,對于重復(fù)的數(shù)據(jù)清洗起來比較簡單,只需要根據(jù)主鍵或者其他規(guī)則刪除多余的數(shù)據(jù)即可。

3、錯誤的數(shù)據(jù)
錯誤的數(shù)據(jù)又可以分成格式錯誤和內(nèi)容錯誤兩種。格式錯誤是指我們收集到的數(shù)據(jù)的格式跟我們期望的數(shù)據(jù)格式不一致,比如設(shè)計的庫表字段為8位的日期“20200604”格式,但我們獲取到的數(shù)據(jù)為“2020-06-04”,這種數(shù)據(jù)肯定是存不進(jìn)數(shù)據(jù)庫的,需要將其清洗成8位的日期字符串,我們可以先將“2020-06-04”轉(zhuǎn)換為日期型的數(shù)據(jù),然后再將日期轉(zhuǎn)換為“YYYYMMDD”格式的字符串,也可以采用字符串分割在拼接的方法,依次取“2020-06-04”的1-4、6-7、9-10位拼接成一個新的字符串。

內(nèi)容錯誤的數(shù)據(jù)檢測處理則稍麻煩些,需要數(shù)據(jù)處理人員通過分析來找出臟數(shù)據(jù)。我們可以通過簡單的黑名單或白名單來找出臟數(shù)據(jù),只要一列數(shù)據(jù)中出現(xiàn)了黑名單上的值,就認(rèn)為該數(shù)據(jù)是臟數(shù)據(jù),并將其替換為我們預(yù)先準(zhǔn)備好的指定值。

如何在數(shù)據(jù)工廠中進(jìn)行數(shù)據(jù)清洗?
看完了上述數(shù)據(jù)清洗的方法和策略,大多數(shù)人還不太清楚實際操作中該如何清洗數(shù)據(jù)。下面就以億信數(shù)據(jù)工廠為例為大家演示清洗數(shù)據(jù)的全流程。

假設(shè)我們現(xiàn)在有一張員工信息表,表中入職時間字段格式為“yyyyMMddHH:mm:ss”,我們要將其格式改為“yyyy-MM-dd HH:mm:ss”,然后存入新的目標(biāo)表中,下面演示數(shù)據(jù)清洗的詳細(xì)步驟。

新建連接池

第一步創(chuàng)建源端數(shù)據(jù)源連接。依次點擊數(shù)據(jù)源 >> 連接池管理 >> 新建連接池 >> Oracle。

在彈出的對話框中輸入數(shù)據(jù)庫的信息,點擊保存。

2.創(chuàng)建ETL過程

第二步創(chuàng)建清洗任務(wù)。依次點擊,設(shè)計區(qū) >> ETL過程 >> 新建,進(jìn)入到ETL過程編輯器界面

依次將輸入輸出分組中的表輸入、表輸出組件和轉(zhuǎn)換組件分組中的清洗組件拖到右側(cè)編輯區(qū),并按照表輸入-清洗組件-表輸出的順序?qū)⒔M件連線。

雙擊點開表輸入組件,選擇剛剛創(chuàng)建的連接池,選擇需要清洗數(shù)據(jù)的表。

雙擊點開清洗組件,點擊“新增”按鈕;在彈出的窗口左側(cè)樹上選擇“日期時間字符串格式轉(zhuǎn)換”,在右側(cè)需要清洗的字段前面打上勾,并點擊日期時間轉(zhuǎn)換設(shè)置框中的右側(cè)“...”按鈕;在彈出的時間轉(zhuǎn)換格式對話框中,選擇轉(zhuǎn)換前和轉(zhuǎn)換后的字符串格式,這里選擇的是將“yyyyMMddHH:mm:ss”轉(zhuǎn)換為“yyyy-MM-dd HH:mm:ss”點擊確定關(guān)閉所有對話框。

雙擊點開表輸出組件,選擇目標(biāo)連接池和目標(biāo)表;點擊字段映射,在彈出的字段映射對話框中點擊“字段自動映射”,選擇“按文字匹配”,點擊“確定”按鈕關(guān)閉對話框。然后在關(guān)鍵字“NO_”后上打鉤。

在表輸出的目標(biāo)設(shè)置界面中,更新方式選擇“數(shù)據(jù)更新”,批量大小輸入“1000”。點擊確定,關(guān)閉組件設(shè)置對話框。這樣清洗任務(wù)就創(chuàng)建完成了。

3.運行ETL,查看數(shù)據(jù)
點擊上方工具欄中的“運行”按鈕,運行完成后右鍵點擊表輸出組件,選擇預(yù)覽數(shù)據(jù)。
這時候可以看到入職時間的數(shù)據(jù)格式全都變成了“yyyy-MM-dd HH:mm:ss”。至此數(shù)據(jù)清洗成功。

億信數(shù)據(jù)工廠中有數(shù)十個組件,內(nèi)置了大量的數(shù)據(jù)清洗轉(zhuǎn)換規(guī)則,還有SQL組件、表達(dá)式組件等支持用戶通過SQL的方式自定義轉(zhuǎn)換規(guī)則,實現(xiàn)一鍵清洗數(shù)據(jù)。通過數(shù)據(jù)工廠,可以簡單、快速完成數(shù)據(jù)的清洗工作。感興趣的小伙伴可前往億信華辰官網(wǎng)申請試用哦~

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費試用 我要試用
  • 相關(guān)主題
  • 相關(guān)大數(shù)據(jù)問答
  • 相關(guān)大數(shù)據(jù)知識
產(chǎn)品功能
平臺化

全面覆蓋數(shù)據(jù)治理9大領(lǐng)域,采用微服務(wù)架構(gòu),融合度高,延展性強(qiáng)

可視化

實現(xiàn)數(shù)據(jù)從創(chuàng)建到消亡全生命周期的可視化,也實現(xiàn)全角色的可視化

智能化

豐富的智能元素和功能,大大縮短數(shù)據(jù)管理周期、減少成本浪費

customer

在線咨詢

在線咨詢

點擊進(jìn)入在線咨詢