日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

首頁 行業百科 如何進行數據清洗整合?

如何進行數據清洗整合?

|億信華辰大數據知識庫2022-04-29

如何進行數據清洗整合?

當與各種數據打交道的時候,通常會發現,數據本身真的不是那么友好。在分析業務狀況時,儲存業務數據的表,與儲存想要分析的角度表,很可能不會直接關聯,而是需要通過多層關聯來達到,這為分析增加了很大的復雜度

當與各種數據打交道的時候,通常會發現,數據本身真的不是那么友好。在分析業務狀況時,儲存業務數據的表,與儲存想要分析的角度表,很可能不會直接關聯,而是需要通過多層關聯來達到,這為分析增加了很大的復雜度,同時因為業務數據庫會接受大量用戶的輸入,如果業務系統沒有做好足夠的數據校驗,就會產生一些錯誤數據,比如不合法的身份證號,或者不應存在的Null值,空字符串等。所以,數據清洗整合是整個數據分析過程中不可缺少的一個環節,其結果質量直接關系到模型效果和最終結論。
一、什么是數據清洗
數據清洗是指對“臟”數據進行對應方式的處理,臟在這里意味著數據的質量不夠好,會掩蓋數據的價值,更會對其后的數據分析帶來不同程度的影響。在實際操作中,數據清洗通常會占據分析過程的50%—80%的時間。其目的就是從以上大量的、結構復雜、雜亂無章、難以理解的數據中抽取并推導出對解決問題有價值、有意義的數據和數據結構。清洗后、保存下來真正有價值、有條理的數據,為后面做數據分析減少分析障礙。
二、如何進行數據清洗
1、缺失值清洗
1)確定缺失值范圍:對每個字段都計算其缺失值比例,然后按照缺失比例和字段重要性,分別制定策略;
2)去除不需要的字段;
3)填充缺失內容:以同一指標的計算結果(均值、中位數、眾數等)填充缺失值;
以不同指標的計算結果填充缺失值;以業務知識或經驗推測填充缺失值;
4)重新取數:如果某些指標非常重要又缺失率高,那就需要和取數人員或業務人員了解,是否有其他渠道可以取到相關數據。
2、格式內容清洗
如果數據是由系統日志而來,那么通常在格式和內容方面,會與元數據的描述一致。而如果數據是由人工收集或用戶填寫而來,則有很大可能性在格式和內容上存在一些問題:內容中有不該存在的字符;內容與該字段應有內容不符;時間、日期、數值、全半角等顯示格式不一致。
3、邏輯錯誤清洗
這部分的工作是去掉一些使用簡單邏輯推理就可以直接發現問題的數據,防止分析結果走偏。
1)去重:去除重復數據;
2)去除不合理值:對于不合理的值,要么刪掉,要么按缺失值處理;
3)修正矛盾內容:有些字段是可以互相驗證的,需要根據字段的數據來源,來判定哪個字段提供的信息更為可靠,去除或重構不可靠的字段。
4、非需求數據清洗
簡而言之,就是把不要的字段刪了。但是在實際操作中,如果數據量沒有大到不刪字段就沒辦法處理的程度,那么能不刪的字段盡量不刪。
5、關聯性驗證

如果你的數據有多個來源,那么有必要進行關聯性驗證。例如,你有汽車的線下購買信息,也有電話客服問卷信息,兩者通過姓名和手機號關聯,那么要看一下,同一個人線下登記的車輛信息和線上問卷問出來的車輛信息是不是同一輛,如果不是(別笑,業務流程設計不好是有可能出現這種問題的!),那么需要調整或去除數據。

三、好用的數據清洗工具推薦
睿治數據治理平臺融合數據集成、數據交換、實時計算存儲、元數據管理、數據標準管理、數據質量管理、主數據管理、數據資產管理、數據安全管理、數據生命周期管理十大產品模塊,打通數據治理各個環節,十大產品模塊可獨立或任意組合使用,快速滿足政府、企業各類不同的數據治理場景。
其中,數據集成管理可實現跨部門數據的傳輸、加載、清洗、轉換和整合,支持自定義調度和圖形化監控,實現統一調度、統一監控,滿足運維可視化需求,提高運維管理工作效率。
認為本內容有幫助
0
您可能需要的數據產品
億信華辰助力政企數字化轉型
customer

在線咨詢

在線咨詢

點擊進入在線咨詢