日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

首頁 億信華辰大數據問答 數據質量管理之事后補救-數據問題補救
我要提問
寫回答

數據質量管理之事后補救-數據問題補救

數據質量管理 共 1 個回答
  • 蒲公渶
    蒲公渶

    2023-01-12

    盡管數據質量控制可以在很大程度上起到控制和預防不良數據發生的作用,但事實上,再嚴格的質量控制也無法做到 100%的數據問題防治,甚至過于嚴格的數據質量控制還會引起其他數據問題。因此,企業需要不時進行主動的數據清理和補救措施,以糾正現有的數據問題。

    1、清理重復數據
    對經數據質量檢核檢查出的重復數據進行人工或自動處理,處理的方法有刪除或合并。例如:對于兩條完全相同的重復記錄,刪除其中一條;如果重復的記錄不完全相同,則將兩條記錄合并為一條,或者只保留相對完整、準確的那條。

    2、清理派生數據
    派生數據是由其他數據派生出來的數據,例如:“利潤率”就是在“利潤”的基礎上計算得出的,它就是派生數據。而一般情況下,存儲派生出的數據是多余的,不僅會增加存儲和維護成本,而且會增大數據出錯的風險。如果由于某種原因,利潤率的計算方式發生了變化,那么必須重新計算該值,這就會增加發生錯誤的機會。因此,需要對派生數據進行清理,可以存儲其相關算法和公式,而不是結果。

    3、缺失值處理
    處理缺失值的策略是對缺失值進行插補修復,有兩種方式:人工插補和自動插補。對于“小數據”的數據缺失值,一般采用人工插補的方式,例如主數據的完整性治理。而對于大數據的數據缺失值問題,一般采用自動插補的方式進行修復。自動插補主要有三種方式:

    ● 利用上下文插值修復;
    ● 采用平均值、最大值或最小值修復;
    ● 采用默認值修復。

    當然,最為有效的方法是采用相近或相似數值進行插補,例如利用機器學習算法找到相似值進行插補修復。

    4、異常值處理
    異常值處理的核心是找到異常值。異常值的檢測方法有很多,大多要用到以下機器學習技術:
    ● 基于統計的異常檢測;
    ● 基于距離的異常檢測;
    ● 基于密度的異常檢測;
    ● 基于聚類的異常檢測。

您可能需要的數據產品
億信華辰助力政企數字化轉型

現在申請試用億信華辰數據軟件,馬上可獲得:

50+

領導駕駛艙、大屏分析等BI模板

100+

多行業數字化轉型解決方案

1500+

海量工具及行業應用學習視頻

立即申請試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢