可免費試用30天
已有30000+人申請
全程“零”編碼,高效實現主數據模型、主數據維護、主數據分發、主數據質量的全過程管理,為企業主數據管理落地提供有效支撐,實現各業務系統間的主數據共享,保障企業主數據的唯一性、準確性、一致性。
覆蓋數據建模、采集、處理、集成、共享、交換、安全脫敏于一體,一站式解決數據開發所有的問題。
統一指標定義,實現“一變多變、一數多現”的數據管理效果,為企業提供強有力的數字化保障和驅動效應。
企業級智能體平臺,低門檻搭建智能體,靈活編排流程,融合 LLM 實現“問數”、“問知識”
面向企業級數據資產交易運營場景,助力企業實現數據資產的價值挖掘、升值和資產變現。
2023-01-12
盡管數據質量控制可以在很大程度上起到控制和預防不良數據發生的作用,但事實上,再嚴格的質量控制也無法做到 100%的數據問題防治,甚至過于嚴格的數據質量控制還會引起其他數據問題。因此,企業需要不時進行主動的數據清理和補救措施,以糾正現有的數據問題。
1、清理重復數據
對經數據質量檢核檢查出的重復數據進行人工或自動處理,處理的方法有刪除或合并。例如:對于兩條完全相同的重復記錄,刪除其中一條;如果重復的記錄不完全相同,則將兩條記錄合并為一條,或者只保留相對完整、準確的那條。
2、清理派生數據
派生數據是由其他數據派生出來的數據,例如:“利潤率”就是在“利潤”的基礎上計算得出的,它就是派生數據。而一般情況下,存儲派生出的數據是多余的,不僅會增加存儲和維護成本,而且會增大數據出錯的風險。如果由于某種原因,利潤率的計算方式發生了變化,那么必須重新計算該值,這就會增加發生錯誤的機會。因此,需要對派生數據進行清理,可以存儲其相關算法和公式,而不是結果。
3、缺失值處理
處理缺失值的策略是對缺失值進行插補修復,有兩種方式:人工插補和自動插補。對于“小數據”的數據缺失值,一般采用人工插補的方式,例如主數據的完整性治理。而對于大數據的數據缺失值問題,一般采用自動插補的方式進行修復。自動插補主要有三種方式:
● 利用上下文插值修復;
● 采用平均值、最大值或最小值修復;
● 采用默認值修復。
當然,最為有效的方法是采用相近或相似數值進行插補,例如利用機器學習算法找到相似值進行插補修復。
4、異常值處理
異常值處理的核心是找到異常值。異常值的檢測方法有很多,大多要用到以下機器學習技術:
● 基于統計的異常檢測;
● 基于距離的異常檢測;
● 基于密度的異常檢測;
● 基于聚類的異常檢測。
現在申請試用億信華辰數據軟件,馬上可獲得:
領導駕駛艙、大屏分析等BI模板
多行業數字化轉型解決方案
海量工具及行業應用學習視頻