- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2021-06-22來源:億信華辰瀏覽數:418次
數據質量管理是數據治理中的重要步驟。這是準備數據以符合質量標準(例如有效性,均勻性,準確性,一致性和完整性)的過程。數據質量管理可從數據集中刪除不需要的,重復的和不正確的數據,從而幫助分析師獲得更加準確的數據。
企業中的大多數使用高級數據工具來收集大量數據。原始數據通常包含錯誤,如果不做數據質量管理,可能會導致錯誤的結果。數據質量管理是數據治理中獲得正確上下文和結論的基本步驟。
數據質量管理的第一步是建立一套質量標準。必須明確定義標準,以從數據集中過程中過濾掉“臟數據”。您可以定義以下幾個條件。
數據約束:有多種類型的數據約束可確保收集的數據具有最佳質量,例如:
·?數據類型約束:僅限于注冊值的范圍,例如布爾值,數字,日期等。
·?范圍限制:數值不是絕對的,而是具有最小和/或最大允許值。
·?強制性約束:必須填寫所有列。
·?唯一性約束:每個字段或字段組合在整個數據集中都必須是唯一的。
·?成員資格約束:每列中的一組離散值或代碼。
·?外鍵約束:子值可以通過一組允許值添加到其他列。?
·?正則表達式模式:設置允許的模式,例如電話號碼,站號,密碼等模式。
設置數據約束有助于在數據收集過程的一開始就保持數據質量。
盡管數據約束在一定程度上確保了正確的數據值,但考慮到該領域的主觀方面,準確性仍然是一個挑戰。例如,如果必須填寫街道地址,則設置模式約束有助于確保密碼和狀態正確,但是街道地址可能不正確。
進一步有可能規避圖案。例如,盡管電話號碼格式正確,但是該電話號碼可能不正確或無法操作。?????
當您組合多個數據集以生成洞察力時,數據集中就會出現重復。重復的數據可能是數據不完整的結果,也可能是數據結構中的問題。例如,在醫院數據集中,如果同一位患者因其他疾病而來訪,您可能不希望將其視為來自同一位置,具有相同電話號碼的兩名不同患者。此類數據重復會產生偏差,從而大范圍地影響結果。
盡管大多數軟件工具不接受不完整的數據,但是使用電子表格或基于紙張的表格可能會導致數據不完整。例如,在維護檢查表中,由于信息的不了解或不可用,所提供的問題或解決方案的類型可能不會描述為完整的字段或某些空白字段。
當不同字段中的兩個值相互矛盾時,數據不一致。合并多個部門或時間范圍的數據時,會發生這種情況。例如,在舊數據中,員工的名稱必須與現在的名稱不同。如果數據未正確排序,則此類問題可能會影響數據的結果。
數據的一致性是指度量單位。數據的一致性和統一性對于獲得準確的結果至關重要。
六、數據質量管理的方法之提高準確性
數據質量管理是一個三步過程,其中包括考慮上述所有條件以維護數據完整性。根據上述標準收集數據后,可以采取以下措施來提高準確性。??
·?檢驗:執行檢驗以檢測整個質量標準中數據的不準確性
·?清理:從數據集中刪除異常
·?驗證:對清潔過程進行交叉驗證,以確保消除了每個方面的不準確性和不一致性
·?報告:創建有關所做的更改以及有關系統中記錄的數據的當前質量的報告。
數據質量管理必須是一個連續的過程,因為時間,情況會發生變化,并且會影響記錄的數據質量。過時的舊數據可能沒有幫助。例如,如果您不更新自己的現場銷售CRM數據,從長遠來看,可能會影響您的銷售潛力。
定期進行數據治理管理有助于您獲得準確的見解。準確的數據會助力您的業務決策并成功推動您的戰略。
七、數據質量管理平臺工具介紹
數據質量管理平臺是億信華辰自主研發的數據質量管理控制工具,用于解決業務系統運行、數據倉庫建設及數據治理過程中的數據質量問題。它以標準化的數據質量規范為基礎,運用數據挖掘、數據分析、工作流、評分卡、可視化等技術幫助組織建立數據質量管理體系,提升數據的完整性、規范性、及時性、一致性、 邏輯性,降低數據管理成本,減少因數據不可靠導致的決策偏差和損失。億信華辰數據質量管理平臺應用案例:
了解更多數據質量管理平臺知識:http://m.122re.com/products/esdataclean.html