日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

提高數據質量的方法

時間:2019-11-15來源:知乎瀏覽數:3857

1、明確業務需求并從需求開始控制數據質量
要想真正解決數據質量問題,應該從需求開始,企業往往在定義清楚業務需求后忽略對數據質量的控制,而只對已經產生的數據做檢查,然后再將錯誤數據剔除,這種方法治標不治本,不能從根本上解決問題。

企業需要將數據質量的控制從需求開始集成到分析人員、模型設計人員與開發人員的工作環境中,讓大家在日常的工作環境中自動控制數據質量,在數據的全生命周期中控制數據質量。

2、建立數據質量管理機制
從業務出發做問題定義,由工具自動、及時發現問題,明確問題責任人,通過郵件、短信等方式進行通知,保證問題及時通知到責任人。跟蹤問題整改進度,保證數據質量問題全過程的管理。

(1)探查數據內容、結構和異常通過探查,可以識別數據的優勢和弱勢,幫助企業確定業務實施計劃。一個關鍵目標就是明確指出數據錯誤和問題,例如將會給業務流程帶來威脅的不一致和冗余。

(2)建立數據質量度量并明確目標企業需建立一個共同的平臺并完善度量標準,用戶可以在數據質量記分卡中跟蹤度量標準的達標情況,并通過電子郵件發送URL來與相關人員隨時進行共享。

(3)設計和實施數據質量業務規則明確企業的數據質量規則,即可重復使用的業務邏輯,管理如何清洗數據和解析用于支持目標應用字段和數據。業務部門和IT部門通過使用基于角色的功能,一同設計、測試、完善和實施數據質量業務規則,以達成最好的結果。

(4)將數據質量規則構建到數據集成過程中

數據質量服務由可集中管理、獨立于應用程序并可重復使用的業務規則構成,可用來執行探查、清洗、標準化、名稱與地址匹配以及監測。

在企業大數據治理過程中,對于大數據生產線中的每個集成點,都需要做數據質量的檢查,嚴格控制輸入數據的質量。比如在數據采集過程,集成過程,分析過程等等都需要做檢查。

但在大數據環境中,每個集成點都會有海量數據量流過,把數據逐條檢查這種傳統方式是行不通的,應該采用抽樣的方式,對一批數據做數據質量的檢查,來確定這批數據是否滿足一定的質量區間,再決定是否需要對這批數據做詳細的檢查。

(5)檢查異常并完善規則

在執行數據質量流程后,大多數記錄將會被清洗和標準化,并達到企業所設定的數據質量目標。然而,無可避免,仍會存在一些沒有被清洗的劣質數據,此時則需要完善控制數據質量的業務規則。

目前企業內的數據主要分為外部數據和內部數據,大數據時代到來讓各企業廣泛采購第三方數據,第三方數據的質量逐漸成為決定企業數據質量的關鍵因素。

對于企業的內部數據,可以通過業務梳理直接獲得質量檢核規則。但是對于外部第三方數據,需要先對這些數據進行采樣,并應用關聯算法自動發現其中的質量檢核規則,并將這些檢核規則持續積累,形成外部數據的檢核規則庫。

(6)對照目標,監測數據質量

數據質量控制不應為一次性的“邊設邊忘”活動。相對目標和在整個業務應用中持續監測和管理數據質量對于保持和改進高水平的數據質量性能而言是至關重要的。可選擇儀表板和報告進行監測。
(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢