- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2018-12-25來源:數據治理瀏覽數:1808次
我們過去談過很多關于數據質量的問題 - 包括糟糕數據的成本。但是,盡管對數據質量有了基本的了解,但許多人仍然不太了解“質量”究竟是什么意思。
例如,有沒有辦法衡量這種質量,如果有,你是如何做到的?在本文中,我們將尋求回答這些問題等等。但首先…
?

?在創建基本要求時,確保數據質量的基礎
關于數據質量的最大誤區之一是它必須完全沒有錯誤。隨著網站和其他廣告系列收集如此多的數據,幾乎不可能獲得零錯誤。相反,數據只需要符合為其設置的標準。為了確定“質量”是什么,我們首先需要了解三件事:
????1. 誰創造了要求????????
????2. 如何創建需求,以及
????3. 在滿足這些要求方面,我們有多大程度的自由度
許多企業都有一個獨特的“數據管理員”,他們理解并設定了這些要求,并且是確定錯誤容忍度的人。如果沒有數據管理者,IT通常會發揮作用,確保負責數據的人了解可能影響數據的任何缺點。
?
從收集數據到使其符合公司需求,一切都可以解決潛在的錯誤。擁有100%完整且100%準確的數據不僅非常昂貴,而且耗時且幾乎沒有推動ROI針頭。
有這么多數據進入,必須迅速做出決策。這就是為什么數據質量是一個微妙的平衡行為 - 雜耍和判斷準確性和完整性。如果它聽起來像一個很高的要求,你會很高興知道有一種瘋狂的方法,第一步是數據分析。
?
數據分析涉及查看數據庫中的所有信息,以確定它是否準確和/或完整,以及如何處理不是的條目。例如,導入貴公司制造的產品數據庫并確保所有信息都是準確的,這是相當簡單的,但當您導入有關競爭對手產品或其他相關細節的詳細信息時,情況就不同了。
通過數據分析,您還可以查看數據的準確程度。如果您在2016年7月1日推出,系統是否記錄為1916年或2016年?您可能甚至可以在梳理您獲得的信息時發現重復和其他問題。以這種方式分析數據為我們提供了一個起點 - 從確保我們使用的信息具有最佳質量的跳板。
現在我們有一個起點來確定我們的信息是否完整和準確,下一個問題就變成了 - 當我們發現錯誤或問題時我們該怎么辦?通常,您可以執行以下四種操作之一:
當您在不同數據庫中擁有相同的數據時,錯誤和重復的機會已經成熟。成功集成的第一步是查看數據的位置,然后以一致的方式組合數據。在這里投資成熟的數據質量和準確性工具來幫助協調和同步數據庫中的信息是非常值得的。
?
最后,因為您在很多不同的領域處理如此多的數據,所以有一個清單可以確定您是否正在使用最高質量的數據。DAMA UK創建了一個關于“?數據維度?”?的出色指南,可用于更好地全面了解如何確定數據質量。
他們的數據質量維度包括:
完整性?- 包含一個或多個值的數據的百分比。重要的是首先完成關鍵數據(例如客戶姓名,電話號碼,電子郵件地址等),因為完整性不會對非關鍵數據產生太大影響。
唯一性?- 當針對其他數據集進行測量時,只有一個類型的條目。
及時性?- 日期和時間對數據的影響有多大?這可能是之前的銷售,產品發布或在一段時間內依賴的任何信息都是準確的。
有效性?- 數據是否符合為其設定的相應標準?
準確性?- 數據如何反映出由其識別的真實世界的人或事物?
一致性?- 數據與先入為主的模式的一致性如何?出生日期有一個共同的一致性問題,因為在中國,標準是?YYYY /?MM /DD,而在歐洲和其他地區,DD / MM / YYYY的使用是標準的。
正如您所看到的,沒有“一刀切”的方法來保持每個企業的每種類型數據的準確性和完整性。隨著大數據對信息的興趣越來越大,每天都越來越重要,正面解決數據質量問題變得越來越重要。雖然看起來勢不可擋,但值得利用數據衛生工具讓計算機做他們最擅長的事情 - 數字緊縮。
您可以采取的最重要的步驟就是開始。隨著越來越多的潛在客戶加入并發現新市場,數據總是會增長,因此永遠不會成為解決數據質量問題的“最佳時機”。花時間來確定數據質量對您的公司或組織意味著什么可以產生改善客戶服務,更好的客戶體驗,更高的轉換率和更長的客戶保留率的連鎖反應 - 這些都是投資回報的類型任何企業都會全心全意地擁抱!
下一篇:大數據治理的新范例...