日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

怎樣去斷定一份數據的質量高低?數據質量如何評估?

時間:2022-01-18來源:互聯網瀏覽數:653

今天給大家分享一下如何進行數據治理。數據治理包括很多方面,咱今天聊聊數據質量應該如何評估。“ 數據質量的治理,是數據治理的主要內容之一。數據質量的全面評價,是數據質量治理的準繩。”

為什么要進行質量評估?可能很多朋友之前都沒怎么關注過針對數據質量的內容。但是如果你經常與數據打交道,以下場景應該不陌生:

場景一:作為分析師,要統計近7天用戶的購買情況,結果從數倉統計完后發現,很多數據發生了重復記錄的情況;

場景二:作為業務員去看報表,發現某一天成交的gmv暴跌,經過排查發現是當天的數據缺失。

以上就是隨意舉了兩個例子。其實咱們在工作中,很多時候數據出現問題這都是屬于數據質量的范疇內。數據質量差,會導致業務分析結果不準確、決策失誤以及內部不一致等等情況。提升數據質量是數據治理的重中之中,也是數據發揮價值的基礎。沒有質量的數據,還不如沒有數據。

關于如何提升數據質量,我們后面再來分享。在這之前,首先要知道,我們說的數據質量好或者數據質量差,到底是好在哪、差在哪。這也就是數據質量的評估。只有知道如何評估數據質量,才能有的放矢,有針對性的提升數據質量。

對于數據質量差,我們如何進行數據質量的評估呢?數據質量的評估,主要圍繞著以下6個方面進行。

(1)數據完整性
數字完整性這個其實比較好理解,通俗上來說就是我們常說的數據全不全,完全字面意思。但如何用指標來衡量呢?這個我們通常是去看一份數據的總記錄數是否正常。比如成交記錄是1萬條,但數據表只有9000條,這就是不完整的。再細一些,我們可以去看表中具體字段。比如總條數是1萬,但是用戶ID字段有2000是空的,這也是不完整的。

(2)數據唯一性
數據的唯一性也比較容易理解,就是講數字是沒有重復的。數字唯一性與數據完整性是相對的。完整性看的是數據少沒少,而唯一性看的是數據多沒多。我們還是拿上面的例子,比如真實成交1萬條,但數據表有3000重復了,成了1.3萬條成交記錄,這就不符合數據唯一性的評估。

(3)數據有效性
數據有效性主要是看數據是否符合公司業務的真實情況。比如手機號字段,取值是32988,明顯是臟數據。這里列舉了幾個方面:
代碼值域約束:比如**類型的代碼值要包含在數據標準的公共代碼中
長度約束:比如約束身份證字段長度要等于18位
取值范圍約束:比如要求字段值不能是負數
標志取值約束:比如要求字段取值只能是1、2、3
通過以上方面,可以衡量數據內容的質量是否達標

(4)數據一致性
數據一致性的含義是通過不同方式取出來的數據,不能是沖突的。這里強調的是多個表或者來源,只有多個對比,才有不一致的概念。數據一致性其實就是我們在做交叉驗證時的內容,經常會說的一句話:“這數對不上啊!”通常分為以下三個方面:
等值一致性:一個核驗對象的數據取值必須與另外一個或多個核驗對象在一定規則下相等。比如,“進出口經營權許可證號”長度13位,后9位應該與“組織機構代碼證”一致
存在一致性:一個核驗對象的數據值必須在另一個核驗對象滿足某一條件時存在。比如,“登錄狀態”是已登錄,“登錄日期”不能為空
邏輯一致性:一個核驗對象上的數值必須與另一個核驗對象的數據值滿足某種邏輯關系。比如,“支票起號”小于等于“支票止號”

(5)數據準確性
數據準確性就是多個表有不一致的概念,單個數據表呢?這就是數據準確性了。比如用戶的實際地址是青島市,但數據表存的是煙臺市。一般原始數據不準的情況不多,都是統計表、匯總表容易出現數據不準的情況。比如統計用戶最近30天的成交金額出現偏差。另外值得注意的是,準確性強調數據是否與真實世界值一致。這個校驗有時候不容易進行。

(6)數據及時性
數據及時性主要是滿足時效性的。這里也劃分到了數據質量的范疇。比如一份數據是統計離線T-1日的,結果都是第二天下午甚至第三天才能統計完,這種數據的應用價值就會大打折扣了。

數據質量的評估維度,就先分享到這里。后面會針對如何落實數據質量的管理、提升數據質量,進行詳細分享。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢