實際上,在開展具體的
數據質量提升項目之前,第一個工作是收集和評估具體的數據質量問題。數據質量評估方法主要包括三大步:第一步,通過訪談或者問卷的形式調查數據消費者對數據質量的描述和期望,同時,使用數據質量指標來多維度的實際測量數據質量情況;第二步,需要對比主觀和客觀的兩種評估結果,分析兩者的差距,并確定差距產生的原因;第三部,是溝通、確定提升方案,并組織實施必要的行動。

在定量評估數據質量時,需要量化數據質量的測量維度,并與各相關部門確定每個測量指標的閾值。通常我們使用以下六個維度:
準確性:描述數據是否正確,又叫正確性、無誤性。通常準確性是個綜合性指標,由多個二級指標組成,二級指標需要通過業務規則先將錯誤數據定義出來,進而進行計算。
完整性:完整性可以從三個層面來看,分別是架構完整性,屬性完整性,數據集完整性。其中,架構完整性是指數據架構的實體和屬性沒有缺失的程度,屬性完整性是指一張表中的一列沒有缺失的程度,或者對于無效屬性的度量;數據集完整性是指數據集中應該出現而沒有出現的數據成員的程度。
一致性:一致性也可以從三個視角來看:參照一致性、相關數據元素之間的一致性和不同表中相同數據元素形式的一致性。參照一致性是與從屬表(可以理解為值域表)中的值不匹配的行數;元素一致性是指如城市名字和郵政編碼應該是一致的,輸入郵編就能自動匹配正確對應的城市名字;形式一致性,通常不做必須檢查的要求,根據實際業務需求來判斷。
規范性:在《GB/ T36344 — 2018數據質量評價指標》中的定義是指數據符合
數據標準、數據模型、業務規則、元數據或權威參考數據的程度。在實踐中,通常如果企業在制定相關標準規范的時候考慮了國標和行業慣例,并且在實際落地時也進行了良好的管控,則規范性大部分都可滿足,不需要額外定量測量。
可訪問性:可訪問性衡量的是獲取數據的難易程度,強調了時間的重要性。這個指標權衡了用戶需要數據的時間和提供數據所需的時間。如果一個數據消費者需要近5天的數據,而獲取它也需要五天的時間,那么大概率這個數據對這位數據消費者是無效的。
時效性:更多的是指及時性,指標比較復雜,需要用到發布時間、輸入時間,年限,敏感性指數,波動時長等指標。這類復雜指標通常在企業里不會計算,通常用數據年齡就足夠了。來衡量數據是否過時。
最后,還有很多根據業務規則衍生出來的數據質量規則,如從業務上衡量了業務系統的可信度,或者與內部標準或行業慣例相比的數據可信度以及數據量的適量性等,都需要根據實際情況再制定量化方式。
(部分內容來源網絡,如有侵權請聯系刪除)