在歸納了
數(shù)據(jù)質量問題產(chǎn)生的原因并判斷發(fā)現(xiàn)有效的干預措施后,為了系統(tǒng)性、持續(xù)有效的進行數(shù)據(jù)質量提升,我們設計了這套數(shù)據(jù)質量管理體系。
這個體系包括五大部分,中間最上層的是數(shù)據(jù)質量管理戰(zhàn)略,包括數(shù)據(jù)質量管理的愿景和原則。在實踐中我們發(fā)現(xiàn),獲得企業(yè)高層對數(shù)據(jù)質量提升項目的認可和支持是施行有效質量管理最重要的一個挑戰(zhàn),規(guī)劃一個與企業(yè)戰(zhàn)略一致、并且清晰可行的數(shù)據(jù)管理戰(zhàn)略,是數(shù)據(jù)質量提升的關鍵起點。圖中左邊是數(shù)據(jù)質量管理體系,包括數(shù)據(jù)質量管理的組織架構,角色、職責、崗位和流程機制等。管理體系的建立要確保數(shù)據(jù)質量政策及其流程與企業(yè)戰(zhàn)略、經(jīng)營方針和業(yè)務流程保持一致,并圍繞數(shù)據(jù)質量進行角色及其職責的劃分;同時還要積極主動地調整管理策略以應對數(shù)據(jù)需求的變化,把保持數(shù)據(jù)質量成果的工作納入業(yè)務日程,營造一個有利于學習和鼓勵創(chuàng)新數(shù)據(jù)質量活動的環(huán)境。圖中右邊是需要對接數(shù)據(jù)安全管理體系,就像前面提到的那樣,數(shù)據(jù)安全和數(shù)據(jù)質量中的可訪問性在本質上是矛盾的,因此需要創(chuàng)建一種機制來找到兩者之間的平衡。
數(shù)據(jù)質量管理過程從數(shù)據(jù)使用出發(fā),首先根據(jù)業(yè)務痛點和數(shù)據(jù)質量問題的成本價值分析,經(jīng)過對數(shù)據(jù)剖析、追蹤根本并制定體系化的解決方案并實施后,將其放入日常的運營監(jiān)控中,把數(shù)據(jù)質量切實提升并積極的保持長效。
數(shù)據(jù)質量管理工具是來支持更快更有效實現(xiàn)數(shù)據(jù)管理過程的手段,它承接了
數(shù)據(jù)標準管理和
元數(shù)據(jù)管理兩個模塊的管理成果,通過企業(yè)內的數(shù)據(jù)標準和具體業(yè)務規(guī)則來設計制定數(shù)據(jù)質量規(guī)則,結合元數(shù)據(jù)管理對要進行評測的數(shù)據(jù)集進行抽樣抽取,并把數(shù)據(jù)質量規(guī)則映射到對應的元數(shù)據(jù)上。通過運行數(shù)據(jù)質量檢查作業(yè),可以定期或不定期的得到數(shù)據(jù)質量評估報告,并不斷收集數(shù)據(jù)質量問題,為數(shù)據(jù)質量的管理提供決策支持。數(shù)據(jù)質量管理過程和數(shù)據(jù)質量管理工具兩個部分是緊密有序的工作組合:管理過程層往管理工具層輸出具體的質量規(guī)則制定方向、原則甚至具體規(guī)則,管理工具層可以往管理過程層輸出具體質量問題的預警以及實體與統(tǒng)計類的描述,來支撐更進一步的數(shù)據(jù)質量PDCA閉環(huán)提升。
— 數(shù)據(jù)質量管評價方法—
實際上,在開展具體的數(shù)據(jù)質量提升項目之前,第一個工作是收集和評估具體的數(shù)據(jù)質量問題。數(shù)據(jù)質量評估方法主要包括三大步:第一步,通過訪談或者問卷的形式調查數(shù)據(jù)消費者對數(shù)據(jù)質量的描述和期望,同時,使用數(shù)據(jù)質量指標來多維度的實際測量數(shù)據(jù)質量情況;第二步,需要對比主觀和客觀的兩種評估結果,分析兩者的差距,并確定差距產(chǎn)生的原因;第三部,是溝通、確定提升方案,并組織實施必要的行動。
在定量評估數(shù)據(jù)質量時,需要量化數(shù)據(jù)質量的測量維度,并與各相關部門確定每個測量指標的閾值。通常我們使用以下六個維度:
準確性:描述數(shù)據(jù)是否正確,又叫正確性、無誤性。通常準確性是個綜合性指標,由多個二級指標組成,二級指標需要通過業(yè)務規(guī)則先將錯誤數(shù)據(jù)定義出來,進而進行計算。
完整性:完整性可以從三個層面來看,分別是架構完整性,屬性完整性,數(shù)據(jù)集完整性。其中,架構完整性是指數(shù)據(jù)架構的實體和屬性沒有缺失的程度,屬性完整性是指一張表中的一列沒有缺失的程度,或者對于無效屬性的度量;數(shù)據(jù)集完整性是指數(shù)據(jù)集中應該出現(xiàn)而沒有出現(xiàn)的數(shù)據(jù)成員的程度。
一致性:一致性也可以從三個視角來看:參照一致性、相關數(shù)據(jù)元素之間的一致性和不同表中相同數(shù)據(jù)元素形式的一致性。參照一致性是與從屬表(可以理解為值域表)中的值不匹配的行數(shù);元素一致性是指如城市名字和郵政編碼應該是一致的,輸入郵編就能自動匹配正確對應的城市名字;形式一致性,通常不做必須檢查的要求,根據(jù)實際業(yè)務需求來判斷。
規(guī)范性:在《GB/ T36344 — 2018數(shù)據(jù)質量評價指標》中的定義是指數(shù)據(jù)符合數(shù)據(jù)標準、數(shù)據(jù)模型、業(yè)務規(guī)則、元數(shù)據(jù)或權威參考數(shù)據(jù)的程度。在實踐中,通常如果企業(yè)在制定相關標準規(guī)范的時候考慮了國標和行業(yè)慣例,并且在實際落地時也進行了良好的管控,則規(guī)范性大部分都可滿足,不需要額外定量測量。
可訪問性:可訪問性衡量的是獲取數(shù)據(jù)的難易程度,強調了時間的重要性。這個指標權衡了用戶需要數(shù)據(jù)的時間和提供數(shù)據(jù)所需的時間。如果一個數(shù)據(jù)消費者需要近5天的數(shù)據(jù),而獲取它也需要五天的時間,那么大概率這個數(shù)據(jù)對這位數(shù)據(jù)消費者是無效的。
時效性:更多的是指及時性,指標比較復雜,需要用到發(fā)布時間、輸入時間,年限,敏感性指數(shù),波動時長等指標。這類復雜指標通常在企業(yè)里不會計算,通常用數(shù)據(jù)年齡就足夠了。來衡量數(shù)據(jù)是否過時。
最后,還有很多根據(jù)業(yè)務規(guī)則衍生出來的數(shù)據(jù)質量規(guī)則,如從業(yè)務上衡量了業(yè)務系統(tǒng)的可信度,或者與內部標準或行業(yè)慣例相比的數(shù)據(jù)可信度以及數(shù)據(jù)量的適量性等,都需要根據(jù)實際情況再制定量化方式。
在開始測量數(shù)據(jù)質量之前,企業(yè)必須明確哪些維度對自己重要,并精確的定義這些維度。對于包含多個二級指標的維度來說,哪些維度對哪些數(shù)據(jù)源要衡量和監(jiān)控、哪些二級指標是重要的也是需要由企業(yè)自己決定并定義的。
(部分內容來源網(wǎng)絡,如有侵權請聯(lián)系刪除)