日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據治理:數據質量管理策略!

時間:2023-03-07來源:三月瀏覽數:390

數據質量管理包含正確定義數據標準,并采用正確的技術、投入合理的資源來管理數據質量。數據質量管理策略和技術的應用是一個比較廣泛的范疇,它可以作用于數據質量管理的事前、事中、事后三個階段。

數據質量管理應秉持預防為主的理念,堅持將“以預控為核心,以滿足業務需求為目標”作為工作的根本出發點和落腳點,加強數據質量管理的事前預防、事中控制、事后補救的各種措施,以實現企業數據質量的持續提升,如下圖所示。

一、數據質量管理策略之事前預防

東漢史學家荀悅在《申鑒·雜言上》中提到對皇帝進獻忠告的三種方法,也稱進忠有三術:“一曰防,二曰救,三曰戒。先其未然謂之防,發而止之謂之救,行而責之謂之戒。防為上,救次之,戒為下。

**事前預防即防患于未然,是數據質量管理的上上之策。**數據質量管理的事前預防可以從組織人員、標準規范、制度流程三個方面入手。

企業需要建立一種文化,以讓更多的人認識到數據質量的重要性,這離不開組織機制的保障。建立數據質量管理的組織體系,明確角色職責并為每個角色配置適當技能的人員,以及加強對相關人員的培訓和培養,這是保證數據質量的有效方式。

(1)組織角色設置

企業在實施數據質量管理時,應考慮在數據治理整體的組織框架下設置相關的數據質量管理角色,并確定他們在數據質量管理中的職責分工。常見的組織角色及其職責如下。

數據治理委員會:為數據質量定下基調,制定有關數據基礎架構和流程的決策。數據治理委員會定期開會以新的數據質量目標,推動測量并分析各個業務部門內數據質量的狀態。

數據分析師:負責數據問題的根因分析,以便為數據質量解決方案的制定提供決策依據。

數據管理員:負責將數據作為公司資產進行管理,保障數據質量,例如定期數據清理、刪除重復數據或解決其他數據問題。

(2)加強人員培訓

數據不準確的主要原因是人為因素,加強對相關人員的培訓,提升人員的數據質量意識,能夠有效減少數據質量問題的發生。

數據質量管理培訓是一個雙贏的過程。對于員工來說,通過培訓,自己不僅能夠認識到數據質量對業務和管理的重要性,還能學習到數據管理理論、技術、工具等知識和技能,確保上游業務人員知道他們的數據對下游業務和應用程序的影響,讓自己在工作中盡可能不犯錯、少犯錯,提高自己的業務處理效率和質量。對于企業來說,通過培訓,可以使數據標準得到宣貫,提升員工的數據思維和對數據的認識水平,建立起企業的數據文化,以支撐企業數據治理的長治久安。

有關數據治理培訓機制的相關策略在第6章中已經詳細描述過,此處不再贅述。

此外,企業應鼓勵員工參加專業資格認證的培訓,這樣能夠讓相關人員更加系統性地學習數據治理知識體系,提升數據管理的專業能力。

數據標準的有效執行和落地是數據質量管理的必要條件。數據標準包括數據模型標準、主數據和參考數據標準、指標數據標準等。

(1)數據模型標準

數據模型標準數對數據模型中的業務定義、業務規則、數據關系、數據質量規則等進行統一定義,以及通過元數據管理工具對這些標準和規則進行統一管理。在數據質量管理過程中,可以將這些標準映射到業務流程中,并將數據標準作為數據質量評估的依據,實現數據質量的稽查核驗,使得數據的質量校驗有據可依,有法可循。

(2)主數據和參考數據標準

主數據和參考數據標準包含主數據和參考數據的分類標準、編碼標準、模型標準,它們是主數據和參考數據在各部門、各業務系統之間進行共享的保障。如果主數據和參考數據標準無法有效執行,就會嚴重影響主數據的質量,帶來主數據的不一致、不完整、不唯一等問題,進而影響業務協同和決策支持。

(3)指標數據標準

指標數據是在業務數據基礎上按照一定業務規則加工匯總的數據,指標數據標準主要涵蓋業務屬性、技術屬性、管理屬性三個方面。指標數據標準統一了分析指標的統計口徑、統計維度、計算方法的基礎,不僅是各業務部門共識的基礎,也是數據倉庫BI項目的主要建設內容,為數據倉庫的數據質量稽查提供依據。

(1)數據質量管理流程

數據質量管理是一個閉環管理流程,包括業務需求定義、數據質量測量、根本原因分析、實施改進方案、控制數據質量,如下圖所示。

① 業務需求定義

筆者的一貫主張是:企業不會為了治理數據而治理數據,背后都是為了實現業務和管理的目標,而數據質量管理的目的就是更好地實現業務的期望。

第一,將企業的業務目標對應到數據質量管理策略和計劃中。

第二,讓業務人員深度參與甚至主導數據質量管理,作為數據主要用戶的業務部門可以更好地定義數據質量參數。

第三,將業務問題定義清楚,這樣才能分析出數據數量問題的根本原因,進而制定出更合理的解決方案。

② 數據質量測量

數據質量測量是圍繞業務需求設計數據評估維度和指標,利用數據質量管理工具完成對相關數據源的數據質量情況的評估,并根據測量結果歸類數據問題、分析引起數據問題的原因。

第一,數據質量測量以數據質量問題對業務的影響分析為指導,清晰定義出待測量數據的范圍和優先級等重要參數。

第二,采用自上而下和自下而上相結合的策略識別數據中的異常問題。自上而下的方法是以業務目標為出發點,對待測量的數據源進行評估和衡量;自下而上的方法是基于數據概要分析,識別數據源問題并將其映射到對業務目標的潛在影響上。

第三,形成數據治理評估報告,通過該報告清楚列出數據質量的測量結果。

③ 根本原因分析

產生數據質量問題的原因有很多,但是有些原因僅是表象,并不是根本原因。要做好數據質量管理,應抓住影響數據質量的關鍵因素,設置質量管理點或質量控制點,從數據的源頭抓起,從根本上解決數據質量問題。

④ 實施改進方案

沒有一種通用的方案來保證企業每個業務每類數據的準確性和完整性。企業需要結合產生數據問題的根本原因以及數據對業務的影響程度,來定義數據質量規則和數據質量指標,形成一個符合企業業務需求的、獨一無二的數據質量改進方案,并立即付諸行動。

⑤ 控制數據質量

數據質量控制是在企業的數據環境中設置一道數據質量“防火墻”,以預防不良數據的產生。數據質量“防火墻”就是根據數據問題的根因分析和問題處理策略,在發生數據問題的入口設置的數據問題測量和監控程序,在數據環境的源頭或者上游進行的數據問題防治,從而避免不良數據向下游傳播并污染后續的存儲,進而影響業務。

(2)數據質量管理制度

數據質量管理制度設置考核KPI,通過專項考核計分的方式對企業各業務域、各部門的數據質量管理情況進行評估。以數據質量的評估結果為依據,將問題數據歸結到相應的分類,并按所在分類的權值進行量化。總結發生數據質量問題的規律,利用數據質量管理工具定期對數據質量進行監控和測量,及時發現存在的數據質量問題,并督促落實改正。

數據質量管理制度的作用在于約束各方加強數據質量意識,督促各方在日常工作中重視數據質量,在發現問題時能夠追根溯源、主動解決。

二、數據質量管理策略之事中控制

數據質量管理的事中控制是指在數據的維護和使用過程中監控和管理數據質量。通過建立數據質量的流程化控制體系,對數據的創建、變更、采集、清洗、轉換、裝載、分析等各個環節的數據質量進行控制。

“問渠那得清如許,為有源頭活水來。”了解數據的來源對于企業的數據質量至關重要,從數據的源頭控制好數據質量,讓數據“規范化輸入、標準化輸出”是解決企業數據質量問題的關鍵所在。企業可以考慮從以下幾個方面做好源頭數據質量的管理。

(1)維護好數據字典

數據字典是記錄標準數據、確保數據質量的重要工具。數據會隨著時間累積,如果數據積累在電子表格等非正式數據系統中,那么這些寶貴的數據就可能會存在一定的風險,例如可能會隨著關鍵員工的離職而丟失。通過建立企業級數據字典對企業的關鍵數據進行有效標識,并清晰、準確地對每個數據元素進行定義,可以消除不同部門、不同人員對數據可能的誤解,并讓企業在IT項目上節省大量時間和成本。

(2)自動化數據輸入

數據質量差的一個根本原因是人為因素,手動輸入數據,很難避免數據錯誤。因此,企業應該考慮自動化輸入數據,以減少人為錯誤。一個方案,只要系統可以自動執行某些操作就值得實施,例如,根據關鍵字自動匹配客戶信息并自動帶入表單。

(3)自動化數據校驗

對于疾病,預防比治療更容易,數據治理也一樣。我們可以通過預設的數據質量規則對輸入的數據進行自動化校驗,對于不符合質量規則的數據進行提醒或拒絕保存。數據質量校驗規則包括但不限于以下幾類。

數據類型正確性:數字、整數、文本、日期、參照、附件等。

數據去重校驗:完全重復的數據項、疑似重復的數據項等。

數據域值范圍:最大值、最小值、可接受的值、不可接受的值。

數據分類規則:用來確定數據屬于某個分類的規則,確保正確歸類。

單位是否正確:確保使用正確的計量單位。

(4)人工干預審核

數據質量審核是從源頭上控制數據質量的重要手段,采用流程驅動的數據管理模式,控制數據的新增和變更,每個操作都需要人工進行審核,只有審核通過數據才能生效。例如:供應商主數據發生新增或變更,就可以采用人工審核的方式來控制數據質量。

數據質量問題不止發生在源頭,如果以最終用戶為終點,那么數據采集、存儲、傳輸、處理、分析中的每一個環節都有可能出現數據質量問題。所以,要對數據全生命周期中的各個過程都做好數據質量的全面預防。數據流轉過程的質量控制策略如下。

(1)數據采集

在數據采集階段,可采用以下質量控制策略:

明確數據采集需求并形成確認單;

數據采集過程和模型的標準化;

數據源提供準確、及時、完整的數據;

將數據的新增和更改以消息的方式及時廣播到其他應用程序;

確保數據采集的詳細程度或粒度滿足業務的需要;

定義采集數據的每個數據元的可接受值域范圍;

確保數據采集工具、采集方法、采集流程已通過驗證。

(2)數據存儲

在數據存儲階段,可采用以下質量控制策略:

選擇適當的數據庫系統,設計合理的數據表;

將數據以適當的顆粒度進行存儲;

建立適當的數據保留時間表;

建立適當的數據所有權和查詢權限;

明確訪問和查詢數據的準則和方法。

(3)數據傳輸

在數據傳輸階段,可采用以下質量控制策略:

明確數據傳輸邊界或數據傳輸限制;

保證數據傳輸的及時性、完整性、安全性;

保證數據傳輸過程的可靠性,確保傳輸過程數據不會被篡改;

明確數據傳輸技術和工具對數據質量的影響。

(4)數據處理

在數據處理階段,可采用以下質量控制策略:

合理處理數據,確保數據處理符合業務目標;

重復值的處理;

缺失值的處理;

異常值的處理;

不一致數據的處理。

(5)數據分析

確保數據分析的算法、公式和分析系統有效且準確;

確保要分析的數據完整且有效;

在可重現的情況下分析數據;

基于適當的顆粒度分析數據;

顯示適當的數據比較和關系。

事中控制的相關策略

?三、數據質量管理之事后補救

是不是做好了事前預防和事中控制就不會再有數據質量問題發生了?答案顯然是否定的。事實上,不論我們采取了多少預防措施、進行了多么嚴格的過程控制,數據問題總是還有 “漏網之魚”。你會發現只要是人為干預的過程,總會存在數據質量問題,即使拋開人為因素,數據質量問題也無法避免。為了盡可能減少數據質量問題,減輕數據質量問題對業務的影響,我們需要及時發現它并采取相應的補救措施。

定期質量監控也叫定期數據測量,是對某些非關鍵性數據和不適合持續測量的數據定期重新評估,為數據所處狀態符合預期提供一定程度的保證。

定期監控數據的狀況,為數據在某種程度上符合預期提供保障,發現數據質量問題及數據質量問題的變化,從而制定有效的改進措施。定期質量監控就像人們定期體檢一樣,定期檢查身體的健康狀態,當某次體檢數據發生明顯變化時,醫生就會知道有哪些數據出現異常,并根據這些異常數據采取適當的治療措施。

對于數據也一樣,需要定期對企業數據治理進行全面“體檢”,找到問題的“病因”,以實現數據質量的持續提升。

盡管數據質量控制可以在很大程度上起到控制和預防不良數據發生的作用,但事實上,再嚴格的質量控制也無法做到100%的數據問題防治,甚至過于嚴格的數據質量控制還會引起其他數據問題。因此,企業需要不時進行主動的數據清理和補救措施,以糾正現有的數據問題。

(1)清理重復數據

對經數據質量檢核檢查出的重復數據進行人工或自動處理,處理的方法有刪除或合并。例如:對于兩條完全相同的重復記錄,刪除其中一條;如果重復的記錄不完全相同,則將兩條記錄合并為一條,或者只保留相對完整、準確的那條。

(2)清理派生數據

派生數據是由其他數據派生出來的數據,例如:“利潤率”就是在“利潤”的基礎上計算得出的,它就是派生數據。而一般情況下,存儲派生出的數據是多余的,不僅會增加存儲和維護成本,而且會增大數據出錯的風險。如果由于某種原因,利潤率的計算方式發生了變化,那么必須重新計算該值,這就會增加發生錯誤的機會。因此,需要對派生數據進行清理,可以存儲其相關算法和公式,而不是結果。

(3)缺失值處理

處理缺失值的策略是對缺失值進行插補修復,有兩種方式:人工插補和自動插補。對于“小數據”的數據缺失值,一般采用人工插補的方式,例如主數據的完整性治理。而對于大數據的數據缺失值問題,一般采用自動插補的方式進行修復。自動插補主要有三種方式:

利用上下文插值修復;

采用平均值、最大值或最小值修復;

采用默認值修復。

當然,最為有效的方法是采用相近或相似數值進行插補,例如利用機器學習算法找到相似值進行插補修復。

(4)異常值處理

異常值處理的核心是找到異常值。異常值的檢測方法有很多,大多要用到以下機器學習技術:

基于統計的異常檢測;

基于距離的異常檢測;

基于密度的異常檢測;

基于聚類的異常檢測。

以上涉及的機器學習算法不在本書的討論范圍之內,有興趣的讀者可以參考相關的機器學習圖書。

數據質量管理是個持續的良性循環,不斷進行測量、分析、探查和改進可全面改善企業的信息質量。通過對數據質量管理策略的不斷優化和改進,從對于數據問題甚至緊急的數據故障只能被動做出反應,過渡到主動預防和控制數據缺陷的發生。

經過數據質量測量、數據問題根因分析以及數據質量問題修復,我們可以回過頭來評估數據模型設計是否合理,是否還有優化和提升的空間,數據的新增、變更、采集、存儲、傳輸、處理、分析各個過程是否規范,預置的質量規則和閾值是否合理。如果模型和流程存在不合理的地方或可優化的空間,那么就實施這些優化。

事后補救始終不是數據質量管理的最理想方式,建議堅持以預防為主的原則開展數據質量管理,并通過持續的數據質量測量和探查,不斷發現問題,改進方法,提升質量。

寫在最后的話

數據質量影響的不僅是信息化建設的成敗,更是影響企業業務協同、管理創新、決策支持的核心要素。對于數據質量的管理,堅持“垃圾進,垃圾出”的總體思想,堅持“事前預防、事中控制、事后補救”的數據質量管理策略,持續提升企業數據質量水平。

盡管可能沒有一種真正的萬無一失的方法來防止所有數據質量問題,但是使數據質量成為企業數據環境“DNA”的一部分將在很大程度上能夠獲得業務用戶和領導的信任。


(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢