日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

關于數據質量(DQ),你應該知道的事

時間:2022-07-02來源:Unicorn瀏覽數:1175

保障數據的及時產出才能體現數據的價值。例如,決策分析師通常希望當天就可以看到前一天的數據。若等待時間過長,數據失去了及時性的價值,數據分析工作將失去意義。這里離線數倉一般都是凌晨運行任務,及時性可以得到保證。

基礎概念

什么是數據質量?

數據質量定義維度

數據質量評估步驟

問題數據分類處理

數據質量問題根源

數據質量四個保障原則

完整性

準確性

一致性

及時性

數據質量六大基本要素

數據質量管理的方法

1、建立質量管控流程和規范

2、執行管理工作

3、檢查數據質量

4、監控數據質量,控制管理程序和績效

數據分析的方面

數據質量檢核和監控

數據質量的監控指標一般有哪些

數據質量問題分析及報告

數據質量分析

數據質量分析報告

基礎概念 什么是數據質量?

按照國際數據管理協會的《數據管理知識手冊》中規定,數據質量(DQ)是“既指與數據有關的特征,也指用于衡量或改進數據質量的過程。”但要深入理解數據質量,需要切分不同層次或維度。

數據質量定義維度

如果從用戶層級定義數據質量,就是滿足特定用戶預期需要的一種程度。

如果從數據本身定義數據質量,即從數據質量的指示器和參數指標等方面來衡量其優劣。

如果從數據約束關系定義數據質量,即從數據的原子性、數據的關聯性及對數據的約束規則來度量數據質量。

如果從數據過程定義數據質量,需要從數據能被正確使用、存儲、傳輸等方面定義質量。

數據質量評估步驟

第一步,確定需要做數據質量監控的數據指標項,通常是對數據運營和相關管理報告至關重要的數據項。

第二步,評估需要使用的數據質量維度及其權重值。

第三步,對于每個數據質量維度,定義表示標準質量和質量差數據的值和范圍。特別需要注意的是:同一個指標名稱,可能會有不同的度量規則,因此需要執行許多不同的數據質量評估。

第四步,反復查看并確認數據質量是否可以被接受。

第五步,在適當數據流轉中采取糾正措施,例如:清理數據并改進數據處理流程,以防止問題再次發生。

最后,還需要定期重復上述步驟,以監控數據質量趨勢。在時間維度上分可分為3類,分別為歷史數據、當前數據和未來數據。在解決不同種類的數據質量問題時,應采取不同的處理方式。

對歷史數據的處理

如果你拿著歷史數據,找業務部門給你做整改,業務部門通常以“當前的數據問題都處理不過來,哪### ?數據質量提升方法

明確業務需求并從需求開始控制數據質量

要想真正解決數據質量問題,應該從需求開始,銀行往往在定義清楚業務需求后忽略對數據質量的控制,而只對已經產生的數據做檢查,然后再將錯誤數據剔除,這種方法治標不治本,不能從根本上解決問題。銀行需要將數據質量的控制從需求開始集成到分析人員、模型設計人員與開發人員的工作環境中,讓大家在日常的工作環境中自動控制數據質量,在數據的全生命周期中控制數據質量。

建立數據質量管控機制

從業務出發做問題定義,由工具自動、及時發現問題,明確問題責任人,通過郵件、短信等方式進行通知,保證問題及時通知到責任人。跟蹤問題整改進度,保證數據質量問題全過程的管理。

比如,探查數據內容、結構和異常通過探查,可以識別數據的優勢和弱勢,幫助企業確定業務實施計劃。一個關鍵目標就是明確指出數據錯誤和問題,例如將會給業務流程帶來威脅的不一致和冗余。

建立數據質量度量并明確目標企業需建立一個共同的平臺并完善度量標準,用戶可以在數據質量記分卡中跟蹤度量標準的達標情況,并通過電子郵件發送URL來與相關人員隨時進行共享。

設計和實施數據質量業務規則明確企業的數據質量規則,即可重復使用的業務邏輯,管理如何清洗數據和解析用于支持目標應用字段和數據。業務部門和IT部門通過使用基于角色的功能,一同設計、測試、完善和實施數據質量業務規則,以達成最好的結果。

將數據質量規則構建到數據集成過程中

數據質量服務由可集中管理、獨立于應用程序并可重復使用的業務規則構成,可用來執行探查、清洗、標準化、名稱與地址匹配以及監測。在企業大數據治理過程中,對于大數據生產線中的每個集成點,都需要做數據質量的檢查,嚴格控制輸入數據的質量。比如在數據采集過程,集成過程,分析過程等等都需要做檢查。但在大數據環境中,每個集成點都會有海量數據量流過,把數據逐條檢查這種傳統方式是行不通的,應該采用抽樣的方式,對一批數據做數據質量的檢查,來確定這批數據是否滿足一定的質量區間,再決定是否需要對這批數據做詳細的檢查。

檢查異常并完善規則

在執行數據質量流程后,大多數記錄將會被清洗和標準化,并達到企業所設定的數據質量目標。然而,無可避免,仍會存在一些沒有被清洗的劣質數據,此時則需要完善控制數據質量的業務規則。目前企業內的數據主要分為外部數據和內部數據,大數據時代到來讓各企業廣泛采購第三方數據,第三方數據的質量逐漸成為決定企業數據質量的關鍵因素。對于企業的內部數據,可以通過業務梳理直接獲得質量檢核規則。但是對于外部第三方數據,需要先對這些數據進行采樣,并應用關聯算法自動發現其中的質量檢核規則,并將這些檢核規則持續積累,形成外部數據的檢核規則庫。

對照目標,監測數據質量,數據質量控制不應為一次性的“邊設邊忘”活動。相對目標和在整個業務應用中持續監測和管理數據質量對于保持和改進高水平的數據質量性能而言是至關重要的。可選擇儀表板和報告進行監測。

問題數據分類處理

對不同數據的數據問題分類處理有時間幫你一起追查歷史數據的問題”為理由無情拒絕。這個時候即便是找領導協調,一般也起不到太大的作用。對于歷史數據問題的處理,多數情況是發揮IT技術人員的優勢,用數據清洗的辦法來解決,清洗的過程要綜合使用各類數據源,全面提升歷史數據的質量。

針對當前數據的問題

需要通過從問題定義、問題發現、問題整改、問題跟蹤、效果評估5個方面來解決。本質上還是從業務規則出發去解決問題。

對未來數據的處理

一般要采用做數據規劃的方法來解決,從整個企業信息化的角度出發,規劃統一企業數據架構,制定企業數據標準和數據模型。借業務系統改造或者重建的時機,來從根本上提高數據質量。當然這種機會是可遇而不可求的,在機會到來之前應該把企業數據標準和數據模型建立起來,一旦機會出現,就可以遵循這些標準。通過對不同時期數據的分類處理,做到事前預防、事中監控、事后改善,有助于從根源上解決數據質量問題,為企業的發展帶來突破和創新。

數據質量問題根源

做數據質量管理首先要搞清楚數據質量問題產生的原因,原因有很多方面,例如:技術、管理、處理流程、業務邏輯錯誤等都會碰到,但從根本上來講數據質量問題產生的絕大多數原因在業務上。

解決數據質量問題不是簡單通過一個工具就能搞定,需要從根本上認識到數據質量問題產生的真正根源,從而從業務上著手解決數據質量問題。從業務角度著手解決數據質量問題,重要的是建立一套科學、可行的數據質量評估標準和管理流程。

數據質量四個保障原則

評估數據質量的好壞,業界標準并不統一。阿里巴巴對數據倉庫主要從四個方面進行評估,即完整性、準確性、一致性和及時性。

完整性

完整性是指數據的記錄和信息是否完整,是否存在缺失的情況。數據的缺失主要包括記錄的缺失和記錄中某個字段信息的缺失,兩者都會造成數據不準確,所以說完整性是數據質量最基礎的保障。

比如交易中每天支付訂單數都在100萬筆左右,如果某一天支付訂單數突然下降到1萬筆,那么很可能是記錄缺失了。對于記錄中某個字段信息的缺失,比如訂單的商品ID、賣家ID是必須存在的,這些字段的空值個數肯定是0,一旦大于0就必然違背了完整性約束。

準確性

準確性是指數據中記錄的信息和數據是否準確、是否存在異常或者錯誤的信息。例如,成績單中分數出現負數或訂單中出現錯誤的買家信息或負的訂單金額等,這些數據都是問題數據。確保記錄的準確性也是保證數據質量必不可少的一部分。

一致性

一致性通常體現在跨度很大的數據倉庫中。例如,某公司有很多業務數倉分支,對于同一份數據,在不同的數倉分支中必須保證一致性(數倉各層數據經過ETL后,條數、數據值、類型需要與上層保持一致)。例如,從在線業務庫加工到數據倉庫,再到各個數據應用節點,用戶ID必須保持同一種類型,且長度也要保持一致。

及時性

保障數據的及時產出才能體現數據的價值。例如,決策分析師通常希望當天就可以看到前一天的數據。若等待時間過長,數據失去了及時性的價值,數據分析工作將失去意義。這里離線數倉一般都是凌晨運行任務,及時性可以得到保證。

數據質量六大基本要素

1 完整性:主要包括實體不缺失,屬性不缺失,記錄不缺失和字段值不缺失四個方面

2 唯一性:指主鍵唯一和候選鍵唯一兩個方面

3 一致性:指統一數據來源、統一數據存儲和統一數據口徑。

4 精確度: 指計量誤差、度量單位等方面的精確程度。

5 合規性:主要包括格式、類型、域值和業務規則的有效性。

6 及時性:指數據刷新、修改和提取等操作的及時性和快速性。

數據質量管理的方法 1、建立質量管控流程和規范

明確質量管控的角色、職責,建立可執行的工作流程、可量化的工作評估等關于數據質量管控辦法,同時也應具備績效考核、沖突解決與管控方式等。

2、執行管理工作 1)數據剖析

進行已知數據問題的評估,評估的范圍控制在本輪管控的目標范圍內。通過對數據進行剖析,發現數據問題,具體規則又可通過標準或業務調研進行提取。

2)設計數據質量控制操作程序

獲得已知數據問題后,就應設計數據質量控制操作程序。主要包括制定質量問題評估方式和整改方式、制定質量報告內容及對象以及制定檢查和監控的頻率及方式。

3)定義數據質量需求

根據剖析的質檢規則和控制操作程序,對數據質量需求進行定義。

4)確定數據質量水平

數據質量需求定義完畢之后,我們就需要確定在此需求下,目前數據質量的水平處于什么位置。明確反應質量水平的并最直觀的就是錯誤數據的詳情情況。

5)管理數據質量問題

問題找到后,針對根據不同的質量問題,進行不同的質量整改方案。比如:源頭修改、補錄、技術修復以及遺留問題管控等。

3、檢查數據質量

首先確定整改質量,對處理后的數據進行再次質檢,出具數據質量的報告;然后,對比處理前后效果,總結改進措施;最后,檢查數據質量是否合格,分析不合格原因并下一輪管控中進行技術上或者操作程序上的改進。

4、監控數據質量,控制管理程序和績效

根據既定的操作程序,對質量管控過程中各個環節參與者進行績效評估。還可以根據不同時期的重點制定不同的評分標準,有針對性的進行評價和管控,如整改初期數據缺失嚴重,則可對完整性規則權重調大,以期更快看到成效或者達到更好的效果。

數據質量管控在數據治理體系中占據了十分重要的地位,是看見實質成效最快的一環,也是數據治理過程中的重要一環,億信華辰睿治智能數據治理平臺,是一款融合數據治理十大產品模塊,覆蓋數據全生命周期管理的應用平臺,其中也包括了數據質量模塊,可幫助政企有效提升數據質量,挖掘數據價值

數據分析的方面 缺失值 異常值 不一致的數據 內容未知的值 無效值 數據質量檢核和監控

建立主動發現數據質量問題的方法。制定BDP的度量規則,基于度量規則在數據BDP內數據流向的各個環節區域上橫向檢查,區域之間的縱向檢查,形成在BDP內數據的縱橫監控網,有效發內的數據質量問題。數據質量檢核內容分析圖

基礎數據平臺內數據質量的橫向和縱向檢查 在的數據流向各個環節區域上進行橫向檢查,在各環節區域之間進行數據量的縱向檢查。

橫向檢查

ODS:完整性、有效性、準確性、唯一性、一致性和合理性,及時性;

DDS:完整性、有效性、準確性、唯一性、一致性和合理性,及時性;

QDS:完整性、有效性、準確性、唯一性、一致性和合理性,及時性;

縱向檢查

ODS區與DDS區的記錄數核對 DDS區與QDS區的記錄數核對

數據質量的監控指標一般有哪些 接入數據條數波動(近7天均值比較) 源系統表結構變更(表名、字段名、字段類型) 源系統表計算延遲,導致后續數據接入延遲 線上維表新增數值, 倉庫未及時更新 對接入RDBMS表的主鍵、外鍵檢查:是否重復 重要字段長度檢查 空值檢查 重要字段枚舉分布檢查:離散的,多數是維度字段,可以包含空值檢查 值域檢查:連續的,一般是事實字段,計算檢查MAX MIN SUM AVG 日期合法性檢查:是否有跨天日志,是否有不正常時間日志 數據質量問題分析及報告 數據質量分析

對數據質量指標進行應用分析,趨勢分析可對指標在周期內的走勢進行分析,質量報告能對系統內的數據質量情況進行分類導出。并對質量問題進行分類保存,并能根據條件靈活查詢出歷史問題,便于以后問題的解決,形成數據質量知識庫。

數據質量分析報告

根據數據日期、檢核系統生成數據質量報告。報告內容包括系統、規則數、方法數、問題總數和檢核出問題的檢核方法數。

報告分別通過圖和表來展現問題信息圖:餅狀圖顯示各系統所占問題數比例,餅狀圖顯示各檢核類別所占的問題數比例表:數據列表,顯示系統的度量規則數、方法數、問題總數和檢核出問題的檢核方法數,點擊表中的匯總數據可下鉆到詳細的度量規則、檢核方法和質量問題。

檢核方法分析報告:根據檢核類別和質量維度生成度量規則和檢核方法數的報告報告。

報告內容包括質量維度、檢核類別、規則數和方法數。

報告分別通過柱狀圖和列表的形式展現,柱狀圖顯示檢核列別對應的檢核方法數;列表顯示檢核類別對應的規則總數和方法總數;質量維度對應的規則總數和方法總數;點擊匯總數據可下鉆到詳細的規則列表和方法列表。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢