日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

如何做好數據質量管理,放大數據價值

時間:2021-08-20來源:億信華辰瀏覽數:430

眾所周知,數據是企業數字化轉型的核心要素,大數據建設的目標是為了融合組織數據,增加組織的洞察力和競爭力,實現業務創新和產業升級。而數據能發揮價值的大小依賴于其數據的質量高低。

如果沒有良好的數據質量,大數據將會對決策產生誤導,甚至產生有害的結果,比如:
在金融企業中,因數據質量問題導致的信用卡欺詐失察在2008年即造成48億美元的損失;
在商業上,美國零售業每年僅因標價錯誤就損失25億美元;
在經濟損失上,數據錯誤每年對美國工業界造成的經濟損失約占GDP的6%;
在醫療事故上,美國醫療委員會統計表明,由于數據錯誤引起的醫療事故僅在美國每年就導致高達98000名患者喪生;
在電信產業上,數據錯誤經常導致故障排除的延誤、多余設備租用和服務費收取錯誤,損害了企業信譽甚至會因此失去很多用戶;
在數倉建設上,50%的數據倉庫因數據質量而被取消或延遲……

提高數據質量是為了鞏固大數據建設成果,因此,高質量的數據是企業業務能力的基礎。今天小億就來為大家說說什么是數據質量管理?數據質量問題產生的原因是什么?以及我們該如何做好數據質量管理?

一、什么是數據質量管理?
1.數據質量
數據質量在業務環境下,數據符合數據消費者的使用目的,數據質量需要滿足業務場景具體的需求。數據質量包含兩個方面:數據自身的質量和數據的過程質量。
數據自身的質量很好理解,比如數據必須真實準確地反映實際發生的業務,任何業務操作的數據都沒有被遺漏,數據存在各種約束條件,這種約束條件不能自相矛盾等等。
數據的過程質量就是數據的使用過程符合標準規范,比如數據存儲:數據是否被安全的存儲到了合適的介質上,能夠保證數據不受外來因素的破壞。當然數據存儲只是數據使用過程的一個環節,除此之外還包括獲取、傳輸、應用和刪除等一系列的使用過程,這其實也是數據生命周期的各個階段。

2.數據質量管理
數據質量管理指對數據在每個階段里可能引發的各類數據質量問題進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平確保數據質量的提升。
換句話說,數據質量管理是一個集方法論、管理、技術和業務為一體的解決方案,不是一時的數據治理方法,是一個不斷循環的管理過程。一方面反映出企業數據很難一次性就達到使用的標準規范,畢竟數據治理是一個相對漫長的過程;另一方面也反映出數據質量的重要性以及數據質量工作的零散性和瑣碎性。

3.數據質量評估

至于如何去評估數據質量管理的過程的好壞,我們可以從以下五個維度來進行數據質量評估:

(1)完整性:描述信息的完整程度,如電話號碼是否有空值;
(2)準確性:描述數據和客觀實體的特征是否相一致,如數據庫中記錄的電話和實際電話不一致;
(3)有效性:數據是否滿足用戶定義條件、內容規范約束等,如年齡為-32歲,違反常理;
(4)一致性:描述同一個信息主體在不同數據集中的屬性是否相同,如崗位名稱在CRM系統中和人力系統中不一致;
(5)及時性:描述從業務發生到相關數據能夠被使用的及時程度,如實時查看用戶行為相關數據。

五個維度共同構成了數據質量評估的基本框架,每個維度都可以通過設置評估問卷隨機抽取一些問題然后收集相應的數據;注意收集數據的時候可以采用不同的方式,訪談、發放鏈接、隨機抽檢等等。

二、數據質量問題產生的原因
大數據的建設和管理是一個專業且復雜的工程,涵蓋了業務梳理、標準制定、元數據管理、數據模型管理、數據匯聚、清洗加工、中心存儲、資源目錄編制、共享交換、數據維護、數據失效等等過程,在任何一個環節中出錯,都將導致數據的錯誤。因此數據質量問題產生的原因主要有以下3類:

1.技術原因
(1)數據標準制定
數據輸入規范不統一,不同的業務部門、不同的時間、甚至在處理相同業務的時候,由于數據輸入規范不同,造成數據沖突或矛盾。如果在數據的生成過程中包含主觀判斷的結果,必然會導致數據中含有主觀的偏見因素。并且,不是所有行業都有公認可信的數據標準,而組織標準制定過程中容易出現數據元描述及理解錯誤,代碼碼集定義不正確、不完整等情況。

(2)數據模型設計
由于對業務理解的不到位或技術實踐水平不到位,數據庫表結構、數據庫約束條件、數據校驗規則的設計不合理,造成數據存儲混亂、重復、不完整、不準確。

(3)數據源本身
在生產系統中有些數據就存在不規范、不完整、不準確、不一致等問題,而采集過程沒有對這些問題做清洗加工處理,或清洗加工的程序代碼不正確。

(4)數據梳理過程
數據采集之前,需要梳理組織機構、業務事項、信息系統、數據資源清單等信息,那么對業務的理解不到位,將造成梳理報告的不完整或不正確。

(5)數據采集過程
采集點、采集頻率、采集內容、映射關系等采集參數和流程設置的不正確,數據采集接口效率低,導致的數據采集失敗、數據丟失、數據映射和轉換失敗。

(6)數據清洗加工
數據清洗規則、數據轉換規則、數據裝載規則配置有問題,甚至未按照數據標準開展相應的清洗加工工作,自由發揮的空間過大。并且在數據匯聚的過程中,沒有及時建立數據的相關性,導致后期很難補充完善。

2.業務原因
(1)業務理解不到位
數據的業務描述、業務規則、相關性分析不到位,導致技術無法構建出合理、正確的數據模型。

(2)業務流程的變更
業務流程一變,數據模型設計、數據錄入、數據采集、數據傳輸、數據清洗、數據存儲等環節都會受到影響,稍有不慎就會導致數據質量問題的發生。

(3)數據輸入不規范
常見的數據錄入問題,如:大小寫、全半角、特殊字符等一不小心就會錄錯,甚至還會將數據輸入到錯誤的字段中,造成“張冠李戴”。人工錄入的數據質量與錄數據的業務人員密切相關,錄數據的人工作嚴謹、認真,數據質量就相對較好,反之就較差。

(4)業務系統煙囪林立
過去 20 年中,只要是稍大一點的企業和政府部門,都建設了一批信息化系統來解決業務問題,但也導致了如今信息化整合的痛點和困難,變先發優勢為數據困境。

(5)數據作假
操作人員為了提高或降低考核指標,對一些數據進行處理,使得數據真實性無法保證。

3.管理原因
(1)人才缺乏
組織以自身的業務發展的主要原則組建團隊,數據建設則依賴于外部服務公司,而自身沒有建立相應的管理手段和監督機制,從而無法準確判斷數據項目的建設成效。

(2)流程管理不完善
缺乏有效的數據質量保障機制和問題處理機制,數據質量問題從發現、指派、處理、優化沒有一個統一的流程和制度支撐,數據質量問題無法閉環。

(3)成員意識不開放
組織管理缺乏數據思維,沒有認識到數據質量的重要性,重系統而輕數據,認為系統是萬能的,數據質量差些也沒關系。組織成員沒有從組織戰略的視角來看待數據資產,而把數據看成是創造它的部門的資產,從而導致數據冗余、數據不一致、數據割裂,從而導致數據價值難以發掘。

(4)獎懲機制不明確
沒有明確數據歸口管理部門或崗位,缺乏數據認責機制,出現數據質量問題找不到權威源頭或找不到負責人。缺乏數據規劃,沒有明確的數據質量目標,沒有制定數據質量相關的政策和制度。

三、如何做好數據質量管理
1.從數據的整個生命周期來管理
即在數據生命周期的任何一個階段,都有嚴格的數據規劃和約束來防止臟數據產生,總的來說將其分為事前預防、事中監控、事后改善三個階段。

(1)事前預防
①制定質量管理機制:基于數據管理的復雜性和誘因的多重性特點,解決數據質量問題僅僅依靠一個技術工具是不夠的,我們需要建立長效工作機制。即根據組織特點,制定符合自身環境的工作制度,制定每個環節的工作流程,規定各個參與方的責任,確定各項數據的權威部門,制定數據質量指標,制定數據質量修復流程等等;

②制定數據質量標準:數據標準成功定義的與否,直接決定了大數據建設的成果和數據質量的高低,需要在融合國家標準、行業標準和地方標準的基礎上,融合組織自身的業務特色需求;

③制定質量監測模型:數據質量模型代表的是業務需求,它是從業務需求的角度而描述出來的質量需求;

④制定質量監測規則:數據監測規則代表的具體的質量檢測手段,它是從技術角度來描述數據質量要求是如何被滿足的,包括規范性、完整性、準確性、致性、時效性、可訪問性,等等。

(2)事中監控
①監控原始數據質量:數據采集工作從數據源頭獲取最原始的數據,在數據采集過程中將數據分為“好數據”“壞數據”,“好數據”入庫,“壞數據”則反饋給源頭修復,因為數據來源部門最懂這些數據,也最能在源頭上把數據問題徹底修復掉。

②監控數據中心質量:經過各種采集、清洗、加工過程,數據被存入數據倉庫中,這些數據也將被業務部門使用,所以,對于這些成果數據的質量監控和修復則猶為重要。對于這類數據問題,我們可能使用簡單的空值檢查、規范性檢查、值域檢查、邏輯檢查、一致性檢查、等等規則就可以檢查出來,也可能需要諸如多源比較、數據佐證、數據探索、波動檢查、離群檢查等等方法才可以檢查出來。

③反饋數據質量問題:數據質量監控過程中,會發現兩類問題,一類是源頭的數據質量問題,一類是數據中心的數據質量問題,數據質量團隊需要將這些問題及時反饋給源頭部門和數據倉庫建設團隊。

④考核數據質量考核:數據質量的考核是為了能夠引起各個參與部門和參與團隊對數據質量的重視,需要及時統計分析各種數據質量問題,并制定出相應的應對措施。

(3)事后改善
①修復數據質量問題:發現質量問題不是最終的目標,我們仍要建立相關的流程和工具,通過手工、工單、自動化等等手段將質量問題修復掉,從而為業務創新提供可靠的數據支撐。

②收集數據質量需求:通過數據中心的建設,質量問題的修復,必然能夠促進數據的應用,我們仍要建立通暢的數據質量反饋通道,讓各個部門參與到數據質量的再次完善中來,從而形成建設、應用和反饋的良性循環。

③完善質量管理制度:制度和流程的建設并不是一蹴而就的,我們要在數據建設和質量完善的過程中,結合自身組織結構和業務特色,不斷完善工作制度。

④完善數據質量標準:各行各業不斷涌現新的業務形態,原有的業務也在不斷的變化,我們要緊跟業務的變化,不斷完善符合業務需求的數據標準。

⑤完善質量監測模型:如前所述,監測模型代表的業務需求,業務形態的變化、數據標準的變化和質量新需求的出現,同樣要求監測模型能夠做出相應的變化。

⑥完善質量監測規則:同樣,如今的信息化技術發展日新月異,我們要不斷引入各種新技術來更加智能地發現和修復數據質量問題。

2.從數據質量問題解決依賴的知識來管理

(1)數據梳理
數據梳理是明確企業數據現狀,知道整體數據質量情況,將具有共同的特征數據提取出來,按照主題域的方式進行劃分,方便后續的數據管理。先明確企業數據的種類,根據數據的不同分類,選擇不同的提升數據質量的方法。

梳理企業目前的數據情況,知道企業現階段有什么數據,數據來自什么業務系統,數據用在哪里,數據如何存儲,數據安全和數據隱私是什么情況;業務可以采集到什么數據;還缺什么數據以及目前企業數據建設的情況,做好數據評估與分析報告,為數據質量提升提供一個全方位的數據現狀參考。

從業務角度出發,梳理出目前企業數據之間的流向關系、數據的分類情況和數據分類之間的關系,明確什么數據是基礎數據,什么數據是由基礎數據衍生出來的只有先梳理清楚目前企業數據情況,才能認清企業數據的情況,從中找到提升數據質量的關鍵突破點。

正所謂,工欲善其事,必先利其器。億信華辰睿治數據治理平臺的數據質量管理模塊以全面質量管理PDCA循環管理方法為指導,充分結合國內數據質量管理工作的特點,運用元數據管理、數據挖掘、數據分析、工作流、評分卡、可視化等技術最終幫助企業和政府建立數據質量管理體系,全面提升數據的完整性、規范性、及時性、一致性、邏輯性等,降低數據管理成本,減少因數據不可靠導致的決策偏差和損失。

(2)數據規范
主要從數據模型和數據標準兩個方面定義好數據規范:

①數據模型:是數據特征的抽象,是獲取和明確企業數據需求的方法,也是數據需求分析與建模工作的基礎,通過對展現客觀事物的信息進行抽象、綜合、分類,組織為具有某種結構的數據,對這些數據結構、其相互之間邏輯關系、數據操作方式及約束的描述。在實際的建模過程中,數據模型所描述的內容包括數據結構、數據操作、數據約束三個部分。

②數據標準:是對數據模型的另一種延伸,是數據資產管理的核心基礎,也是對企業數據資產化進行準確重定義的過程。數據標準可以促進企業數據模型落地,對企業業務系統中關鍵數據進行標準化起到了關鍵性作用。但是,真正數據標準并不是規范文檔、流程文檔、制度文檔等,而是通過一套由管理規范、管控流程與技術工具共同組成的體系逐步實現數據信息化標準的過程。

在數據模型的落地和推動過程當中,往往會遇到由于各組織人員認知不同、看待問題的角度不同以及其他內外部原因等限制,導致數據在集成與互通的時候會遇到數據不一致的問題。所以,在做業務系統的數據模型設計之前,企業要設計一套相對標準的數據規范。通過數據標準規范來反向推動業務進行數據收集,解決數據不一致的問題。

常用的策略有以下幾種:

①在需求規劃階段:梳理企業現有的數據模型是否合理,有則改之無則加勉,然后根據現有的模型來設計整體系統的模型,整個過程始終遵循數據標準的規范要求;

②在數據獲取階段:重點關注數據的安全性與隱私性問題、數據的及時性問題,數據傳輸等問題;

③在數據存儲和共享階段:重點關注數據的整合問題,數據的一致性問題,數據的完整性等問題。

四、注意事項
1.數據質量管理要對其業務目標,企業的數據治理不是為了治理數據而治理數據,其最終目的都是為了支持業務和管理目標實現。因此提升數據質量的主要目的是推動業務發展;
2.企業要不時進行主動的數據清理和處理補救,以糾正現有的數據問題,因為盡管有效數據質量控制可以在很大程度上起到控制和預防不良數據發生的作用,但事實上,再嚴格的質量控制也無法做到100%數據問題防治,甚至有時候嚴格的數據質量控制還會引出其他更多的數據問題;
3.建立企業組織保障體系,企業需要建立一種文化,以讓更多的人認識到數據質量的重要性,比如成立數據治理委員會,為數據質量定下基調,制定有關數據基礎架構和流程的決策等。

五、小結
對于不同行業、不同規模、甚至處于不同發展階段的企業來說,按照同樣的業務規則產出的數據,數據質量是不一樣的,因此我們首先要記住的是數據質量的高低本質上代表了這些數據使用者的滿意程度。

其次,數據質量管理是數據治理很重要的一個部分,企業數據治理的所有工作都是圍繞著提升數據質量目標而展開的,但是治理與管理是兩個矛盾的對立面,數據的質量歸根結底主要是受到人的影響,對于管理類的數據質量問題,更多往往在于企業人對于數據的理解、支持和認知程度有很大的關系,通常可以從數據規劃、數據治理的組織與職責、數據規范的制度和流程等方面去做工程規劃。
(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢