日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據質量:數據治理的核心

時間:2022-02-28來源:附子瀏覽數:335

背景

隨著大數據時代的到來,流動的數據已經成為連接全世界的載體,也成為促進經濟社會發展、便利人們產生生活的源動力。伴隨著數據的流動,尤其是為了解決流動過程中產生的一系列問題,”數據治理“流行起來。而要了解數據治理及數據質量,還得從數據、數據治理、數據質量這些基本概念說起。

何為數據?

數據是一個十分模糊的概念,至今信息學家們對數據也沒有統一的定義。筆者這里給出了維基百科關于數據的定義。數據(英語:data)是指未經過處理的原始記錄。但從艾略特《巖石》中的詩句:“我們在知識上所遺失的智慧在哪里?我們在信息中所遺失的知識在哪里?”備受信息學家的青睞。艾略特看似提出了一種層級結構,按照需求性從高到低依次排列為智慧、知識、信息。不過我們往往會運用同樣的層級結構,再增加數據層。這種層級結構為數據、信息、知識、智慧。在這種觀點下,數據是通過工具或機器搜集的原始資料。確切地說,數據是原始、未經處理的資料,甚至從未有人接觸過、看過或者思考它。如“嫦娥四號”探測器從月球返回地球的信息流就是數據。信息就是經過某種處理并供人使用的數據。如比特流轉換為圖像等。知識指的是你知道的事情,也就是經過內化的信息,而智慧則是指了解如果運用知識。

數據、信息、知識、智慧這種層級結構是人類認知領域中的各個信息階段。隨著對數據認知理解的深入,數據也可從不同視角進行分類:數據結構、是否可再生、數據保密等級、存儲層次等等。

同樣,從數據價值角度可分為數據資源、數據資產和數據資本。在數字經濟發展歷程中,數據起到了核心和關鍵作用,人們對數據價值的認識也是由淺入深,由簡單取向復雜。總體來看,數據價值的發展主要分為三個階段:第一階段是數據資源階段,數據是記錄、反應現實世界的一種資源;第二階段是數據資產階段,數據不僅是一種資源,還是一種資產,是個人或企業資產的重要組成部分,是創造財富的基礎;第三階段是數據資本階段,數據的資源和資產的特性得到進一步發揮,與價值結合,通過交易等各種流動方式,最終變成了資本。

數據治理

數據治理定義很多版本,這里給出了DAMA國際數據管理協會對數據治理定義。數據治理是對數據資產的管理活動行使權力和控制的活動集合(規劃、監控和執行)。數據治理是高層次的、規劃性的數據管 理制度活動,其關鍵管理活動包括制定數據戰略、完善數據政策、建 立數據架構等,注重數據的使用者、使用方式、使用權限等合規性制 定,強調開展數據資產全生命周期管理前的基礎工作,關注數據資產 管理中的相關保障措施。????????

2015 年,DAMA 在 DBMOK2.0 知識領域將其擴展為 11 個管理職能,分別是數據架構、數據模型與設計、數據存儲與操作、數據安全、數據集成與互操作性、文件和內容、參考數據和主數據數據倉庫和商務智能、元數據、數據質量等。因數據治理涉及內容較多,本文先講較重要的數據質量管理職能。實際上,大數據處理的關鍵也是在解決數據質量問題,《大數據資產:聰明的企業怎樣致勝于數據治理》作者托尼·費舍爾曾提到:“如果基本數據不可靠,大多數企業的大數據計劃要么失敗,要么效果低于預期。造成上述結果的關鍵原因在于,數據生命周期中流入了不一致、不準確、不可靠的數據。”,糟糕的數據質量常常意味著糟糕的業務決策,將直接導致數據統計分析不準確,監管業務難,高層領導難以決策等問題。數據質量管理是數據治理的核心,數據治理工作最終是為了保證在一個組織內生產、供應和使用高質量的數據。

數據質量管理

數據質量問題早在 1957 年的時候,計算機剛剛發明的時候,大家就意識到數據對于計算機決策的影響,提出 Garbage In Garbage Out的警示。2001 年,美國公布《數據質量法案(Data Quality Act)》,提出提升數據質量的指導意見。2018 年,中國銀行保險監督管理委員會發布《銀行業金融機構數據治理指引》,強調高質量的數據在發揮數據價值中的重要性。數據質量是保證數據應用效果的基礎。數據質量是描述數據價值含量的指標,如同礦石的含金量,數據質量的好壞決定著數據價值的高低。缺乏數據質量管理會導致臟數據、重復數據、冗余數據、數據丟失、數據不一致、無法整合、責任缺失,糟糕用戶體驗等等低劣數據質量問題。于是對企業來說,提升數據質量的需求顯得日益強烈。在理想情況下,數據質量管理應制定并實施一項過程改進規劃和流程,覆蓋整個數據生命周期。從數據的初始創建、采集、存儲、系統集成、歸檔和銷毀。但實際上這不可能一次做完所有的事情,可為改善哪些流程設定優先級,有序分批完善。

數據質量控制方法論

提升數據質量需獲取管理層的重視,在推動數據質量管理機制的建立,數據質量檢測系統實現,數據質量文化的構建等方面,能獲取更多資源。

1.獲得管理層對數據質量的重視

數據是否支持公司的愿景和使命

愿景體現了企業家的立場和信仰,是這些最高管理者對企業未來的設想。使命指的是企業由社會責任、義務所承擔或由自身發展所規定的任務。如阿里巴巴的使命:讓天下沒有難做的生意;其愿景:成為一家活102年的好公司。馬云:“阿里巴巴不是零售公司,是數據公司”。如此龐大的數據公司若無數據質量戰略,提升數據質量的全局的迭代規劃和完善流程是無法完成和實現這樣的使命和愿景。

數據資產化離不開高質量數據

數據資產化是指實現數據可控制、可量化和可變現屬性,體現了數據價值的過程。但是數據質量好壞決定著數據價值高低,影響著數據資產的效益效果。且當前數據已經滲透到各行各業,日益成為企業不可或缺的戰略資產。

數據驅動依賴高質量數據

當今如此多的工作是數據驅動的組織中,是否有準確的、可用的高質量數據直接影響領導層是否作出正確的決策和戰略目標的實現。獲取管理層對數據質量的承諾不僅意味著獲取數據質量項目需要的資源支持,還意味著管理層認識到高質量的數據價值,并愿意投資于改進工作并獎勵有助于的此行為。

2.建立數據鏈管理機制

數據生產者?

源系統:?

  • 源系統數據錄入界面施加更好的限制來杜絕數據質量問題。如APP上,讓用戶需填寫月收入信息時,設置檔次范圍,讓用戶選擇,而不是輸入框,英文或中文的數據錄入。?
  • 系統之間的數據交換,制定符合數據質量標準的接口調用規范。調用第三方系統,雙方約定好數據接口規范等。?
  • 源系統在系統設計和生產流程將數據消費者用途考慮在內。如不顧數據消費者需求存儲大量json類型,不僅設計數據安全還有無法更好使用這些數據。? ? ? ? ? ??

ETL開發:?

  • 建立一套完整的相對全面的脫敏生產數據環境
  • 提高數據開發人員意識。?
  • 列篩選會驗證單個列中的數據。如判斷這列是否存在空值、數值范圍、枚舉值內容等。?
  • 結構篩查會跨列驗證數據的關系。如驗證兩列或者多列之間的層次關系(一對多等關系)等。
  • 業務規則篩查實現更復雜的驗證。如銀行貸款的放款日期與起息日等等其他的復雜的邏輯關系測試。? ? ? ? ? ? ?

數據知識管理:

  • 系統建設和數據開發整合到項目開發的生命周期中,并伴隨系統演進對它進行管理與維護。如元數據管理、系統文檔和培訓教材在利益相關者之間共享,包括數據質量的檢測結果等。?

數據管理者?

制定數據質量標準和數據管控考核,分析數據質量問題和數據質量迭代整改計劃制定和推動,數據使用的管理等等。?

數據消費者?

數據消費者仍有正確使用數據的責任,且負有了解數據知識的責任,必須知道他們使用的數據表示什么以及如何表示的,還有如何正確使用數據的責任。?

從數據管理者、數據生產者到下游數據消費者需要被連接起來,以便通過數據鏈來創建更好的數據。

3.數據質量的檢測和量化?

數據質量檢測系統

“工欲善其事,必先利其器”需對數據質量進行測量,就需要數據質量檢測系統。?

測量數據質量,監控關鍵數據 ????

檢測指標如下:?

有效性?

  • 字段長度有效:?
  • 字段內容有效?
  • 字段數值范圍有效?
  • 枚舉值個數有效?
  • 枚舉值集合有效?

唯一性?

  • 對主鍵是否存在重復數據的監控指標。?

完整性?

  • 字段是否為空或NULL?
  • 記錄數是否丟失?
  • 記錄數環比波動?
  • 錄數波動范圍。?
  • 記錄數方差檢驗

準確性?

  • 數值同比?
  • 數值環比?
  • 數值方差檢驗?
  • 表邏輯檢查?

一致性?

  • 表級別一致性檢查?

時效性?

  • 表級別質量監控指標,數據是否按時產出?

數據剖析?

  • 最大值檢查
  • 最小值檢查?
  • 平均值檢查?
  • 匯總值檢查?

自定義規則檢查?

用戶寫自定義SQL實現的監控規則?

從有效性、唯一性、完整性、準確性、一致性、時效性、數據剖析和自定義規則檢查等幾個維度對數據質量進行測量,但對于現在超級大的數據量級監控所有的數據是不符合成本效率的。因此,知道哪些數據為最關鍵的,對這些關鍵數據進行全鏈路的數據質量,這樣有助于防止錯誤或揭示改進的機會。

數據質量問題的量化 ?

對于數據質量的檢測結果進行分析和量化,查找出現質量問題的數據鏈環節,定位數據問題,實行問責機制。

4.保持對數據生產者對各自的數據質量負責

數據質量問責制

數據生產者是創建數據流程的所有者,要生產高質量的數據需要從消費者那里了解需求和期望,一旦這些需求和期望被定義完成,管理層必須確保數據生產者為他們的數據鏈環節負責。同時數據生產者還需提供系統相關數據知識,系統文檔、元數據和培訓教材,這些知識像數據本身一樣,必須被共享和管理。還要制定機制他們對系統中可能會影響下游用戶的任何更改進行溝通。數據消費者仍負有了解數據知識的責任和有正確使用數據的責任。將數據質量目標納入績效評估中。

5.構建注重數據質量文化

數據是企業成功的關鍵,因為它提供了企業決策的基礎,成功執行數據質量流程需要一個治理結構(數據管理、數據質量問責制、倡導改善項目)。有效地利用數據需要一個支持結構(數據知識管理、元數據管理、員工培訓,主數據管理),以及用于管理和解決問題的流程(升級和設定優先級,數據生產者和消費者之間建立起有效的溝通機制),支持結構和流程必須成熟,以確保企業能從數據資產中獲取價值??梢娚a高質量數據需要管理層重視,需要整個企業的承諾。

數據質量應該在整個數據生命周期過程中都能獲得有效改善。源系統生產者都知道他們生產的數據的下游用途,數據存儲團隊都有測量和監控他們負責的數據質量的方法或系統,數據消費者有他們有效地使用數據所需的數據知識、元數據以及其他支持結構,且可以提供與數據和用途相關的輸入和反饋,使得那些負責存儲和數據的訪問人員都能針對不斷的發展的業務提高數據使用質量。數據質量超越了數據本身,還取決于管理層對質量文化的承諾。

總結

本文從數據、數據治理和數據質量管理基礎概念開始講解,并循序漸進地講述數據質量起源、帶來的負面影響及其重要性,其中給出筆者之前實現兩篇流和批數據質量檢測系統實現過程的文章鏈接,最后并給出數據質量控制方法論。從數據質量系統設計和實現,再加上數據質量控制方法論,本文算是對數據質量問題有個較為完整的講解。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢