日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

DAMA中國汪廣盛:非結構化數據的數據質量管理

時間:2022-09-29來源:從新開始瀏覽數:829

數據管理的目的是什么,這個是從DMBOK里面摘錄出來的,比如主數據管理最終目的是為了提高數據質量,讓數據產生價值,確保高質量的數據是數據管理的核心,這是DAMA協會認同的一個觀點。

這是美國一個智庫寫的,他們說現在有這個數據,大家可以看到平均有29%的這樣或那樣的問題,也正因為這個問題,另外一條我沒寫在上面,導致了在美國75%數據的項目全部失敗了,非常大的一個數據,當然現在的情況越來越好了,因為有許多標準、方式方法,包括技術的成熟,都已經有了許多的進步。前段時間美國數據項目全部失敗的占比是75%。?大家可以看到,就因為數據質量導致了那么一系列的問題。托馬斯·雷德曼做了一個估計,因為這個壞數據,每年美國政府要多花費3萬億,所以這是一個巨無霸的數字。我們數據管理的目的,我們認為就是要有一個很好的數據質量,在高質量的情況下才有可能實現數據變現。

我們這個圖比較難看得懂,大家應該熟悉這張圖到底是什么意思?比如說我們前面是限定了什么叫數據質量,我們要實現的目標到底是為了什么,我們的輸入是什么,比如說我們要評判一些什么東西,數據質量管理的活動包括哪些;數據質量管理活動結束了之后,我們的輸出又是什么。我們講了誰是我們數據質量的供應者,然后哪些人應該參與數據質量的管理,最后誰來消費我們這個數據質量。?最底下這塊是關于技術的層面,從技術的層面來講,比如說有一些什么實踐跟方法,有一些什么好的方法論、工具等。所以,從工具這個角度來說,現在市場上也有一些,這樣我們這個指標怎樣來衡量,數據質量到底是好的還是不好的。?這是我們DAMA英國協會提出來的幾項標準,他們總共提了12條,通用的是有8條,就是說我們怎樣來衡量數據到底是好的還是不好的,有許多是已經量化了的,可以用一個數據來告訴你我們這個數據質量到底是怎么樣的。

應該來說比較好理解,比如說完備性(Completeness)跟完整性(Integrity),這二者我們用不同的字來表達,待會我仔細講一講這個。包括準確性、及時性等,如果說這是有用的信息,過了三個小時以后說不定對我就毫無意義了。?我今天是想講講非結構化數據的質量管理。說實話,結構化數據質量管理相對來說是比較成熟了。我做了一個簡單的比較,結構化跟非結構化數據,我這個非結構化數據就當做是一個文檔吧,看一下這些非結構化數據質量到底怎樣來管理,說實話確實還是很不成熟,也很有難度。

從我們DAMA的角度來講,我們看到了這個問題,所以我們希望能夠有一個解答。今天與其說我給大家一個答案,不如說我是提出這個問題。非結構化數據質量管理的核心內容實際上是沒有變的,盡管我們講的是非結構化,它的核心內容沒有變,比如說非結構化數據的完備性,也是質量的一個部分。比如說我原來需要10個文檔,你最后交了3個文檔,這當然是不完備的。同樣的道理,我這個文檔當中本來是有6部分的內容,你才寫了兩部分的內容,這個文檔質量當然也是有問題的。

所以,我們可以通過一個文檔的清單,或者一個工作的模板,用這些東西來做,包括文檔這個元數據的完備性,這也是一個問題,這個文檔具體是什么內容,權限是什么,儲存在哪里,這些所謂的文檔元數據也有完備性的問題。?非結構化數據的完整性,比如像文檔來源的真實性,如文檔的來源到底是不是真實的,里面的內容是不是真實的,有沒有修改過,甚至是否存在虛假的信息,現在虛假的信息太多了,你怎樣判斷某個文檔的完整性,這也是一個問題。這還有非結構化數據的可用性,這個文檔到底是否可用,所以這個核心的內容跟結構化數據應該來說是差不多的。?結構化數據面臨的那些衡量的標準,我們非結構化里面實際上也會有這么個標準在這,所以完備性應該還可以理解,大家想想這個完整性應該怎么管理?比如你怎么知道這個文檔沒有被篡改過,再比如里面的內容是否真實,這個該怎么管理,我先拋出一個問題,待會我會提出我的想法。?大家可以看到非結構化數據的質量管理難度系數比結構化數據難的多,從技術層面來講也有許多技術現在也沒有完全能夠跟的上,所以這個非結構化數據的質量管理很難。?最近我也去了幾個大數據中心,目前國內的大數據中心做的什么工作?所有的結構化數據的歸集目前都已經完成了,特別是像北京、上海、浙江、貴州和廣州等,該整理的數據都已經整理出來了,所以去每個地方,大家都會告訴我說我們的第二期開始做非結構化數據了,工作量會非常大,另外工作會非常的艱巨,這個真的是不容易。 如果你真的要做一個非結構化數據的質量管理:第一,編一個數據資產目錄。

第二,你肯定要對管理的現狀進行評估,我們DAMA有一個專題組專門在做這個非結構化數據的管理,有這么一個專項正在做,領頭的是在美國的一個專家。我們也提了一些參數,我們可以看看非結構化數據的管理現狀,數據質量是其中的一個,還有數據安全,非結構化數據的存儲、非結構化數據的開放等等,包括結構化數據如何共享,現在共享講的非常多。?實際上共享并不能解決所有的問題,在許多情況下信息孤島是必然存在的,是不可能消除的,由于法律的限制、倫理的要求,所以數據共享并不是能夠解決所有的問題,但是它是很重要的。?我們這邊也提了一些大概的參數,基于這些參數我們到底怎樣做,要不要一個組織?肯定需要,就好像我們要有一個CDO一樣,可以是一個虛擬的機構,但是必須要有這么一個機構。

我們在某市里面碰到這么一個問題,他們目前嘗試著做非結構化數據的管理,后來感覺指揮不動,因為這個大數據中心的級別大家知道,跟其他委辦的級別是相同的,比如跟交通局或者市場監督管理局是同級的機構,所以沒有指揮權,所以這個數據的歸集當中碰到了許多問題,目前他們這個組織機構正在調整。?這里面需要有文件的管理,檔案的管理,一般現在的行情是把文件跟檔案分開,還有視頻的管理,特別是證照的管理,因為這是非結構化數據,需要這些管理部門具體負責這些具體的任務。我們需要建立一大堆的規章制度,說實話數據質量管理許多時候是一個規章制度的問題,是一個體制的問題,比如說從最初的食品設定開始,我們DAMA對非結構化數據質量的管理并不是從數據進來了才開始,我們的起點是在前面,在數據沒有進來之前我們就應該要有這樣一個需求的設定,這也是DAMA的理論,所以有許多的規章制度需要寫,我們最近有一個團隊就在寫這樣的規章制度。實行起來有點難度,需要有前面數據治理那個保障來做這個。

我快速講非結構化數據管理的未來趨勢,基于我們DAMA的理解,因為內容比較多,我就快速講一講:1. 增強式的數據分析。特別是對于非結構化的數據而言,如果說我們沒有AI的加入,基本上是沒有辦法來管理的。大家可以看一下這個,因為我們要去驗證文檔里面內容的真實性或者內容是否干凈等,沒有NLP,如果說每一個人去讀這個文章的話,這個工作基本上是不可能完成的,所以我們講的必須是一種增強式的數據分析,特別是NLP對我們非結構化數據的管理顯得非常重要。

2. 圖形關系分析。為什么這對非結構化數據非常重要?假定說我這個文件傳輸給了你,然后你又傳輸給了其它方,我要知道這個文件的來龍去脈就需要用圖數據來表述。

所以,從這個角度來講,文件傳輸的途徑以及管理,非常需要圖數據來管理。從這點來講的話,圖形分析對我們非結構化數據的管理來講非常重要,甚至比結構化數據起到的作用會更大。 3. 統一的數據管理平臺跟數據虛擬。上個星期我還跟華為的幾位兄弟們在聊,華為是非常有前瞻性的,他們在弄一個叫OpenLooKeng的引擎,他想做一個什么東西呢?我管你是結構化的還是非結構化的數據,我統統把你整合起來,從最終用戶這個角度來講的話,我就是一個統一的界面,所以這就是所謂的數據虛擬。

從最終用戶來講的話,我們把底層都給你搞定,然后你只要拖拽你的報表或者你所需要的信息就出來了,所以這就是OpenLooKeng,我認為華為這個方向非常好。因為非結構化數據太難管理了,這樣一來對于用戶來講大大方便了。 4.?Data Fabric。這是2014年提出來的,為什么要提這個概念?許多數據都是儲存在不同的云里面的,現在肯定是一個混合云,我們不太可能像一個大型的機構,只用華為云、阿里云、騰訊云等。在混合云的情況下,我的非結構化數據儲存在不同的地方,怎樣把它整合起來是一個問題。

5. 邊緣計算。為什么要提這個呢?工業互聯網里面有邊緣計算的概念,實際上非結構化數據管理里面也有邊緣計算的概念。跟結構化數據不一樣的是,我們非結構化數據基本上都儲存在各地,甚至我的手機上,你怎樣把這些數據都管理起來,所以你要把所有非結構化的數據全部集中化,我覺得非常有難度,甚至于不一定有這個可能性。所以,我們認為邊緣計算的引入肯定是一個趨勢,特別是對非結構化數據的管理。

6. 區塊鏈的參與。我個人認為我們數據管理不一定需要區塊鏈,包括隱私計算,但是我感覺到在處理非結構化數據的時候,沒有區塊鏈的參與恐怕是很有難度的。不是說我一再要講區塊鏈有多么的偉大,我認為未來管理非結構化的數據沒有區塊鏈的加入恐怕真的很難。

在DAMA的書里面,有一章非結構化數據管理里面就講到了這個,比如說非結構化的數據,對這個文檔進行真實性的判斷,怎么判斷?當然可以用其它的方式方法來做,但是有區塊鏈的話,工作效率會大大提高。(詳見:30頁PPT讀懂DAMA-DMBOK2.0數據管理知識體系指南核心精要)?很顯然這一點是說我知道這個文檔有沒有被修改過,假定我前面的工作已經判定我的這個文檔是真實的,內容是很好的,也是有用的,在那個基礎上,我后面的就不需要再去評判了。如果說沒有區塊鏈,我這個文檔就算評判好了以后,我進行過了修改,你仍然是不知道。所以我是充分認為,當我們在做非結構化管理的時候,如果沒有區塊鏈的參與,很有可能這是一個很大的缺陷。?我們認為數據質量是數據管理的核心內容,也是數據價值實現的基礎。相比較結構化數據的質量管理,非結構化數據的質量管理更加復雜、更艱難,現在剛剛才開始。我們DAMA關于數據治理這11個領域可以有效的幫助我們提高數據,包括非結構化數據的質量關系。
(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢