- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-06-15來源:和你遇見瀏覽數:170次
數據開放的目的是讓別人也能有效利用數據產生價值,但不同層面的數據可供再利用的潛力是不一樣的。
有好友負責企業數據治理的工作,最近制定了一部企業內的數據開放管理辦法,初稿出來后,就發給各個部門征求意見了,然后各種意見紛至沓來,令他驚訝的是,大家似乎對數據開放這個概念的理解并不一致,比如:
A部門建議:“公司內部的數據流通不能叫數據開放,應該叫數據共享!”
B部門建議:“系統間的數據流動需要在數據開放管理辦法考慮!”
C部門建議:“報表的開放需要在數據開放管理辦法中予以考慮!”
D部門建議:”部門內的數據流動需要在數據開放管理辦法中予以考慮!“
數據開放這個概念看著簡單,但每個部門每個人似乎都會受到自身背景的影響而對這個概念產生不同的理解,比如搞安全的很容易把數據開放與數據共享、數據交換等概念混為一談,認為這些都是需要在辦法中考慮的。
那么,數據開放和數據共享有沒有區別?部門內的數據流動是否屬于數據開放的范疇?報表算不算數據開放的形式?
今天就來聊一聊。
在《數據資產管理實踐白皮書(5.0版)》中,我找到了以下的關于數據開放、數據共享及數據交易概念的詮釋:
數據共享是指打通組織各部門間的數據壁壘,建立統一的數據共享機制,加速數據資源在組織內部流動。數據開放是指向社會公眾提供易于獲取和理解的數據,對于政府而言,數據開放主要是指公共數據資源開放,對于企業而言,數據開放主要是指披露企業運行情況、推動政企數據融合等。數據交易是指交易雙方通過合同約定,在安全合規的前提下,開展以數據或其衍生形態為主要標的的交易行為。
數據共享、數據開放、數據交易的區別在于交換數據的屬性與數據交換的主體范圍。對于具備公共屬性的數據,在組織體系內部流通屬于數據共享,如政府機構之間的數據交換,在組織體系外部流通屬于數據開放,如公共數據向社會公眾開放。對于具有私有(商品)屬性的數據,在組織內部流通屬于企業數據共享,如企業部門間數據交換,在組織外部流通屬于數據交易。
在《數據治理-工業企業數字化轉型之道》中,也有類似的解釋:
數據共享主要指的是面向企業內部的數據流動,其中由數據應用單位提出企業內部跨組織跨部門的數據獲取需求,由對應數據供給單位進行授權并由信息部門向該數據應用部門開放數據訪問權限。而數據開放則指企業向政府部門、外部企業、組織和個人等外部用戶提供數據的行為。
可以看到,數據開放似乎變成了政府公共數據對外開放的專有名詞,但站在企業的角度看自己內部,如果這個企業擁有一個統一的企業數據管理組織,即數據供給組織,它已經歸集了企業所有的數據并且有管理權,那么就存在一個向各部門開放數據的問題,這理所當然也是數據開放的范疇。
很多企業還沒有企業級的數據管理組織,數據開放的主體并不存在,無所謂數據開放,因此把各個部門間網狀的數據流動叫作數據共享。
但如果像華為一樣,企業已經建立了數據責任人制度,明確了企業數據責任人和領域責任人,這個時候企業數據責任人也需要履行跟政府類似的職能,比如制定數據開放管理辦法,用以規范向各部門開放數據的行為,將以前無序、低效的數據流動(比如數據共享)轉變成有序、高效的數據開放,只有這樣才能充分釋放出數據要素的價值。
那么,報表下載這種算不算數據開放呢?我們可以先看看業界對數據開放的定義:
世界銀行:
開放數據是指“能被任何人出于任何目的不受限制地進行自由利用、再利用和分發,并最大程度保持其原始出處和開放性的數據”。
G8《開放數據憲章》:
開放數據是指“具備必要的技術和法律特性,從而能被任何人、在任何時間和地點進行自由利用、再利用和分發的電子數據”。
浙江省政府:
公共數據開放是指“公共管理和服務機構面向社會提供具備原始性、可機器讀取、可供社會化利用的數據集的公共服務”。
上海市政府:
公共數據開放是指“公共管理和服務機構在公共數據范圍內,面向社會提供具備原始性、可機器讀取、可供社會化再利用的數據集的公共服務”。
從這些定義了會發現幾個關鍵詞即“原始數據”、“可機器讀取”、“可供社會化利用”,為什么要強調這些特征呢?
數據開放的目的是讓別人也能有效利用數據產生價值,但不同層面的數據可供再利用的潛力是不一樣的。就拿政府的信息公開來講,你說這些公開的信息有沒有價值,當然有,但這些“信息”往往經過了分析、加工和解讀,被賦予了特定意義,其再被利用的價值已經很低了,舉個例子:
氣象局告訴你“今天會下雨”,這是一個信息,但你很難利用這個信息再進行二次創造,但如果氣象局把得出“今天會下雨”這個結論依賴的原始數據和預測算法也告訴你,比如溫度,濕度等等,那么你就可以利用這些原始數據用于更多的用途,比如預測災難。可以說,數據是信息的底層,數據比信息具有更大的再利用空間和挖掘潛力。
但如果氣象局只是把溫度,濕度等原始數據通過文檔或網頁文本的形式提供出來,由于這些文本數據無法被機器直接讀取,或者需要通過人工或NLP等方法處理后才能使用,這樣成本就太高了,這種數據開放的價值就大打折扣了。
因此,在各國的數據開放實踐中,開放數據通常呈現為以電子化、結構化、可機讀格式開放的數據集。數據集是指由數據組成的集合,通常以表格形式出現,每一列代表一個特定變量,每一行則代表一個樣本單位。
報表雖然也是一種數據流通的方式,但一般不把報表看做數據開放,一方面是因為大多報表數據是面向特定業務高度加工過后的信息,另一方面是報表往往無法被機器直接讀取,需要一定的轉化處理,很多企業動輒說我有10000張報表,1000個指標,你看我數據的利用很好吧,但數量多并不意味著質量,也許生成10000張報表的基礎只是50張原始表而已,大家都在自己畫的圈里面內卷。
同樣的,數據可視化、數據服務、數據產品一般也不屬于數據開放的范疇,因為用戶無法有效獲得可視化、數據服務、數據產品背后的原始數據集,也無法對這些數據進行再次利用。
很多企業部門間數據開放,數據提供部門由于各種利益的考慮,往往只愿意提供匯總數據,不愿意提供原始數據,而且要求數據需求部門說明業務用途,這種數據開放的價值其實不大,因為只能定向解決一個特定的業務問題,跟數據開放的目標相去甚遠,企業所以要建立統一的數據管理組織,就是要規范這種問題,數據共享講得是解決具體問題,數據開放追求的則是價值創造。
當前主流的數據開放形式有兩種,一種是數據集合,另一種就是API。
數據開放是跨組織數據消費的基礎,明確數據開放的定義和范圍,形成大家對數據開放的共識,是推動數據開放能力提升的前提,希望對你有所啟示。