日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據要素市場形成論——一種數據要素治理的機制框架

時間:2022-10-07來源:我是天空的云瀏覽數:360

本文系國家社會科學基金重大項目“大數據時代個人數據保護與數據權利體系研究”(項目編號:18ZDA145)階段性成果之一。原載于《上海經濟研究》2022年第9期。為方便作者閱讀,此稿刪除了原文的注釋。

內容摘要:數據作為生產要素可以用來支撐新的知識生產方式——數據智能。數據智能是以數據為生產原材料,基于其計算價值進行挖掘分析進而形成決策,以支撐科學研究、商業運營和社會治理的價值生產模式。在此意義上的數據要素已經不是一般的數據化的知識,而是泛指在智能網絡系統中生成的供機器學習等數據智能分析工具使用的可機讀原始事實數據。為了培育形成數據要素市場,數據需要完成從資源到生產要素的跨越,即數據的要素化和市場化過程。數據的要素化是使數據資源滿足原始性、機讀性及質量標準要求的過程,從而使數據資源具備可用性,以支撐數據智能的價值生產與實現方式。數據要素的市場化旨在實現數據要素的可重用性,使數據要素成為可社會化利用的“產品”,讓數據要素以標準化的產品形態得以在數據要素市場中自由流通。從中國的政策實踐出發,培育數據要素市場的根本路徑并不是搭建交易場所式的單一技術支持,而是整體構建與數據要素及其流通特點相適應的基礎性市場形成機制。探索構建從數據產品的生產激勵,到產品描述、產品發現與價值實現的數據要素治理框架,實現基礎服務與基礎制度的供給,促進數據要素價值的創造、流通與實現,以提高國家數據經濟的發展水平。

一、數據:數字經濟時代的新型生產要素

生產要素(Factors of Production)是為維系國民經濟運行及市場主體生產經營過程中所必須具備的基本社會資源,其最主要的特征在于為經濟發展系統提供基礎與動力來源。在一般意義上,生產要素包括創造商品或服務所需的任何資源。在傳統經濟理論上,一般認為土地、勞動力和資本是三大生產要素。隨著理論發展,生產要素的外延不斷擴展,逐漸出現了生產要素“四元論”“五元論”甚至“六元論”的衍生觀點。


2020年3月中共中央、國務院發布《關于構建更加完善的要素市場化配置體制機制的意見》(以下簡稱“意見”),在世界上首次將數據視為新的生產要素,并形成了土地、勞動力、資本、技術和數據五大生產要素框架。在這五大生產要素中,數據要素是傳統生產要素理論的重大突破,準確反映了當下經濟社會發展所呈現出的特征與趨勢——從工業生產經濟向數字(數據)經濟的跨越。茱莉亞·科恩就此跨越進行了準確的描述,即無形資源的財產化與工業生產基本要素的非物質化和數據化。數據資源開始成為數字經濟時代的基礎性生產要素。2022年6月22日中央深化改革委員會又審議通過了《關于構建數據基礎制度更好發揮數據要素作用的意見》,更是明確提出促進數據高效流通使用、賦能實體經濟,統籌推進數據產權、流通交易、收益分配、安全治理,加快構建數據基礎制度體系的要求。數據要素及數據要素市場的相關研究已成為數字經濟時代多學科共同關注的重要課題。


一般意義上的數據被理解為數字化的信息和知識。其價值本質體現為消除不對稱性與不確定性,使資源配置和利用更加有效,從而提高經濟效率或創造經濟價值,這一點是信息經濟發展至現階段已經達成的基本共識。這樣的觀點反映出了人類社會從古至今利用信息,創造知識,不斷改造客觀世界和提升社會運行效率的一般規律。但這一描述并沒有準確反映出當下隨信息技術發展的趨勢,即人類通過大數據、AI等技術對事實數據的利用能力的跨越式發展與提升。因此,本文雖不否認傳統上對數據(指數字化信息和知識)的認知與理解,但在此基礎上,對于數據要素的理解還應當隨著新興技術的沖擊與社會商業實踐的探索而繼續深化。本文認為作為數字經濟時代的生產要素,數據不是傳統意義上信息,更不單純是數字化的知識成果,而是泛指在智能網絡系統中生成的供機器學習等智能分析工具使用的可機讀原始數據。在這種意義上,這些數據資源更像是社會活動產出的“副產品”。但正是這些“副產品”數據構成了有巨大潛在利用價值的資源,可以用作經濟或者知識生產的投入。此外,數據廣泛地分布在智能網絡構架系統中,其可復制性極大程度上降低了流通分享的邊際成本,使得數據非競爭性的高效利用成為可能。正是這種生產要素意義上的獲取與消費邏輯催化了一系列復雜的數據經濟和市場關系的出現。因此,數據在何種意義上被作為生產要素,又是如何在市場中得以商品化流通的?對這一基礎命題的理解將對數據要素市場的培育起到極為重要的作用。


基于上述認識,本文認為作為生產要素意義上的數據應當是伴隨數字經濟時代知識生產方式的模式轉變而提出的,主要指支撐數據智能的可機讀原始事實數據。這樣的數據即可用于數據智能。從數據資源向數據要素的跨越過程就是數據的要素化過程。但是,社會個體所擁有的數據要素并不一定能夠實現數據要素的社會化配置和利用,進而形成數據要素市場。數據要素要實現市場化配置和利用還必須滿足數據要素可重用性的市場化要求。數據要素的可重用性(Reusability)本質上使數據要素成為標準化的、可為任何市場主體重復使用的“產品”,即數據產品化。如果一個社會存在使數據要素化(可用)和產品化(可重用)的制度機制,那么數據要素市場就會自發形成并不斷演進成熟。因此,本文通過數據可用性和可重用性概念來描述數據要素化和市場化的數據治理過程,以此構建數據要素市場的形成理論。

二、數據要素化:支撐數據智能的數據資源

比爾·施馬佐的數據經濟定律認為,“重要的不是數據本身,從有關客戶、產品和運營的數據中所收集的趨勢、模式和關系才是有價值的”。簡而言之,數據的價值不在于其本身,而在于計算分析所產生的洞見。所謂的數據要素化,就是利用數字技術對沉淀的原始數據進行預處理,將其激活為可被計算機識別的0、1二進制符號,承載著海量信息嵌入生產活動,并轉化為數據生產力的系列過程。對于市場主體而言,能夠轉為生產要素的數據一定是可用于實現企業戰略中定義的目標,實現數據貨幣化的數據。這樣的數據是可以用于數據智能的數據,即具備可用性的數據。筆者將數據的可用性概括為原始性、機讀性和滿足一定質量要求三個條件,滿足這三個條件的就是支撐數據智能的可用數據,也就是數據要素。


(一)數據要素化條件之一:原始性

隨著技術的發展,計算機不僅成為人類處理信息的工具,而且逐漸地具有自主處理數據的能力,出現了替代人工的數據智能技術。數據智能的大規模使用需要關于同一分析對象或同一問題的、來源于不同數據源的海量數據。這種數據必須是針對特定對象的記錄或描述的原始數據。它具備以下幾個重要特點。其一,原始數據總是來源于特定對象(人、物、事件)的客觀記錄,數字化記錄完成了數據與描述對象分離,使其成為可供處理的數據;其二,原始數據可以被清洗、分類、匯集等預處理成為數據集,但該數據集中的數據必須一直保持原始狀態,以便其可以為了不同的分析目的而不斷地被選擇性地提取、組織和匯集成數據集,從而進行分析、使用;其三,一旦數據經過數據智能利用成為具有特定含義或知識的信息,那么原始數據的生命就此結束。數據的原始性是其表面與客觀世界的關聯性的重要體現。


數據的原始性要求體現在其價值獲取方式上。原始數據才可以不斷地與其他數據結合、匹配,從而產生新的計算價值。而一旦數據轉化為信息或知識,其生命就結束了。只有原始數據才具有流通生命,才有被數據智能所分析的價值。正因此,大數據被看作是生產見解或知識的原始數據處理系統,并把它視為由將數據引入系統、數據存儲計算、分析數據和得到可視化結果四種連續的數據處理的活動組成。大數據分析的知識生產方式與人類認知世界、創造知識的方式是一致的,均是先對客觀世界觀察記錄,然后分析數據,最終生產出知識。只是大數據不僅是由機器生產的,其分析過程也是由機器(數據智能分析工具)進行的,從而形成區別于傳統人工的數據智能生產方式。因此,這種生產方式對于作為原材料的數據要素也就有了新的原始性要求。數據的原始性要求也體現在對于數據智能結果的影響上。之所以數據智能可以實現更加客觀、科學的未來預測,就是在于數據智能可以突破單一維度的因果關系模型,在多維度、多種類的相關變量之間,推導出最為接近的估計值。數據在這種意義上,可以被視作填充數據智能,用以被計算的原料。雖然數據本身并不具備直接表達因果關系的能力,但數據事實上所映射的關于狀態、數量的信息卻直接影響到數據智能的分析結果。為了使數據能夠進入數據智能,并且使數據智能的分析結果盡可能地精確,數據要素必須是明確的、可理解的單一概念且能夠映射到特定的實體。這樣的數據就是保持了自身還原性、客觀性與關聯性的原始數據,是不應當被隨意實質處理和篡改的。數據智能需要用特定數據描述特定實體意義,就像人類用語言描述物質實體一樣,只有這樣才能對客觀世界規律進行科學的分析和判斷,從而做出預測。


(二)數據要素化條件之二:機讀性

機讀性是伴隨計算機應用而產生的。如同人通過各種語言,按照一定的語法規律來表達某種含義,反映客觀規律一樣,計算機也需要特定的數據格式。因而,機讀數據就是具備計算機等智能設備可以自動讀取和處理的特定格式的數據。機器可讀格式則是指結構化的文檔格式(包括個別事實陳述及其內部結構),以便軟件應用程序可以輕松識別和提取特定數據。只有在數據具備機讀性的前提下,才可以進行數據點(Data Points)的識別和提取,進而可以組合并存儲在特定位置以供進一步處理。


數據的機讀性條件體現在其格式語言的結構化上。人類所創造的各種文明均系以人可識讀和理解的形式來表達和傳播的,當人類使用各種符號來記錄某種事實,表達某種思想時,均構成了人可識讀的數據,即信息或者知識。人借助大腦來理解數據之含義或意義,只要有人可識讀的文字、圖表或圖形等具象表達,就不需要專門的設備或裝置,人類就可以直接理解、分析和應用相應的數據。從這個角度來說,人類可識讀的數據被認為是非標準化、非結構化的語義學意義上的信息,而機器可讀數據必須是結構化數據。為了讓機器讀取數據,數據必須遵循機器可以理解的格式語言呈現,如CSV、JSON、XML等。遵循這些格式語言使數據以結構化方式呈現,使機器可讀和可處理。機讀數據一定是數字化的,但數字化的數據并不一定是可機讀的。例如文本的數字化掃描件不是機器可讀的(但人類可讀),因為它是非結構化的數據。


這意味著當人類進入數據智能階段,當有效的知識產生方式轉變為機讀數據支撐的數據智能時,具有價值的數據是那些能夠支撐算法、機器學習等智能分析手段應用的原始數據。如果將數據的價值定位于知識生產或支撐決策或行動,那么成為生產要素的數據必須具備可機讀性。因為只有可機讀數據才能支撐機器學習,支撐新的知識生產方式。具有可機讀性的數據可以大致分為兩類:一類是來源于人可識別的數據,包括人類文明長河中積累的所有事實信息和知識,經過結構化處理之后,轉化為機讀數據。


一類是由計算機、應用程序或服務,或由傳感器處理從設備、軟件或機器(無論是虛擬的還是真實的)接收到的信息而產生的數據,它們并不需要人的直接干預。萬物互聯的網絡環境下,這些數據經初步處理后即成為可機讀的數據,主要以機器處理的數據文件格式存在,成為支撐數據智能的主要“原材料”。


在這兩類數據中,機器生產的機讀數據一直是支撐數據智能的主體,也是本文始終突出的研究重點。一方面這是因為機器生產的數據不僅數量巨大,樣本齊全,而且均可以關聯到特定對象,成為對客觀世界最真實的全樣本記錄。這是人類利用自己進行觀察和測量所無法比擬的。網絡、傳感器和智能設備則可以全天候、全樣本、真實地記錄客觀世界。從客觀世界中采集的看似雜亂無章的數據可以通過匯集處理,洞察出關于客觀對象的內在規律,從而提煉或形成新的認知或知識。另一方面,機讀數據的機讀性使它不僅可以借助計算機高效處理信息,而且可以自主學習和自動聚合,成為機器學習與人工智能技術的基礎。機讀性的數據可以通過自動聚合器(Automatic Syndication Feeds)輕松分享數據。用戶只要有一個合適的軟件應用程序來接受聚合,就可以獲取或接收到所要數據,并進行計算分析。機讀數據的獨特性在于可重復利用,而且可以在不斷地結合、匯集和演算分析中產生新的價值,而且這個過程并不會終止,可以不斷演進下去。這就使得機器像人類一樣的自主學習成為可能,這是高級人工智能的本質也是實現數據特殊應用價值的基本途徑。


(三)數據要素化條件之三:數據質量

原始的可機讀數據能夠用于數據智能,但是具體使用效果如何,則是由這些數據是否具備一定質量要求來決定的。雖然許多機構事實上控制了豐富的數據,但這些數據在帶來多樣性價值的同時,也帶來了數據類型和數據結構的差異性與復雜性,甚至存在準確性差、真實性存疑等質量問題。這就導致了這些數據往往是無法被有效分析以產生有用的信息來支持目標設定、決策、監控或其他處理實踐的。因此,隨著數據量的巨大增長,數據質量的良莠不齊,甚至可以說更多的數據往往意味著更多棘手的問題。影響數據質量的根本原因源于大數據本身的多源異構性。從不同的異構來源生成大量非結構化數據本身就需要治理才可以使用。這大大地降低了數據智能的應用效率。因此,只有滿足一定質量的數據才是真正要素化的數據。


正如優質的食材才可以烹調出美味佳肴一樣,作為數據智能的原料,精確地判斷或預測,都是建立在正確、完整、真實的數據原料基礎之上的,因此數據也必須滿足一定的質量要求。計算機科學家維奈·拉奧指出,當數據滿足以下條件時,它就變得有價值了:

①及時提供;

②簡潔、很好組織在一起及相關性;

③它具有基于經驗的意義和背景;

④它是多個數據源的集合。

因此,只有滿足這些關于數據質量的要求時,數據就可以減少解決問題和幫助做出正確決策所需的時間、精力和資源,它就是一種有價值的資源,就是可以高效利用的數據生產要素。


數據質量的判斷需要具體的評價指標。有研究認為,機讀數據集應具備以下六個特征,包括:

①計算機可以自動處理的數據格式以及結構化數據;

②沒有實體獨家控制且必須按照國際標準加密;

③數據可處理,但是不丟失語義(Semantic Meaning);

④數據格式和類型具有一致性;

⑤遵循規則和命名協定的可變命名;

⑥是通過計算機代碼可以查詢和處理的數據 。

這應當是對數據質量較為全面的總結。

為了評判數據質量,應當建立衡量數據質量的維度框架,如準確性、相關性、完整性、一致性、及時性和格式統一性等。不過,數據質量是一個相對性的問題,并不存在單一的適用各種情形的數據質量標準,而是需要根據行業或企業需求,發展出不同要求的數據質量標準體系。因此,原始性與可機讀性只是數據成為生產要素的前提條件,而數據是否滿足一定的質量要求,達到可以使用的程度,則是數據成為生產要素的實質條件。


三、數據市場化:數據要素的流通條件

數據要素化使數據具有可用性,可以支撐一個組織實施數據智能為依托的數據驅動戰略,但還不具有完整的財產屬性。數據只有具有了像一般商品一樣的可交易性,具有通過市場交易變現的能力(產生交換價值),才能真正地成為商品、財產或者資產。這也時常被稱為數據直接貨幣化(Direct Data Monetization)。數據要素的可流通性意味著數據要素成為可為任何市場主體重復使用的“產品”,因此,本文將數據要素的可重用性看作是數據要素產品化的標志,同時也是數據要素市場化流通的基礎性技術標準。數據要素一旦成為可重用的產品,數據要素市場自然可以憑借市場主體的自主性自發形成并不斷成熟。因此,數據資源在完成要素化之后,所面臨的就是如何實現市場化的難題。

(一)直面失敗:反思數據市場化流通的基礎條件

在培育數據要素市場的實踐中,數據市場(Data Marketplace)這一形態在2010年前后在世界范圍內逐漸興起,中國在2014年至2019年底也有多家數據交易機構掛牌成立。但是,現實的結果卻是不僅國內的數據交易業務曇花一現,國外的許多數據交易機構可以正常經營的也寥寥無幾,盛極一時的數據交易公司紛紛關門轉業。自《意見》發布之后,全國各地開啟了新一輪的數據交易市場建設,2021—2022年先后有15家機構成立,各地方政府也積極探索設立各類數據交易所。除了由地方政府推動組建的數據交易所外,許多由商業機構設立的數據流通場所也不斷涌現。但是,數據交易機構失敗的前車之鑒始終警示著研究者。在筆者看來,要想從失敗中吸取教訓,需要從以下幾個方面重新思考數據要素市場化流通的基本問題。

1.數據交易機構未解決數據的合法性問題,導致交易失范。公開的數據要素市場建設需要解決數據的合法性問題,而合法性的前提是具有可流通的數據要素產品。除了數據來源的合法性問題(本文限于篇幅不予討論),現行數據交易機構失敗的最主要原因是并沒有滿足真正需求的數據要素產品,而只有失范的“數據買賣”。在數據交易熱潮中崛起的許多數據交易機構,大多利用數據法律理論和監管實踐的空白,不擇手段地獲取數據資源,尋求“數據變現”。其結果是一方面交易數據不具備本文所講的原始性、機讀性與質量要求,使數據交易淪為信息和知識范疇下的信息產品交易,另一方面則因為法律上的不確定性和涉個人信息處理活動的合法性質疑,整個數據交易市場都處于似是而非的不確定性之中,甚至有的從業者還面臨著觸犯刑事法律的風險。

2.數據要素市場是促成數據要素商業化利用的一整套制度安排,而不是單一的技術和場所支持。數據要素流通既可以無償,也可有償,既可以在特定主體之間或固定群體之內,也可以在不特定人之間通過公開的市場交易方式(公開要約、詢價等)實現。數據要素流通既可以完全轉移數據本身,也可以通過數據許可獲得使用權限,如讀取、計算、訪問等方式。可以說,各種數據要素流通形式已經廣泛存在于當下的數字經濟活動中,但是似乎無法明顯感受到所謂數據市場的存在。出現這樣的錯位的主要原因就是錯誤的理解、定位了“數據市場”這個概念。

傳統上認為,一個正常運作的市場需要:

①能夠被估價的標的物,以便能夠進行交易;

②一套使用通用技術和方法調動計算能力的框架,并且適用廣泛;

③一個被普遍理解的制度架構,在這個制度中可以進行安全、順暢的交易。

由于公開和競爭數據交易往往需要第三方商業撮合、安全保障等,因而第三方運營的數據交易機構(一般稱為數據分享/流通/交易平臺)便成了所謂“數據市場”的標簽。顯然,這里“數據市場”被特指在特定交易機構或場所,通過集中、公開、競價的方式進行的所謂“場內交易”,并不包括數據交換、共享等其他多樣化、多場景、多路徑的數據要素流通利用形式。這樣狹義的市場解讀便造成了對于“數據交易所”等交易機構偏激的追求,其實際效果則難以令人滿意。

3.數據交易機構忽略了數據要素的特殊性。典型的市場交易適合于交易標的物可界定、產權清晰或可判斷、價值可評價,有成熟的價值發現和實現的市場機制,存在降低交易成本和保障交易安全的制度保障體系。對于傳統工業制品,通過產品標準化、公開競爭的市場、發達的法律制度等來確保商品市場有效運行。但是,數據要素本身是非常特殊的,難以標準化成為制約市場交易的最大難點。

從影響數據要素交易的角度,數據要素至少可以概括出以下三個特點以區別于傳統市場商品:

①數據要素的難以界定性;

②數據要素價值的不固定性與不可計量性;

③數據要素的價值遷移性。

因此,數據要素這些特征決定了數據要素不太適合常規的市場交易范式,市場交易范式,即依賴于繁重的流程標準化、易于比較、買家和供應商之間的公平互動以及明確的價值轉移。

4.數據交易場所對于供需關系匹配的失效。數據要素市場中流通的數據應當是滿足接受者(使用者)需求的數據要素產品。這些數據要素產品“必須將數據錨定在符合每個主體利益的關鍵使用情形中”。數據要素的市場化旨在通過市場化方式實現數據產品社會化配置和利用。由于前述數據要素不同于一般消費品的特性,本文發現在早期數據市場的構建中存在巨大的悖論。即使數據市場嘗試著生成、存儲、提供了越來越多的數據,但實際訪問和重用這些數據以積極促進數據智能的動力與能力仍然受到阻礙。從使用者的角度來說,數據要素的可用性與需求的滿足度便是一個不可忽略的問題。數據交易市場是需求驅動的市場,而不是供給決定市場。因為雖然數據供給者需要盡可能從潛在客戶的需求出發設計、處理和構建數據產品,但是數據供給者不可能知道其數據有多少用途,往往也不能準確地判斷其數據計算分析產生的結果與價值。


(二)可重用性:市場化數據要素的技術標準

“為了使數據在未來仍然有用(或對第三方有用),不僅需要數據可讀,還需要以透明和一致的方式記錄數據,以便所有用戶了解數據代表的內容。”本文用數據要素的可重用性描述數據要素市場化流通利用的條件。數據要素可重用意味著數據要素不僅可以為原來生產者使用(在原生環境中可用),而且可以提供給其他人使用,在新的商業場景和生態環境中亦可以使用。數據要素滿足可重用性有助于識別和消除數據要素市場化流通的障礙,有助于數據經濟的進一步發展,可以更好地利用數據要素創造的價值。

只有當市場主體可以不斷重用來自不同來源的大量數據要素時,才能充分利用大數據的好處,增加發現新趨勢、模式和關系的可能性,產生具有經濟和社會價值的見解和知識。因此,在挖掘數據要素的計算價值時,數據的可重用成為數據要素市場化的基本技術標準,實現數據要素流通的基本途徑。巴特·卡斯特斯和海倫娜·烏爾西克概括了三種類型的數據重用:數據循環(Data Recycling)、數據目的重用(Data Repurposing)和數據場景重用(Data Recontextualization),并且斷言第二和第三種數據重用的類型將在歐洲數據經濟中具有最大的附加值。它將來自不同來源(如不同社會部門和行業)的數據要素組合在一起,形成新的更大的數據集,數據要素的附加值可能會大幅增加。

數據要素的可重用性在很大程度上取決于存儲、處理和傳輸數據的系統彼此兼容、連接的程度,因此數據要素可重用性也表達為數據互操作性(Interoperability)。數據互操作性對于內部而言是創建、存儲、查找、共享和重用數據,而對于機構組織之間或整個社會而言,它是實現數據分享或流通的基礎設施。互操作性既適用于系統,也適用于數據要素,最終使系統能夠交換數據并隨后以最終用戶可以理解的方式呈現該數據。IEEE將互操作性定義為:“兩個或多個系統或組件交換信息和使用已交換信息的能力。”實現該能力主要是句法(Syntactic)和語義(Semantic)兩個方面具有互操作性。?在此基礎上,互操作性逐漸被拓展到數據法律、組織與技術層面,其目的就是讓數據要素市場中的要素流通高效、有效、及時和高質量,并幫助減少繁文縟節,降低相關流通成本,從而實現一個系統與另一個系統的部分或全部獨立工作的能力。因此,互操作性使數據要素成為任何市場主體使用的產品,使數據要素具有市場化的可流通性。

因此,數據可重用問題實質演變為數據要素的標準化問題,也就是將數據要素轉換為通用格式以使用戶能夠對其進行處理和分析。大數據最大的特征是異構多源,因而要使來源于不同系統、不同主體的數據能夠方便地相互連接起來,就需要建立清晰和一致定義的數據要素和屬性(描述),并采取或轉換為統一格式。這樣,無論數據流通到哪里,無論想獲得什么見解或想解決什么問題,都能夠正確理解所獲得數據,與更多數據實現匹配和聚合。應當說,技術和產業界一直在為數據可重用而努力。為實現更大范圍的有價值的數據要素流通,早在2011年FORCELL就提出建議遵循可查找、可訪問、可互操作、可重用的“FAIR原則”。經過馬克·威爾金森等在2016年的進一步細化,“FAIR原則”得以在世界范圍內產生影響。與其他倡議不同,“FAIR原則”除了支持個人對數據的重用性外,更強調增強機器自動查找和使用數據的能力,即機器可操作性(Machine-actionability),也就是計算系統在無需或最少人工干預的情況下查找、訪問、互操作和重用數據的能力。這幾乎成為數據要素流通尤其是科研數據流通的世界性標準。


(三)市場化的數據產品形態

可重用的數據具有可流通性,可以通過市場交易來實現數據的經濟收益。為了指引和規范數據流通,本文需要對可交易的數據產品做出界定。有研究者總結出五種數據貨幣化形式:

①數據或見解許可使用;

②數據交換(指用數據交換數據或其他);

③用數據增強現有產品或服務;

④數字化現有產品或服務;

⑤反向數據貨幣化(指向自己用戶推薦其他產品或服務)。

受此啟發,一旦將數字經濟視為智能數據支撐的經濟活動,并將知識(數據分析產生的洞見、預測、解決方案等)亦視為數據產品,那么就可以全面勾勒出數據產品的樣態全貌。在實踐中,任何與數據相關的資產,從原始數據到模型、代碼、API密鑰和指令,都可以組合形成數據產品。為符合數據行業的實踐,本文在廣義上使用數據產品概念,筆者嘗試區分的可交易流通的數據產品包括以下三類:

1.知識生產要素類的數據產品。知識生產要素數據產品,是指經過處理可以不斷重用的原始數據。所謂的原始僅在于該數據仍然保持與特定實體關聯性,可以不斷地用于該實體規律的發現。要素數據以數據集為典型。數據集泛指有組織的數據集合。ISO所定義的數據集更加符合產品性數據要求:數據集以一種或多種格式可供訪問或下載的可識別數據集合(Identifiable Collection of Data)。數據集可大可小,可以小到包含在更大數據集中的單個要素或要素屬性。從可重用的角度,無論怎樣的小,它必須具有可關聯性,也就是可以識別某個對象的數據。高價值數據集具有三個重要的特征:可重用性、對數據持有者的價值性以及對重用者的價值性。數據集是一組相關的、離散的相關數據項的集合,這些數據項可以單獨訪問,也可以組合訪問,或者作為一個整體進行管理。數據庫本身可以被視為一個數據集,數據庫中與特定類型信息相關的數據體也可以被視為一個數據集,例如特定公司部門的銷售數據。要素數據產品可以以數據倉庫甚或數據湖方式呈現。因此,實踐中也許存在數據倉庫或數據湖的買賣或許可使用交易。

2.知識生產工具類數據產品。工具類數據產品屬于數據分析方法或技術工具,而不是數據要素本身。典型的數據算法模型被認為是數據產品。數據產品由數據訓練而成,通過具有自適應性和廣泛適用的經濟模型,這些模型從數據中獲取價值并生成新數據作為回報。這樣,從數據中學習、自適應和廣泛適用的系統或智能分析工具亦可以視為數據產品。這類數據產品將會越來越多,因為并不是所有的組織都具有數據智能分析能力。當持有者擁有數據但不清楚可以用它解決哪些業務目標時,可以使用一些工具類數據產品以解決數據分析應用于業務的特定問題。基于語義網絡的知識圖譜也可以認為是工具型數據產品,因為真正的知識圖譜是從不同信息源“獲取和集成信息到本體中,并應用推理器推導出新知識”。知識圖譜將成為支撐機器學習、人工智能有效運行的重要數據產品。

3.知識服務類數據產品。數據是生產知識的要素,一旦機器能從大量歷史數據(訓練數據)中學習規律,形成模型,就可以依照輸入數據狀態產出合理預測或洞見——知識。知識成為大數據分析的結果或產出,這些知識可以應用于各行各業,支撐科學研究、運營決策。隨著大數據分析應用需求的增長,社會中逐漸出現了數據供給者形態的企業,一方面為匯集和聚合數據,形成可重用的數據資源,提供給需要數據的主體(扮演數據經紀商角色),另一方面研發各種算法模型,布設機器學習,形成新的智能或知識服務。賈斯丁·洛基茨所總結的三種大數據商業模式中,“信息即服務”(IaaS)和“答案即服務”(AaaS)即是指這種知識類數據產品交易。在數字化轉型過程中,并非所有的企業都具有足夠的數據,即使有數據也并不一定有挖掘分析的能力,因而“信息即服務”“答案即服務”就有了廣泛的市場需求。


四、數據要素市場的基礎制度供給:要素市場

形成機制

不同于傳統生產要素較為直觀、成熟的市場化機制,數據要素由于存在非競爭性等技術經濟特性,以及法律規定的不明確,疊加數據要素交易場景的復雜性導致探索數據要素市場化一般機制成為難題。在完成了數據要素化和市場化的跨越后,就對市場流通化的數據產品有了清晰的界定和描述且存在這樣的有效供給,那么數據要素市場建設的基本任務就成了搭建供需匹配的渠道,建立確保數據交易安全的制度機制,從而降低數據要素市場環境的不確定性。如前所述,數據要素市場建設的關鍵并不是交易場所本身,而是與數據要素特點相適應的數據要素市場的基礎性制度機制。依據牛津大學拉爾夫·施羅德教授的大數據業務模式分析模型來分析數據要素市場框架,筆者認為,數據使用者、數據供給者和數據設施提供者可以勾勒出數據經濟的基本畫面:數據使用者可以是社會中任何主體,能使數據要素最終轉化為社會生產力表現,而數據供給者既從數據使用者處收集數據,又為其提供數據產品,而這兩類主體都離不開以技術見長的設施提供者的服務。三類角色大致勾勒出數據經濟的分工體系。據此,數據要素市場形成機制在此意義上可以概括為數據基礎設施服務,發展數據產品供給,促進數據的使用。本文就促進數據產品供給和使用的數據要素市場形成機制提出以下幾點看法。

(一)數據產品化的促進與激勵機制

在萬物互聯的泛在網絡時代,大量數據因系統的運行和各社會活動而形成,但是這些數據本身并沒有多少價值。數據要素市場化就是激勵社會各主體將不可用、不好用的數據變成可用和可重用的數據。數據一旦具備社會可重用性,就使數據成為可交易的“產品”,產生交換價值。因而數據要素市場形成最基礎的制度需求是從源頭上激勵數據產品化或數據產品的生產。為此,法律需要承認數據初始生產及其整個產品化過程的參與對數據的控制和使用權利,構建數據可以不斷被社會利用的秩序。這是基于“額頭流汗”原則,保護數據價值創造者得出的結論。而問題在于,數據往往反映或映射著客觀存在,當人類利用數據認知客觀規律時,也涉及揭示出數據描述對象或關聯主體的行為規律甚至“秘密”(如隱私、商業動向)。如果這些利益相關者的利益得不到保護,那么他們就不會信任他人對數據的使用;如果利益相關者有權拒絕他人獲取關于他們的數據,因而拒絕被分析和認知,就會形成社會認知障礙,影響正常的社會活動的開展。在數據要素化利用過程中,最為基礎的制度是如何處理數據使用(認知分析)者和“被使用”(被分析)者之間的關系。正如數據英國開放數據研究院的杰尼·坦尼森指出,數據是一種新型無形基礎設施(Intangible Infrastucture),支撐著社會和經濟的各個領域。與其他基礎設施一樣,數據基礎設施也需要相應的市場機制以滿足社會和經濟需求。這包括設計法律和制度以規范誰可以控制數據基礎設施及其應施加的限制。因此,制度規范要承認和保護數據各利益相關者的權益,以建立數據流通利用或分享利用的秩序。在這樣利用秩序中,不能采取傳統的排他支配權(所有權)范式,給予某個類型的主體排他決定數據使用的權利,而是平衡保護各利益相關者前提的數據治理范式。

在數據治理范式下,制度規范需要在數據開放與控制、數據使用與限制、數據來源者利益與數據使用者利益之間取得平衡,構建激勵數據產品化和產品化數據不斷流通利用(重用)的制度。首先,需要確立數據的開放利用制度,將數據定位為社會可用資源,只是要建立獲取數據的規則,允許社會主體以合法方式取得和使用數據;其次,確認和保護數據利益相關者的利益,規范和限制數據使用者的使用行為,使數據上承載的利益在整個使用過程均能得到維護;最后,以確保和保護數據使用者權益為核心以不斷促進數據資源化或產品化流通利用,促進社會生產力不斷提升。個人數據保護制度實際上就是按照這樣的邏輯展開的。由于數據用于分析個人可能揭示個人隱私或作出不正確的分析結論,因此需要法律保護個人權益(包括尊嚴、隱私等主體利益)不因數據處理而受侵害,但是,個人信息權益保護制度并沒有將個人數據轉化為由個人決定的“私有財產”,而建立正當使用個人信息的規則,保持個人數據的社會可用性。同樣地,當數據來源于組織或關系組織利益的同時,仍然需要關注組織在該數據使用上是否存在不正當的利益,只有存在正當的需要保護的利益時,才限制數據使用者的權益。

(二)數據產品描述、識別與發現機制

即使數據完成產品化或具備可重用性,其仍然屬于價值不固定的非標準產品,如何發現或找到自己需要的數據產品是數據流通交易所面臨的獨特難題。因而如何讓數據生產者匹配數據需求,讓有需求的主體找到可用的數據是數據要素市場建設的另一項任務。從數據產品提供者的角度來講,首先需要描述自己的數據,以向他人展示自己有什么。這不僅是個別地向他人介紹、描述,而且是以標準化內容、格式、規則來描述數據產品。標準化的數據要素產品描述是數據進入市場,供市場選擇,自由競爭的基本條件。當一個組織要引入外部數據要素時,就會面臨判斷該數據產品是否能滿足自己分析需要的問題,就可能面臨數據格式不同、命名規則不一致、系統不兼容等問題。數據要素進入市場也要進行產品打包,添加名稱、描述、使用條款甚至價格,形成可以發布、搜索、使用、定制、管理和衡量數據要素使用的單元。因此,數據要素市場建設首先要解決數據交易基本單元的界定問題。

制定標準化的數據產品描述規范,其中一個關鍵問題就是對產品主題與屬性的描述。由于數據的屬性多樣、動態且繁雜,因此需要一個合理的框架對其進行組織。對于這一問題,阮岡納贊的“分面分類理論”提供了一個有效的思路。阮岡納贊認為,可以將所有的基本概念歸納為五個基本類型:本體(Personality)、材料(Material)、動力(Energy)、空間(Space)、時間(Time)。其中,本體表示事物對象或事物種類;材料表示與主題對象有關的材料;動力表示對事物對象的操作和處理;空間與時間則表示資源對象發生的空間位置和時間概念。對于數據產品而言,本體可對應數據產品主題;材料可對應數據產品質量及結構性屬性;動力可對應對數據產品的處理、目的與用途;空間可對應數據產品的適用場景;時間可對應數據產品的供給時間。通過借鑒阮岡納贊的“分面分類理論”,可以大致對各種數據產品的基本屬性進行分類、梳理和組織。當然,除此以外,對于數據產品的描述還可以涉及對價格、交易信息、評價信息等動態信息的組織機制進行設計。最終,形成一套完整的數據產品描述機制。

從需求方的角度,首先需要識別、判斷他人的數據是否適合或滿足自己的需求。這實際上是數據產品需求者自身的需求識別和揭示,然后在數據要素市場中發現滿足自身需求的數據產品。對數據的需求取決于需求者要解決什么問題,而解決該問題需要哪些信息、知識或方法,進而需要哪些類型或來源的數據可以產出這樣的信息、知識或方法。從總體上,數據產品的需求者往往為了滿足自身的生產力或生產效率的提升而產生對相關數據產品的需求。但是,這種需求必須要從解決具體問題的角度出發,針對本組織業務、市場、領域及場景,創造性地發現支撐機器學習、人工智能的數據需求,以產出解決特定問題,支撐業務決策的知識。例如,個性化、差異化需求成為數字經濟的基本需求,而只有那些能夠精準地發現最適合自己產品或服務的客戶的數據維度才是自己的需求。數字化轉型的需要就成為數據產品需求者發現自身數據需求的最佳途徑。

在識別自己需求之后,接下來就是發現滿足自己需求的產品在哪里。產品發現機制的構建不僅包括對類目導航、搜索策略和推薦算法的改進,還要依靠產品信息組織的完善。因此,原本適用于企業資產管理的數據要素目錄逐漸地被借鑒到數據要素市場當中,由專業的交易撮合組織形成可信的數據源,制作成數據要素目錄,供社會查詢、評估、交易。這類組織對于解決數據產品發現問題至關重要,因為只有這些組織平臺在后臺充分實現數據產品的發掘、產品信息的組織,才可以在前臺支撐目錄導購、搜索、匹配推薦等流程化的產品發現機制。這一組織過程往往是通過構建數據產品目錄予以實現的。數據產品目錄通過數據集的發現、描述和組織來維護數據資產的清單。通過賦能數據分析師、數據科學家、數據管理員和其他數據使用者,以便找到并為特定業務分析目的而理解相關的數據集。因此,數據產品目錄會告知需求者關于某個主題的可用數據集和元數據,并幫助需求者快速查找該數據產品。數據產品的發現機制本質上是對數據要素市場信息供需不對稱問題的應對途徑,而數據產品目錄的功能類似于公共服務基礎設施的圖書館書目檢索系統,需要數據市場主體進行登錄或注冊,形成可查閱的系統,從而實現數據產品供需雙方的市場化互動。

(三)數據產品的價值實現機制

由于數據產品屬于非標準化產品,社會對數據需求的多樣性遠超數據供給者的想象,所謂的數據產品化也只是在技術上滿足需求者的要求,而不是制造出滿足特定需求的數據。甚至數據的使用價值是由需求方發現的,而不是數據供應方定義或給予的。數據交易是需求驅動的市場,而不是供給決定市場。數據產品交易區別于傳統物品交易,可以不斷轉手的資產交易,數據流通交易的本質是讓他人使用數據。數據要素的特征決定了數據要素不太適合通過界定數據,賦予持有者以所有權,以轉讓數據產權的形式來交易數據的市場范式。市場交易范式依賴于繁重的標準化流程、易于比較、買家和供應商之間的公平互動以及明確的價值轉移。因此,數據要素實現市場化就必須將數據資源轉換為隨時可用的數據產品,允許任何使用者能夠比當前的方法更快、更廣泛地擴展創造的價值。數據供需匹配需要媒介,這便是數據流通或交易分享平臺,但這樣的平臺一定不是僅僅構建資產交易的撮合、交割和清算機制,關鍵是平臺能夠為數據提供者和數據接受者創造價值并實現價值交付或分配。數據要素市場最終的價值體現在幫助最終用戶找到和獲取可用好用的數據產品,這樣數據科學家就無需在中間的治理流程上花費時間并專注于從中獲取洞察力。數據交易平臺像任何其他在線市場,可以為供需雙方提供數據產品展示、瀏覽比較、競價撮合和履行輔助等的市場環境,使數據提供者營銷、管理和銷售其數據,使數據購買者在一個集中的市場瀏覽、比較和購買多個來源的數據。平臺提供治理結構和一套標準及協議,通過自治管理方式創造和維系了任何市場不可或缺的因素——信任。在數據市場中,信任要重要得多,解決起來也更具挑戰性。因此,培育和發展數據交易平臺,應當成為數據要素市場建設的重要內容。數據交易平臺在這個意義上就不應當與其他商品或服務一樣系單一技術支持,而是應當起到進一步通過平臺化轉型開拓市場、供匹配需要和實現價值的社會功能。

前文將數據產品概括為三類,數據交易平臺應當圍繞這些產品價值實現搭建安全、可信的“數據流通道”,以實現可重用數據服務域。對于知識生產要素類數據產品需要數據實際控制移轉,而其他兩類都可以“服務”形式實現其價值。在移轉數據的情形下,需要各種安全的交付安排。隨著分布式存儲和計算技術的發展,在一定范圍內可以實現不移轉數據就可對特定數據進行計算使用。這在一定程度上消解了前述因數據產品移轉而帶來的原發性交易風險。產品化的數據集的擁有者可以為數據需求者提供接口或環境,允許使用者布設算法,直接獲得計算和分析結果,實現“原始數據不出域、數據可用不可見”。隨著計算技術的進步和數據源頭產品化思維治理數據的開展,在良好數據架構環境中生產的數據,可以不經過匯集或集中即可實現計算分析利用。因此,數據要素市場必須適應數據要素永遠存在、無處不在和分布式的現實,為數據產品的使用搭建通道,為數據要素的計算提供條件或環境。針對特定數據集或數據庫的一次性許可使用也不是數據要素流通交易常態,更普遍且重要的是持續提供數據產品服務域,以允許訪問或使用數據產品的交易模式(有時被稱為數據產品訂閱模式或數據服務模式),從而實現數據產品的持續更新或階段性更新。

除了構建數據價值發現和實現的機制外,數據交易平臺還應當為數據交易提供風險合規機制,這是解決數據產品合法性與可交易性的關鍵路徑。當前中國數據業務仍存在供求適配度偏低、安全風險凸顯等問題,嚴重制約著數據資源配置水平。這是因為數據要素本身是一種風險性的資源,不僅有數字化數據本身的安全控制問題,而且數據存在多重利益相關者、社會公共利益和國家安全利益,是否能夠提供數據產品流通的安全和合規服務,成為數據要素市場建設的重要內容。關于個人的數據,其不僅承載個人利益,而且同時承載著使用者、社會、組織、國家等多方主體的利益。關于機器的數據亦可能涉及設計者、制造者、應用者的財產利益,甚至還涉及應用者或設備主人的人格(隱私)利益。數據上存在的多重利益也就意味著數據產品上的多重風險,而數據產品流通可能會擴大風險,因而數據要素流通需要有相應的風險控制機制,使數據產品風險不因為流通使用而無限擴大。因而數據要素市場需要的基礎性機制就是為數據產品提供者和數據產品使用者構建一個安全、合規的數據產品流通利用的生態系統,使數據產品持有者可以安全地實現數據要素的社會價值,而使數據要素使用者能夠獲取所需要的數據產品。比如,數據產品交易應遵守關于數據安全管理的法律法規,尊重社會公德,不得損害國家利益、社會公共利益和他人合法權益。數據產品交易涉及個人信息的,應采取個人信息安全保護技術和管理措施,避免個人信息的非法收集、非法獲取、非法出售、濫用、泄露等安全風險,所涉及的個人信息內容和處理行為不得與相關法律法規產生沖突,堅持去標識化流通原則。簡言之,數據產品風險合規機制最為重要的是要使數據產品流通過程可控,責任可追溯,合規性可監督,將數據產品流通產生的風險分配給產生源頭和能夠預防風險的責任主體。

綜上,作為一個一般性的抽象概念問題,市場更趨向于一種經過設計的制度結構。從這一角度來說,強調以市場為基礎的方法來構建豐富的價值發現、轉化與社會參與是數據要素培育的關鍵。從新自由主義理論的角度來看,市場構建的最良性和最有效的形式就是自主、融合和關于效率和價值的市場化反饋。數據產品價值實現的特殊性決定了實現數據要素市場化配置基礎制度不同于傳統市場。因此,制度設計者需要供給一套適用于數據產品的市場基礎制度規則,以激勵數據產品化和流通交易,從而實現市場經濟層面的數據治理,最大化地促進數據要素價值的市場性生產與實現。

五、結語

數據是一種獨立的現代生產要素。它已成為數據智能這種新型知識生產方式主要的原材料,是數字經濟和社會價值創造的重要來源。換句話說,數據要素有效地驅動了經濟發展,這種經濟類型便被稱為“數據經濟”。數據揭示了數據經濟形態下全新的發展機會。數據將成為支撐數據經濟新浪潮,生產率增長、創新和價值盈余的關鍵競爭因素。

當所有這些理想圖景和美好設想都看起來充滿希望之時,研究者需要保持理性和批判精神,對數據應用的現狀和“數據市場”的失敗進行必要的反思。并非所有的數據都是生產要素,或者都應當被視為生產要素。因而能夠成為生產要素應當專指支撐數據智能、機器學習等智能分析工具的可機讀原始數據。將數據進行要素化處理使之成為數據要素,將數據要素進行預處理并使之成為可以不斷重用的數據要素產品,才具有無限的計算價值,可以不斷產生洞見和預測,支撐精準決策和智慧行動。只有滿足要素化和市場化的數據才能真正支撐數據要素市場的構建,實現數據經濟的加速創新和增長,并提高生產率和競爭力。(見圖1)

圖1 數據要素市場形成的理論框架

同樣,由于數據要素的特殊性,這樣的數據要素并不完全適應傳統市場范式。最為重要的是,數據要素的價值在于流通利用,因而數據要素市場化的關鍵是建立讓社會使用數據的方式或機制;同時,數據來源具有多樣性、流動性、非排他性,因而即使產品化的數據也不適合基于產權清晰界定和移轉為基礎的市場范式。因此,本文嘗試構建一種新的數據要素觀,并以此為基礎培育適用數據生產要素特征的要素市場。本文新的數據要素觀反映了人類從利用(人記錄和識讀)信息到利用泛在網絡產生的大數據的變革,以原始可機讀數據的流通利用來支撐人類社會新認知革命,最終加速信息和知識生產。顯然,新要素觀不是傳統數據要素觀的替代或否定,而是補充和支撐。在本文看來,數據要素市場不是建設數據交易機構(交易所或中心),而是要解決數據可重用性,即使數據要素產品化,同時在此基礎上形成數據要素可為社會主體安全利用的機制。數據要素市場是在需求拉動下自然形成的,這是本文結論,也是貫穿本文的指導思想。

數據是一種復雜社會存在,其形態和功能呈現多樣性。數據作為新型生產要素,將會打破既有法律體系對信息和知識的認知和保護理念,因此如何認知要素化的數據仍然需要從法學、經濟學、數據科學等多維度進行深入探討和研究。就此而言,本文只是一個起點,通過討論和發展培育數據要素市場過程中的各種集體智慧,從而使數據真正成為經濟增長、創造就業和社會進步的基本要素,驅動數據經濟健康發展。

作者簡介:

高富平:互聯網法治研究院(杭州)常務副院長、華東政法大學教授、數據法律研究中心主任;

冉高苒:華東政法大學博士研究生。


(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢