數據作為人工智能和大數據的核心要素,將對人類社會發展帶來深刻影響。隨著數據容量的快速積累、
數據質量和運算能力的不斷提高,如何使用和管理數據成為第四次工業革命帶給人類社會的一個重要命題。
數據治理有兩種含義,分別是對數據的治理和利用數據治理。這二者相互聯系,但并不沖突。從數據本身治理看,數據是一種新的經濟增長驅動因素,數據法需要重新審視數據相關知識產權和法律法規問題。

一、引言
無論是在公共部門還是私營部門,數據的使用和管理,已經逐漸成為一個真實的應用場景。在概念討論的理論范疇,不同的社會科學領域圍繞數據治理相關問題已經開展了一系列研究,但是相關概念、理論和政策的系統梳理依然比較缺乏。在數字經濟時代,數據為公共管理、科學研究、商業活動帶來了效率的改善和質量的提升,海量的數據被視為21世紀關鍵的資源之一。
在公共管理方面,地方政府與企業密切合作,在“最多跑一次”“政務APP”“城市大腦”等項目上頻頻發力,建立數據中心、大數據局,開放數據資源打破信息孤島,利用新興技術對公共服務進行優化和提升。在科學研究領域,開放科學、開放獲取,逐漸成為科學共同體的共識,通過構建以數據為中心的開放科學,促進科研變革。在商業領域,通過積累海量的個人用戶數據,數據的價值得到日益彰顯,互聯網巨頭圍繞數據的競爭也越來越白熱化。
數據正在成為一種高度關注的社會資源,并逐漸成為一個新興的研究對象,如何有效地管理和使用這些數據資源成為一個挑戰,甚至暴露出數據管理和使用方面的很多問題。這需要從數據獲取、利用和保護等各個角度,以及法律、制度和政策等不同層面對數據治理問題進行系統深入的研究,以指導其治理實踐。
由于數據治理問題的復雜性,不僅要在數據管理和使用的實踐中探索,更要加強數據治理的理論研究。然而,與目前數據治理問題受到社會高度關注相比,當前學界對于數據治理的研究仍然滯后,而實踐中暴露的問題對于理論研究正不斷提出更高的要求。
盡管信息科學、情報學等對如何管理各種數據已經有了很多研究成果,但是學界對數據治理的理論認識還有待進一步深入,與數據治理相關的重大理論問題還需要進一步探討。數據的本質是什么?應該如何認識數據?什么是數據治理?目前國內外文獻對于數據治理的研究處于怎樣的狀態?主要關注哪些焦點問題?國際上數據治理研究能夠為我國構建面向未來的數據治理體系提供哪些借鑒和啟發?這些問題值得深入探討。
本文主要基于相關文獻,從歷史、經濟、法律等維度對已有的數據治理研究文獻進行梳理和歸納,展現國內外數據治理研究前沿概況,并對未來的研究進行展望,豐富本領域的理論研究成果。
二、數據的歷史、概念和意義
人類利用數據的歷史非常悠久,最早可以追溯到數字發明時期,不同文明均掌握了利用數字記錄和管理生產生活的能力。19世紀初,博物學家在私人的資助下環游世界搜集動植物標本,并對天文現象進行觀測,開始規模化地記錄數據,從紛繁復雜的事實中歸納出開普勒定律等很多重要的科學發現。盡管當時的數據量已經相當龐大,但數據的重要性僅由少數專業人士決定,還不能視作一種社會資源。數據真正被社會關注、被規范和監管的時候,才真正被制度化為社會資源。
歐洲的霍亂疫情使得人們開始統計搜集疾病傳播的數據,并發明了可視化的技術和
數據分析方法。1887年德國帝國技術物理研究所成立,負責全社會需要的數據,成為第一個真正意義的標準局。進入20世紀之后,貿易的需求促進了測量和計算方法發展,統計學成為一門獨立的學科以應對數據分析的需求。而20世紀40年代后大量的軍事投入帶來計算科學的進步以及數據傳輸技術的發展。近年來,少數的幾家互聯網公司臉書(Facebook)、微信、亞馬遜創建并管理數十億人在網絡上的工作、娛樂、購物數據。
縱觀人類利用數據的歷史,雖然數據的本質沒有變化,但是在制度、技術和經濟發展的交織作用下,數據完成了從數字到資產的轉變,在這個過程中數據的規模、價值和影響不斷擴大。
我們今天所談論的數據是信息化和人工智能時代的海量數據資源。進行數據治理的第一步是重新定義數據,對于大數據的概念一般是從容量(Volume)、速度(Velocity)、種類(Variety)、準確性(Veracity)、價值(Value)等5V角度進行界定。全球性、全方位、易于獲得的數據資源,是大數據成為人工智能系統輸入信息的前提。
數據作為一種經濟資源和生產要素,是人工智能等新興技術發展的動力,沒有海量的數據積累和應用場景,人工智能很難沖破瓶頸快速發展。數據為人類社會帶來機遇的同時也帶來了風險,圍繞數據產權、數據安全和隱私保護的問題也日益突出,并催生了一個全新的命題——數據治理。
數據治理的概念具有兩種含義,分別是對數據的治理和利用數據進行的治理。一種是以數據為治理對象的治理活動,如GDPR,數據隱私保護條例等;另一種是利用數據進行治理的活動,例如電子政務服務、一站式政府服務。數據治理的兩個含義相互聯系,但并不沖突,本研究中的數據治理更側重于對數據本身的治理。
數據治理是價值和風險二者之間的權衡,治理的目的在于充分發掘數據的價值,同時盡量減少相關的成本和風險。數據治理在宏觀層面包括國際、國家和部門的法律、政策和條例,在中觀組織層面包括數據管理規章、
數據價值測量、數據風險權衡等,在微觀層次關注日常數據、依靠數據處理的信息和專業人士等。
三、數據對于經濟的影響
經濟學相關的文獻深入探討了數字轉型和數字經濟的重要意義,從宏觀、中觀和微觀3個層次分析了數據對于經濟發展的重要意義。從宏觀經濟發展角度,經濟發展和增長理論長期關注商品、服務、思想和人口跨界流動的影響和結果,而當前數據流動是最顯著的跨界流動形式。隨著數據生產設備的激增,以及
數據存儲和處理能力的拓展,21世紀的大數據被譽為“神奇的金礦”,創新經濟轉型和促進循環發展的“核心資源”。
在數據時代,世界經濟發展關注的命題已經從集裝箱貨運逐漸轉向數據的跨界,乃至跨國流動,數據成為一種新的經濟增長的驅動因素。數據流動中流入和流出數量多少的不平衡,以及數據質量高低的不平衡,造成了地區和國家間經濟發展上新的不平衡。
既然數據與傳統經濟驅動要素很不相同,這種差異會影響經濟學基本的分析變量和框架嗎?韋伯(Weber)的回答是否定的,盡管數據與傳統的經濟增長要素存在很大差異,但是原有的經濟增長理論并不過時。
首先,數據資源如同早期的石油資源一樣,一旦具備了產生、收集和利用的基礎設施,數據的成本就會變得非常低廉。其次,與傳統資源相比,原始數據可以無限地免費復制,因此數據的實際價值具有無限潛力,但是數據要體現價值依然需要知識產權的保護。最后,數據到處都是,但是數據利用的挑戰來自于如何收集數據和如何使用數據,而這幾乎和傳統自然資源的開發完全一樣。
在中觀產業經濟層面,信息資產將會帶來經濟效益,“數據應該被記錄為一種具有價值及潛在價值的物品”。數據的價值已經被當今的商業活動所證實,頂尖的數據驅動型公司如蘋果、谷歌和微軟,將搜集的數據轉換為價值,創造的凈利潤是傳統石油天然氣公司的兩倍以上,擁有數據的公司成為了現在獲益最多的公司。數據驅動型公司的成功在于積聚海量的用戶和用戶數據,網絡效應對用戶產生了粘滯效應,帶來高昂的轉換成本。
在微觀的企業組織層面,數據如何創造價值?某種程度上,數據被視作智慧的一種形態。羅萊伊(Rowley)在此基礎上建立了一種從數據到智慧的等級概念,包括數據、信息、知識和智慧4個漸進的層次。
數據是原始的事實和符號,是整個層級結構的基礎;信息是具體語境中的數據,具體回答地點、時間、人物和事件等問題;知識是信息的集合同時結合了主觀的理解和能力;而智慧位于層級的頂端,通過積累知識獲得直覺和理解。
在整個層級中,高層級的形態以低層級的形態為基礎,整體構成了從數據到智慧的解釋模型。海量的數據積累是一種顛覆性的創新,需要企業促進數據流動,并將數據整合進原有的商業流程。數據帶來了從信息技術到商業模式的范式轉變,推動了企業從傳統要素驅動型向數據驅動型企業轉變。
(部分內容來源網絡,如有侵權請聯系刪除)