日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據件 — 數據基礎設施的基本抽象之一

時間:2024-05-31來源:一人一心瀏覽數:231

我們認為數據要素市場需要一些新的基本抽象。首先對數據基礎設施進行解讀。國家數據局成立以后,首次提出“數據基礎設施”的概念,現在的互聯網構建在一個網絡信息空間之上,這個信息空間有一個信息基礎設施,數據要素市場會出現一個新的數據空間,數據空間需要一個新的數據基礎設施。

圖1是國家數據局局長在他的報告里提出的數據基礎設施體系,包括網絡、安全、流通和算力四個設施,其中網絡和安全是過去互聯網已經有的,數據流通設施和算力設施是需要新增加的。這四個設施一起支撐數據要素“供得出、流得動、用得好”。某種程度上,基礎設施的普及是一個時代的標志,從農業、工業、信息到現在的數字時代,基礎設施從交通、能源、互聯網發展到算力和數據的基礎設施。

圖1 數據基礎設施體系

一項技術能夠成為基礎設施,例如數據、算力或者互聯網設施,至少有四個基本要求:一是要有標準化,不標準不能成規模;二是該有抽象,抽象是一個人造出來的東西,不是物理世界基本存在的東西;三是必須低成本;最后必須面向一些大的應用場景,而非小的、碎片化的場景。

抽象的例子有很多,貨物運輸從農業時代、工業時代到全球化時代一直都有,之所以到全球化時代它能支撐全球化的發展,在于它有一個抽象——集裝箱,看似非常簡單的抽象,但進行了標準化,從運輸到計量整個流程都進行了標準化。能源也是一樣,電力就是對能源運輸標準化的抽象,有了電力這個抽象之后,能量的全過程,從逆變器、特高壓傳輸、鋰電池到最后的插座和電表都可以標準化,一個新的能源形式,無論是核電、光伏、風電都可以很快融入到基礎設施里。

過去互聯網時代也有兩個非?;镜某橄?,一個是IP包,這是一個人為的抽象,它的包頭是由人定義的。有了IP包之后,數據在路由、光纖上的傳輸都可以基于它?,F在所有的BAT應用都是構建在一個網頁上,構建在WWW萬維網的協議上,它的基本抽象就是網頁,計算機中HTML、HTTP、瀏覽器、URL等功能都是建立在網頁的構建、組裝、尋址和處理上的,所以有了基本抽象才有這些應用。

在處理領域,現在正在構建一個算力網,在上一個互聯網時代,算力的集中式服務已經有超算中心和云計算中心,現在需要連云成網,為數據的深加工提供新的基礎設施,處理也需要一個基本的抽象,我們提出“網程”的基本抽象。如果想構建一個數據要素全球流動、全球可以加工的基礎設施,必不可少的基本抽象是什么?

我們回顧一下數據基本抽象的演化。在這過程中解耦非常關鍵,解耦的程度越深,數據應用面越廣,解耦是形成基礎設施的基本方法。最早有數據庫的形態,有數據表的基本抽象,其實就是把數據本身和每個應用系統解耦。后來把整個數據系統和企業內部的業務系統進行解耦,形成Key-Value的體系,有數據湖產品,很多業務系統都可以共享同一套數據系統的形態?,F在數據要素市場需要把生產者和消費主體進行解耦,數據要進行交易和流通需要在社會范圍內對數據進行處理,需要新的抽象,我們構建了一個新詞——數據件(DataWare),有SoftWare、HardWare,那么就有DataWare,即數據件的基本抽象。目前其形式仍是未知的,有的成為“數聯網”,有的成為“數據場”,其系統形態還在發展過程中,但是一定需要這樣一個新的抽象。

具體來說有三次解耦過程。第一次解耦會屏蔽數據訪問的復雜性,降低應用系統開發門檻。第二次抽象會屏蔽數據分析匯聚的復雜性,降低企業級系統的開發門檻。現在正在發生的是第三次解耦,早在1988年羅伯特·凱恩已經提出“數字對象”的概念,他是“互聯網之父”,他從信息互聯和數據互聯的角度進行抽象。中國電子的陸總提出數據元件和數據要素金庫,是從數據流通的角度提出抽象。我們提出的數據件是從數據處理的角度,特別是在人工智能大數據時代下對數據進行適度加工的角度提出的抽象,目的是為了屏蔽數據使用和流轉的復雜度,降低整個數據要素社會化供給的門檻。

在計算里云計算有一個非常基本的抽象,對計算的基本抽象就是容器。我們在沒有云計算之前,有一個進程,無論是分布式計算還是并行計算,是做超算還是服務器,所有的應用都是建立在進程上,所有的概念都是在進程這個基本抽象上進行擴展,但是容器可以把云計算的技術體系建立起來,它是對程序和程序所需要軟硬件資源的封裝,從而使算法可以在不同的平臺上一鍵運行。就像集裝箱一樣,一個集裝箱可以放到車上,可以放到船上,也可以放到火車上進行運輸,并不依賴于運載工具。數據件就希望對異質多元的數據標準化封裝,支撐數據要素和數據主體、數據應用的解耦,最終實現全網加工要素化的數據。不是平常數據已經存在,而是數據一定要被要素化。它在基本的封裝里要具備可管控、可計量、可組裝三個基本能力,我們將其分為數據層、元數據層、能力層、管理層和安全層五層。數據的安全機制應該封裝在數據件里,就像過去面向對象的設計中,繼承是封裝在里面的。

組織有兩種不同的方式。商品有貨架模式和直播模式,一個從供給側進行組織,一個從消費側進行組織。貨架就是供給側,從小商店到百貨公司,無論是英國的百貨公司,還是美國的購物中心,都是分門別類、集中管理,是從供給的角度進行的。我們國家發展的直播帶貨沒有貨架,不需要集中管理,從消費者的角度來說,李佳琦和羅永浩不一樣,一個是為了女性消費者,一個是為了男性消費者,組織貨物的方式都是不同的。所以,現在直播帶貨可能比淘寶百貨公司銷售更多,它是按需指導、廠家直銷。我認為數據也可以這樣,過去都是誰擁有數據組織好后拿來用,文件、數據庫都是這樣,未來就是一個大模型,數據分散在全球、全社會,需要一個大模型訓練的“李佳琦”為我們整合數據,找到需要的數據。數據件組織就是按照數據場的方式進行組織,這就相當于數據的直播帶貨,需求通過一個協議和軟件把需要的數據組織成一個數據場,供給需求方,形成數據價值倍增的效應。

如果按照這條加工線,應該形成這樣的價值鏈,數據件的加工更重視標準化、安全化、要素化,數據的流動技術就是一個數據場的生成工具,應該重視可關聯、可組合、可流轉。AI/BD計算相當于是數據件的消費或者訪問工具,它重視產品化、服務化和價值化。經濟的問題背后應該有工具和技術做支撐才能動起來。

最后是要有低門檻開發的方法,現在主要有三大要素,數據場、算力網和模型。過去寫網頁,任何人到阿里云上租個設備都可以寫個網頁、搞創業,但現在不行,需要有類似于算力網頁這樣的組裝、開發、表達復雜應用的工具和方式進行支撐。

我們認為要做好數據件至少有六個方面內容需要考慮,它們分別對應生態、構造、獲取、使用、度量和保障,這六塊內容構成數據基礎設施的組成部分。

第一,對生態一定要解耦,件是指數據件,站是數據消費,一定要有供給側、運營側、消費側的解耦才可以。應該有四個角色,不同的角色關心的側重點不一樣,比如供給側應該關心標準化、統一表征,消費側應該關注便捷的使用和增值的模式。

第二,構造能力要標化。過去我們有數據集的抽象非常簡單,就是文件數據庫,應用鏈路長,而很多應用級抽象從數據服務的角度抽象又太深,不能支持多樣性的應用,所以要有彈性組裝、即插即用、能力標化的構造接口,我們現在做了一些工作,形成了數據件的構造工具。通過數據的構造工具流水線,通過不同的IDE、不同的配比,比如司法領域的訓練,為某一個刑事案件的訓練提供數據,或者在不同行業大模型訓練里,提供預訓練、指令微調或者項目知識庫,需要的數據都不一樣,這個組裝流程需要工具。

第三,數據獲取要有廣譜關聯能力。過去互聯網空間的價值涌現是一個核裂變的過程,梅特卡夫定理指出價值和用戶數平方成正比。而在數據空間是一個核聚變的過程,我們猜想數據價值和數據要素廣譜關聯的平方成正比。那怎么把該關聯的關聯上?需要有廣譜關聯的能力。過去我們是在信息空間沖浪,未來應用都是在數據空間進行沖浪,是按需沖浪的過程。關聯要有關聯的基本操作,這和作用力一樣,有近程作用力、遠程作用力,數據庫就是一種近程作用力,大模型好的原因在于它在數據遠程關聯上能力更強,要把這些基本的算子構造出來。

第四,要有協同編排的能力,類似于網絡有HTML,數據件要有互聯的協議。表格1中列舉了傳統數據獲取方式和數據件獲取方式的不同點,最右邊是關于數據件的。

表格1 傳統數據獲取方式和數據件獲取方式的不同點

第五,度量數據件的質量。核心就是要通過采樣的方式對數據質量進行預估。

第六,要有內生安全的保障。無論是在生產階段、流通階段還是使用階段,它的保障需求都是不一樣的。如圖2是數據件全生命周期內生安全的保障機制,包括確權、權限控制、內容保護等等。

圖2 數據件全生命周期內生安全的保障機制

來源:中國計算機學會

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢