- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2025-08-21來源:談數據瀏覽數:116次

摘要:
當前,人工智能特別是大模型應用風起云涌,亂花漸欲迷人眼,相關數據安全治理問題亟待梳理。本文基于數據的主權屬性、人身屬性、公共屬性、價值屬性的四維框架及其位階順序展開分析,重點研究面向人工智能應用的數據綜合治理架構。尤其是數據的主權屬性與人身屬性,對數據分類分級及敏感性治理起著基礎性作用,進而構成人工智能數據利用的先決條件。在明確底線原則前提下,本文深入研究了人工智能大模型利用數據的原則和方式,管控措施就高不就低,開發利用就寬不就嚴,并積極探索數據隔離、數據解耦、數據脫敏等措施,將打造數據平臺和大模型的融合作為數據利用的基礎。此外,本文還就低空經濟數據利用、可控匿名化、防范大模型反推出隱私信息、防范區塊鏈跨境穿透等問題進行了專門研究。
關鍵詞:數據分類分級;重要數據;涉私數據;邏輯真實數據;人工智能;大模型;數據治理
數據作為新型生產要素的價值正以前所未有的速度釋放,特別是在人工智能大模型加持下,這一釋放還在進一步加速。但這一過程也始終伴隨著深刻的治理挑戰。數據作為物理世界在數字空間的映射,作為物理實踐的數字載體,天然承載著復雜的現實世界屬性。物理世界的實踐邏輯決定數據空間的運行規則。現實世界的復雜性決定著數據的多重屬性及其位階結構,決定著數據的治理邏輯。
本文基于數據的主權屬性、人身屬性、公共屬性、價值屬性的四維框架展開分析,重點研究面向人工智能應用的數據治理。尤其是數據的主權屬性與人身屬性,對數據分類分級及敏感性治理起著基礎性作用,進而構成人工智能數據利用的先決條件。
數據四大屬性的位階順序是:主權屬性>人身屬性>公共屬性>價值屬性。這種位階順序的本質反映了數字社會的治理優先級:國家安全紅線不可觸碰,人格尊嚴不可動搖,公共利益需要保障,經濟價值需以此為前提釋放。在此邏輯下,數據分類分級推動數據價值實現需遵循“主權特征錨定框架,人格特征細化顆粒度,公共特征開放利用”的多層路徑。
一、數據四大屬性的多維治理架構
(一)數據主權屬性的剛性約束
1.依據數據主權屬性的分類
依據《數據安全法》《網絡安全法》的立法精神,數據主權屬性體現為國家對關鍵領域數據的管控權。主權屬性通過數據三級分類制度具象化:除國家秘密數據(不上網,數據價值化不涉及)之外是核心數據、重要數據、一般數據。[1-4]
核心數據是指對領域、群體、區域具有較高覆蓋度或達到較高精度、較大規模、一定深度的數據,一旦被非法使用或共享,可能直接影響政治安全的重要數據。具體包括:一是關系國家安全重點領域的數據(如國防、軍事、政治安全等);二是關系國民經濟命脈、重要民生、重大公共利益的數據(如國家戰略儲備、關鍵基礎設施運行數據);三是經國家有關部門評估確定的其他數據。
重要數據是指對特定領域、特定群體、特定區域達到一定精度和規模的數據,一旦被泄露、篡改或損毀,可能直接危害國家安全、經濟運行、社會穩定、公共健康和安全等公共利益的數據。僅影響組織自身或公民個體的數據不屬于重要數據。典型示例包括:一是關鍵基礎設施的網絡安全保護數據;二是涉及國家自然資源、環境監測、人口健康等戰略性數據;三是大規模個人敏感信息等。
一般數據是核心數據、重要數據之外的其他數據,其敏感性和潛在風險較低,通常僅涉及組織內部管理或公民個人事務,不直接關聯國家安全或公共利益。
核心數據、重要數據、一般數據的分類依據在于對國家安全和公共利益的影響程度。核心數據與重要數據的邊界可能混淆,根據《數據安全法》,核心數據是滿足更高風險條件的重要數據,需通過行業主管部門或國家安全機構審定。國家數據安全工作協調機制統籌協調有關部門制定重要數據目錄,加強對重要數據的保護。根據國家網信辦《促進和規范數據跨境流動規定》,數據處理者應申報重要數據,但重要數據以確認為準,對確認為重要數據的,相關地區、部門應當及時向數據處理者告知或公開發布
2.主權屬性導向的數據敏感性分級
從主權屬性角度,數據分類同時就明確了數據敏感性的分級。核心數據為高敏感數據,需要重點保護,甚至采取“物理隔離、邏輯嚴控”措施。重要數據為敏感數據,應在可信環境下采取“數據不出域、可用不可見”等方式處理。一般數據為非敏感數據,可采取“底線安全+市場激活”方式處理,對社會開放。不過要注意,這里的敏感性分級僅就主權屬性而言,例如一般數據中就有個人數據,從人身屬性角度,就可能是敏感數據,需要在可信環境下經數據來源者授權處理。因此一般數據的開放可能是普遍開放,也可能需要通過數據產品化而開發開放。
3.依據數據主權屬性對數據的管控
對于重要數據,特別是核心數據,需要落實嚴格的管控措施,包括加密存儲、加密傳輸、訪問控制、權限管理、安全審計、容災備份等。重要數據處理者還應當明確數據安全負責人和管理機構,落實數據安全保護責任。一般數據只需要基礎安全管理,可依據業務需求靈活存儲和清理,但需滿足基本合規性要求(如個人信息保護)。
對于核心數據、重要數據傳輸的管控,集中體現在出境管控上。核心數據不出境,重要數據限制出境,一般數據可出境。
因此,對于核心數據、重要數據出境的限定不影響數據在境內的開發利用。但是,數據跨境流動、交易等場景則必須以數據分類分級為前提,落實核心數據不出境,重要數據出境按照國家網信辦《促進和規范數據跨境流動規定》執行。其中,關鍵信息基礎設施運營者(CIIO)向境外提供任何個人信息或重要數據,必須申報數據出境安全評估;其他數據處理者若向境外提供重要數據,或累計向境外提供超過100萬人非敏感個人信息或1萬人敏感個人信息,也需申報安全評估。當然,也有場景化豁免、適用標準合同和認證的情形,以及允許自貿區制定負面清單。[5]
(二)數據人身屬性的個體穿透
1.依據數據人身屬性的分類
根據《個人信息保護法》的原則,數據來源者(即數據關聯對象或數據主體)對數據擁有“知情權、決定權”,這里也隱含了對數據的“可攜帶權”。三權構成了數據人身屬性的三大支柱。本質上看,數據依據人身屬性可以分類為涉私數據和非涉私數據,前者關涉到了數據來源者(即包含直接或間接身份識別要素),而后者不涉及。因而后者可以直接作為客體進行數據處理,但是前者因為涉及人格權,不能直接作為客體進行數據處理。[6,7]
涉私數據進一步按位階降序分為個人私密數據、法人/非法人組織商業秘密數據、個人非私密數據、法人/非法人組織非私密數據。非私密數據主要用于公眾對個體的識別,即體現社會交往的可識別性,而私密或商業秘密數據則涉及到相關個體的私密信息。
2.人身屬性導向的數據敏感性分級
按照《個人信息保護法》第28條第1款規定,“敏感信息是指一旦泄露或者非法使用,容易導致自然人的人格尊嚴受到侵害或者人身、財產安全受到危害的個人信息。”根據這一對敏感性的原則規定,基于人身屬性的數據分級主要有以下幾類:
敏感個人數據:即個人私密數據。比如自然人的行蹤信息、財富信息、健康信息、性取向信息、私密部位信息等。
敏感法人/組織數據:即法人/非法人組織商業秘密數據。比如法人/組織的經營數據、客戶數據等商業秘密,法人/組織的技術訣竅信息等。
非敏感個人數據:即個人非私密數據。比如自然人的姓名、身份證件號碼、家庭住址、電話號碼、電子郵箱等,主要被用于滿足社會交往的需要。
非敏感法人/組織數據:即法人/非法人組織非私密數據。比如法人名稱、法人組織機構代碼、法人住址、聯系方式等。
非涉私數據:屬于非敏感數據。
3.依據數據人身屬性對數據的管控
對于涉私數據,需要嚴格落實數據來源者的知情權、決定權以及可攜帶權,建立經數據來源者知情、同意才能處理的機制。
敏感個人數據需要隱私保護和個人信息保護雙重保護,只有在針對特定使用者、特定場景下經個人單獨授權才能進行數據處理。同時,個人數據出境也有限制,主要是達到一定量的敏感個人數據出境需要申報數據出境安全評估(1萬人以上),或訂立個人信息出境標準合同,通過個人信息保護認證(不滿1萬人)。對于關鍵信息基礎設施運營者還有更嚴格的要求。[5]
敏感法人/組織數據也需要商業秘密保護和涉私數據保護雙重保護,只有在針對特定使用者、特定場景下經數據來源者單獨授權才能進行數據處理。
非敏感個人數據需要受到個人信息保護,經個人授權后進行處理。至于是普遍授權公開還是對特定處理者授權,是一攬子授權還是單次授權,由個人自決。同時,個人數據出境也有限制,主要是達到一定量的個人數據(不含敏感個人數據)出境100萬人以上的需要申報數據出境安全評估,10萬人以上、不滿100萬人的需要訂立個人信息出境標準合同,或通過個人信息保護認證。對于關鍵信息基礎設施運營者則都需要申報數據出境安全評估。[5]
非敏感法人/組織數據需要受到涉私數據保護,經法人/非法人組織授權后進行處理。同樣,是普遍授權公開還是對特定處理者授權,是一攬子授權還是單次授權,由數據來源者自決。
非涉私數據沒有數據來源者,與個體無關,與隱私保護、涉私數據保護無關。
對涉私數據的處理需要數據來源者知情、同意,即獲得數據來源者的授權和相關權益的讓渡。因此,對涉私數據的處理需要建立動態授權模型,即通過數據產品化,在數據產品使用場景中觸發實時授權請求,讓數據來源者能夠在應用場景中便利地實時授權,通過智能合約自動執行授權要求,各個來源數據能夠向數據產品瞬間組裝,數據產品能夠瞬間集成,數據產品服務能夠瞬間輸出。[7]
(三)數據公共屬性的開放共享
數據是為利用而生的。在數據主權屬性、人身屬性對數據的限制性規制之后,數據公共屬性則是要讓數據開放共享和利用起來。
數據共享的廣義用法泛指任何數據處理者之間的數據共享,這是數據公共屬性希望趨向卻又難以達到的目標。數據共享的狹義用法特指數據在單個機構內部的共享,包括作為整體政府的各公共機構(尤其是政務機構)之間的共享。數據依據公共屬性分類,除了不予共享,就是(廣義的)數據共享。(廣義的)數據共享可以分類為:一是(狹義的)數據共享,即在作為整體的單個機構(或整體政府)內部共享;二是數據普遍開放,即對社會普遍開放,包括無條件開放和有條件開放——由于條件將會通過智能合約實現“秒審”而自動執行,有條件開放會演變為無條件開放或下面的第三類(開發開放);三是數據開發開放,即通過數據產品化,數據嵌入到數據產品在應用場景中開放利用。第二和第三類又可以合稱為數據開放。
對于公共數據,(狹義的)共享、開放是公共機構的義務,應擴大普遍開放,不能普遍開放的,通過開發開放實現最大范圍的公共數據開放利用。
對于社會數據,鼓勵數據持有者開放數據,主要是通過開發開放方式實現(廣義的)數據共享。
(四)數據價值屬性的權益保護
數據為利用而生,只有在直接和間接的應用中才能發掘數據的價值屬性。數據價值化通過數據處理行為才能達成。根據《數據安全法》《個人信息保護法》的原則,只要不違背數據主權屬性、人身屬性、公共屬性的要求,數據處理行為便都是允許的。由此也誕生了數據處理者的“三權”,即數據持有權、數據加工使用權和數據產品經營權,在“數據二十條”中給予了明確。[10]國家數據局等部門發布的《關于促進企業數據資源開發利用的意見》明確:企業對其在生產經營過程中形成或合法獲取、持有的數據,依法享有法律法規規定的、民商事合同或行政協議約定的各類數據權益。這事實上是明確了數據處理者“三權”的來源,即合法獲取、持有即享有各類數據權益,自然也就無需其他機構登記確認。當然,這也就賦予了數據處理者數據產品開發的自主權。[11]
數據價值化在于應用,而數據產品是從數據到應用的唯一橋梁。因此,依據數據價值屬性,對數據進行分類分級,就只能從與數據產品直接或間接的關系來衡量數據價值的高低:一是嵌入數據產品的數據,即數據產品的來源數據,可以直接從數據產品價值中分有數據價值;二是未嵌入數據產品的數據,沒有應用便沒有直接價值;三是人工智能訓練數據,雖然沒有在應用場景中直接應用,但是作為人工智能模型的訓練素材,在人工智能的應用中具有間接價值。這第三類數據可以單列出來,不過本質上說,可以歸入第一類,即作為間接嵌入數據產品的數據,可以視為作為人工智能模型的數據產品的來源數據,因為人工智能模型以及在此基礎上的智能體都符合數據產品的定義,可以看作數據產品。[12-17]
數據產品價值決定來源數據(即數據資源)價值。這也就意味著,數據產品市場決定數據要素市場。當然,隨著產品市場的發展,要素(數據資源)市場也會隨之呈現出相對獨立性。市場會根據類似數據資源嵌入數據產品獲得的價值來衡量數據資源的價值,從而形成相對獨立的數據資源(要素)市場,并通過數據資源的流通進一步反作用賦能產品市場。這也就意味著,數據要素作為訓練數據賦能人工智能大模型也是可以先于基于大模型的數據產品生產的。
數據價值需要得到保護,一方面是對數據產品價值和數據產品來源數據價值的保護,另一方面是對數據處理者“三權”的保護。同時,鑒于數據產品以及數據原子能力(作為經過加工的來源數據)中都含有一定的模型、算法或匿名化等技術,事實上具有知識產權特性,還需要對其進行知識產權保護。[18]例如訓練數據,可能就含有知識產權問題,需要體現知識產權價值。這些權益的保護都需要體現在相應數據產品和來源數據的價值上,即體現在價格和收益分配上。
二、面向人工智能應用的數據安全要求
在人工智能大模型快速發展的大趨勢下,數據安全和隱私保護問題愈加凸顯,關系到用戶的切身利益,也影響著整個行業能不能健康發展。是談虎色變還是任其野蠻生長?大模型安全合規管理的邊界在哪里?一方面要根據數據四大屬性決定的分類分級進行管控,另一方面還需要深入研究人工智能大模型的特點,做到有的放矢。
(一)大模型數據安全和隱私問題的特點
大模型數據安全和隱私問題集中體現在大模型訓練和使用環節。其他諸如數據收集、存儲等環節,是傳統數據安全和隱私保護的共性問題,采用相應措施即可,例如加密存儲、加密傳輸、隱私計算等。但是針對大模型訓練和使用,還需要單獨討論,因為由核心數據、重要數據、涉私數據訓練出來的大模型,在使用的時候,它生成的內容是有可能會把敏感信息泄露出去的。
在大模型訓練環節,不管是預訓練還是微調階段,如果訓練數據(包括語料、多模態數據)涉及核心數據、重要數據、涉私數據,其就進入了詞元(tokens)中,并在矢量化中參與了參數計算,后續在大模型應用中,就完全可能以一定的概率輸出。
在大模型使用環節,用戶的提示詞(prompts)完全可能涉及敏感詞,這就更大概率會引導大模型輸出核心數據、重要數據、涉私數據相關信息,導致數據安全、隱私保護方面的嚴峻問題。
鑒于人工智能大模型基于概率輸出的特點,信息的輸出并不能準確預測,這就使得對于輸出信息是否涉及核心數據、重要數據、涉私數據更難以判斷,給數據安全管理帶來不可預測的困難。
(二)大模型數據安全和隱私保護的底線思維
國家網信辦聯合國家發展改革委、教育部、科技部、工業和信息化部、公安部、廣電總局公布了《生成式人工智能服務管理暫行辦法》,自2023年8月15日起施行,明確生成式人工智能服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動:使用具有合法來源的數據和基礎模型;涉及知識產權的,不得侵害他人依法享有的知識產權;涉及個人信息的,應當取得個人同意或者符合法律、行政法規規定的其他情形;采取有效措施提高訓練數據質量,增強訓練數據的真實性、準確性、客觀性、多樣性。
面向人工智能的數據應用必須加強數據源頭管控,即從預訓練數據開始管控。這就對數據分類分級的落實提出了更高要求。
1.從主權屬性角度考慮的底線原則
第一,針對通用大模型,在預訓練環節如果使用了核心數據、重要數據、個人數據,在大模型的普遍使用中,相關數據在結果中將會概率性(不確定性)地出現,也就必然會導致相關數據的泄露乃至出境,因此原則上應禁止核心數據、重要數據和個人數據出現在通用大模型預訓練環節。同樣,通用大模型的微調優化以及推理環節對數據的利用也需要禁止核心數據、重要數據和個人數據的使用。
第二,針對大模型的私域部署,采用私域數據(私域知識庫)進行大模型微調優化或利用RAG(檢索增強生成)等技術優化,應當允許私域數據使用核心數據、重要數據、個人數據,但是要對私域部署的大模型的用戶管理進行限定,以符合對核心數據、重要數據、個人數據的相關法律法規要求。顯然,涉及核心數據的,需要禁止境外用戶;涉及重要數據和個人數據的,需要限制境外用戶數量和使用數量。也就是說要在大模型應用層再適用對數據出境的相關規定,而不必禁止大模型在微調、推理等環節的數據利用。在加強用戶管理和使用管理的條件下,利用私域部署和高質量數據集對大模型進行微調、強化學習、RAG,有利于減少幻覺,以及面向應用開發智能體。
2.從人身屬性角度考慮的底線原則
我們已經從主權屬性角度對個人數據在大模型的利用提出了底線原則,這更多是針對數據集合出境等場景。對于涉私數據(包括個人數據)還要從人身屬性角度考慮單條數據的利用問題,因為涉私數據用于人工智能大模型訓練、推理環節都會有泄露隱私或商業秘密的風險。
第一,針對通用大模型,在預訓練環節也好,在微調環節或者推理環節也好,只要使用了涉私數據,在大模型的普遍使用中,相關數據在結果中將會概率性(不確定性)地出現,也就必然會導致相關數據的泄露,因此原則上應禁止涉私數據出現在通用大模型中。
第二,針對大模型的私域部署,采用私域數據(私域知識庫)進行大模型微調優化或利用RAG等技術優化,除非數據來源者(關聯對象)有授權在先,也不能直接使用涉私數據。這是更為嚴格的限定,也就是說不僅要在大模型應用層適用對涉私數據處理的相關規定,而且在大模型的訓練、推理等全部環節都要落實涉私數據處理的相關規定,即要落實數據來源者對數據處理的知情權、決定權。
顯然,大模型利用面臨著涉私數據受制于千千萬萬個數據來源者決定權的難題。解決這一難題的鑰匙就在于利用“可控匿名化”機制,使用邏輯真實數據。[15,24]
3.從價值屬性角度考慮的底線原則
不管是通用大模型還是私域部署,用于訓練、推理的數據如果涉及第三方的數據權益或知識產權,都應給予保護。質而言之,就是應取得權益方的授權或形成商業合同,分享利益。
三、面向人工智能應用的數據安全治理
(一)數據多維治理架構
|
治理維度 |
數據分類 |
敏感分級 |
治理措施 |
|
主權屬性 |
涉密數據 |
極高敏感 |
物理隔離,國家秘密管理。 |
|
核心數據 |
高敏感 |
存儲、傳輸、訪問等管控,不出境。 |
|
|
重要數據 |
敏感 |
存儲、傳輸、訪問等管控,限制出境。 |
|
|
一般數據 |
非敏感 |
基礎安全管理,可出境。 |
|
|
人身屬性 |
個人私密數據 |
敏感 |
隱私保護,知情-同意,限制出境。 |
|
法人/組織商業秘密數據 |
敏感 |
商業秘密保護,知情-同意。 |
|
|
個人非私密數據 |
非敏感 |
知情-同意,限制出境。 |
|
|
法人/組織非私密數據 |
非敏感 |
知情-同意。 |
|
|
非涉私數據 |
非敏感 |
基礎安全管理。 |
|
|
公共屬性 |
可開發開放數據 |
敏感 |
依托可信數據空間進行數據產品化實現開放。 |
|
可普遍開放數據 |
非敏感 |
普遍開放。 |
|
|
價值屬性 |
嵌入數據產品的數據 |
高價值密度 |
數據價值保護,知識產權保護。 |
|
其中:人工智能訓練數據 |
低價值密度 |
數據價值保護,知識產權保護。 |
|
|
未嵌入數據產品的數據 |
無價值 |
基礎安全管理。 |
第一部分我們從數據四大屬性,也就是從四個維度分別對數據進行了分類分級,兼顧安全保護和開放利用,發掘數據價值。一般說來,一條數據是同時兼具四大屬性,因而需要同時從四個維度對數據安全和開放利用進行考量,并且按照四大屬性的位階等級,優先考量主權屬性,然后依次考量人身屬性、公共屬性和價值屬性,并將相關標注信息納入元數據管理體系中。可以采取“多層熔斷機制”逐層診斷數據管控要求,一是主權核驗層,對接國家核心數據、重要數據目錄實現自動檢索、標注;二是人格聲明層,對于涉私數據,標注涉及的數據來源者(關聯對象),并將數據納入“關聯對象數字空間”管理,在數據處理時要求數據來源者知情、同意;三是開放共享層,區分公共數據和社會數據,并依據敏感情況,標注可普遍開放或者可開發開放;四是風險測算層,根據上表的四個維度治理結構,評估數據敏感度,進行風險測算;五是應急處置層,制定不同敏感度和風險級別的應急處置措施,保護、屏蔽直至刪除數據。
1.管控措施就高不就低
鑒于四個維度的分類分級的交叉重疊,數據需要在多重保護下開放利用。對同一條數據,管控方面不相同的,例如既是個人數據,又涉及持有者的知識產權,管控措施便“既要……又要……”,也就是各個方面的管控都要到位;管控方面相同的,例如針對出境管控,既是重要數據,又是個人數據,管控措施便就高不就低。
通過管控措施的疊加,切實加強數據安全治理,特別是涉及核心數據、重要數據的安全治理,確保主權安全,包括生物安全等。例如對于重要數據出境,需要申報數據出境安全評估。
2.開發利用就寬不就嚴
在嚴格管控措施的前提下,開發利用就需要就寬不就嚴,鼓勵開發,鼓勵創新。
關于重要數據的利用,在存儲、傳輸、訪問控制等安全措施加持下,重點遵照國家網信辦《促進和規范數據跨境流動規定》進行數據出境管理。[5]
在此基礎上,重要數據的利用,一方面是不影響數據在境內的開發利用,鼓勵通過有嚴格安全管控措施的可信數據空間等數據基礎設施充分利用重要數據,鼓勵嵌入重要數據的數據產品開發利用;另一方面是針對數據出境,按照規定限定的數據量進行管控,在管控下開發利用,并讓數據出境傳輸量接受監管。同時,自貿區可以充分利用制定負面清單的政策,加強重要數據出境的管理和開放。
關于涉私數據的利用,關鍵在于數據產品化,將涉私數據嵌入數據產品中,讓數據來源者能夠在應用場景中實時授權、實時獲得服務。[7]
涉及涉私數據出境的情形,就法人/非法人組織數據而言,并無限制;就個人數據而言,按照《促進和規范數據跨境流動規定》,特定個人信息處理情形可免予申報數據出境安全評估、訂立個人信息出境標準合同、通過個人信息保護認證:
(1)為訂立、履行個人作為一方當事人的合同,如跨境購物、跨境寄遞、跨境匯款、跨境支付、跨境開戶、機票酒店預訂、簽證辦理、考試服務等,確需向境外提供個人信息的;
(2)按照依法制定的勞動規章制度和依法簽訂的集體合同實施跨境人力資源管理,確需向境外提供員工個人信息的;
(3)緊急情況下為保護自然人的生命健康和財產安全,確需向境外提供個人信息的;
(4)關鍵信息基礎設施運營者以外的數據處理者自當年1月1日起累計向境外提供不滿10萬人個人信息(不含敏感個人信息)的。
以上四種情形下,個人數據可以出境。此外,還需積極拓展個人數據脫敏即可滿足要求的應用場景,通過數據產品化實現“數據不出境、可用不可見”。
3.積極探索數據隔離、數據解耦、數據脫敏等措施
統籌好數據安全治理和開發利用,必須依托完善的數據基礎設施(數據平臺)。[20-23]
對核心數據、重要數據探索“主權沙箱”,特別是關鍵信息基礎設施運營者,更需要依托可信數據空間建立“主權沙箱”,原始數據全程隔離,外方通過部署算法模型在“主權沙箱”的密閉計算環境進行分析,輸出結果,中間還可采用同態加密、聯盟學習等隱私計算技術。這樣,不必對大量原始數據進行出境安全評估,而僅需評估服務結果的出境安全即可,從而大大降低數據出境的壁壘,發揮數據價值。
針對涉私數據特別是個人數據,采取可信數字身份認證機制,實現個體身份信息與個體業務信息的關聯和解耦,包括各功能角色的解耦,認證和應用的解耦,數據和應用的解耦。可信數字身份認證平臺只掌握個人/法人/組織的身份信息,但不掌握個體的應用信息、業務信息等;數據處理者只了解各自服務范圍內真實個體的相關應用數據,據此提供服務就好,但是具體是哪個個體不需要了解。應用場景中需要建立關聯時,由數據來源者(關聯對象)進行授權。[22]
這事實上正是基于可信數據空間(數據基礎設施)的“可控匿名化”措施。在可信數據空間內,與身份認證解耦的應用信息、業務信息不再是涉私數據,不必授權便可以進行數據處理,只有在形成數據產品面向應用場景需要落實具體服務對象時,在數據來源者授權下,應用信息、業務信息和身份信息建立關聯,數據產品才對服務對象提供個性化服務。
針對可信數據空間內的涉私數據,平臺運營者還可以主動對數據進行“可控匿名化”處理,將身份信息和應用信息、業務信息解耦,形成與原始數據結構一致的邏輯真實數據,從而便利數據處理者進行數據治理探查、數據產品開發。[15,24]
上述機制同樣使得不必對大量原始數據進行出境安全評估,而僅需評估服務結果的出境安全即可,從而大大降低數據出境的壁壘,發揮數據價值。注意在這些機制中,貫穿始終都需要落實零信任機制,強化安全認證,也需要同步建設好關聯對象“數字空間”,打造數字公民。
(二)兼顧大模型數據安全、隱私保護和數據利用
1.從主權屬性角度考慮的數據利用機制
針對通用大模型,核心數據、重要數據、個人數據不可用。利用這樣的數據只能是針對大模型的私域部署,并且在私域數據中利用了核心數據、重要數據、個人數據的話,還需要落實嚴格的用戶管理措施,以符合對核心數據、重要數據、個人數據的相關法律法規要求,即:涉及核心數據的,禁止境外用戶;涉及重要數據和個人數據的,限制境外用戶數量和使用數量。
2.從人身屬性角度考慮的數據利用機制
針對通用大模型,原則上應全面禁止涉私數據利用。針對大模型的私域部署,也不能直接使用涉私數據。只有在數據來源者對數據處理“知情-同意”之下,涉私數據才可以利用。
涉私數據的利用機制在于使用“可控匿名化”的邏輯真實數據,在大模型的私域部署下,利用邏輯真實數據對大模型進行微調優化,或利用RAG優化大模型的推理。
利用涉私數據關鍵是要解決涉及到個體的應用問題。涉私數據利用機制的核心是將涉私數據嵌入到面向應用場景的數據產品和智能體之中。采用邏輯真實數據的更大價值在于依托私域部署的大模型支撐嵌入實時邏輯真實數據的數據產品和智能體開發和應用。數據產品和智能體在應用中基于數據來源者授權,將嵌入其中的邏輯真實數據還原為真實數據,從而實現大模型支撐的涉私數據個體化利用。
3.從價值屬性角度考慮的數據利用機制
人工智能大模型利用數據涉及第三方的數據權益或知識產權,應取得權益方的授權或形成商業合同,分享利益。
4.數據平臺和大模型的融合是數據利用的基礎
既然對于核心數據、重要數據、涉私數據,都只能在私域部署下才有利用的可能,并且需要加強用戶管理,對涉私數據還需要“可控匿名化”機制,這個私域的“域”就只能是以可信數據空間為核心的數據基礎設施(數據平臺)。隨著大模型在數據平臺的部署,數據基礎設施和人工智能基礎設施實際上在可信數據空間中便融合為一體了。這就是對大模型做私域部署的基礎,也是核心數據、重要數據、涉私數據為大模型所利用的基礎。因而,可信數據空間為核心的數據平臺對大模型的精準利用和落地發展具有關鍵作用,核心數據、重要數據、涉私數據等高質量數據集都要依托可信數據空間才能落地利用。
5.幾個需要重點關注的問題
第一,厘清空間數據邊界。近期低空經濟發展引人注目,而低空經濟本質上屬于數字經濟。關于低空經濟數據的分類分級管理問題迫在眉睫。
從數據安全的主權屬性角度,低空經濟數據同樣要按照核心數據、重要數據、一般數據進行分類分級。涉及國家安全或重大公共利益,如軍事禁飛區數據、國家級低空管制系統數據等,屬于核心數據,任何未經授權的數據采集行為都被嚴格禁止,授權采集的數據要嚴格管控,因為這些區域的數據一旦泄露,可能直接危及國家政治安全。可能危害經濟運行或公共安全的數據,如政府機構、關鍵基礎設施(如機場、電網、通信基站)周邊的數據,大規模無人機集群控制數據,涉及10萬人以上的個人飛行記錄等,屬于重要數據。在公共空域,數據的敏感度相對較低,屬于一般數據,但仍需遵循一定的規范進行管理,以保障公眾利益和空域的正常使用秩序。
但是低空經濟數據管理比這還要復雜。低空經濟數據也會涉及數據人身屬性,需要考慮涉私數據保護。如無人機可能采集、標注到人、車等個人信息,可能涉及私宅,可能涉及法人/組織內部空間及相關布局。此外,還有相關人員的飛行軌跡等個人數據、相關運輸貨物等涉企數據。這些數據都需要作為涉私數據進行相應保護,即在數據來源者“知情-同意”下進行處理。
類似的,城市空間的圖像、視頻采集設備獲取的相關數據,也需要分類分級管理。即將于2025年6月1日起施行的國家互聯網信息辦公室、公安部聯合公布的《人臉識別技術應用安全管理辦法》就做了相應規定。[25]
第二,開展脫敏利用。公共數據用于大模型有特殊的難點,這是因為公共機構、公共數據運營機構一般都屬于關鍵信息基礎設施運營者,其掌握的平臺、數據基本都屬于重要數據范疇,向境外提供任何個人信息或重要數據,必須申報數據出境安全評估。相關數據如果用于大模型訓練,確實會導致數據結果出境的風險。必須對這些數據進行數據脫敏處理,只能依托公共可信數據空間來支撐大模型,利用“可控匿名化”的邏輯真實數據來支撐大模型訓練,同時加強對模型輸出結果的管理,以及對模型的用戶進行管理,以符合數據出境安全評估要求。事實上我們在這里是做了兩方面的措施,以便統籌好安全和利用。一是對關鍵信息基礎設施進行精細化管控,厘清邊界,重點保護邏輯真實數據的映射表,而將邏輯真實數據視為匿名化數據(非涉私數據)。二是將數據出境安全評估從源頭數據利用轉移到對模型輸出數據的評估和管控。
第三,加強使用控制。利用公共數據等重要數據的大模型,在使用層面進行控制。主權屬性方面,控制跨境使用次數,滿足重要數據限制出境相關要求。人身屬性方面,依據場景,由數據來源者授權使用——都是通過數據產品化使用,即使用大模型支撐的數據產品或智能體,涉及涉私數據,由數據來源者授權。
第四,強化數據隔離、解耦。《個人信息保護法》對個人信息的去標示化、匿名化的定義基于通常理解的技術手段,并沒有考慮到人工智能大模型等新技術的強大能力。基礎通用大模型可以利用已經在互聯網主動公開的個人數據進行訓練,對個人其實是有所了解的,再綜合多維度的匿名化的個人數據,是有概率性的可能反推出個人隱私信息的。如果不希望大模型從匿名化的數據中反推出隱私信息,就還需要“魔高一尺道高一丈”,有更多機制、更強技術來加強數據保護。
這就需要盡量采取強化數據隔離、解耦等措施。針對涉私數據,不建議集中歸集存儲,不建議以這樣集中、綜合的數據形態提供給大模型,包括讓大模型微調、強化學習、RAG等,即使是采取只提供樣例數據、邏輯真實數據的方式,也存在一定風險。一是需要數據來源分散,個體身份信息與個體應用信息、業務信息隔離和解耦,不同應用、不同業務、不同功能的信息也要隔離和解耦,并針對大模型服務的領域,只提供相關領域應用數據、業務數據,而不提供不相關領域的數據,以避免大模型綜合反推隱私信息。二是涉及個體應用的數據產品和智能體也要分散化,不同的數據產品和智能體針對不同的應用,相對獨立,針對多場景的綜合應用,則采取多產品、多智能體協同網絡相互調用結果方式提供服務,而綜合性的、通用的數據產品和智能體主要面向非個體應用場景,不用到涉私數據。三是必要的話還可以采用聯邦學習、隱私計算、數據沙盒等方式,進一步強化數據安全管理。
第五,防范區塊鏈穿透。當前,數據產品(數據資產)的通證化已經開始,并且漸成熱點,例如RWA(現實世界資產通證化)。這類基于公鏈的數據應用,存在數據跨境穿透的風險。未來的多智能體協同網絡也會通過區塊鏈跨境穿透、互動。需要加快研究監管措施。基本思路可能是采取可控去中心化方式,即在國家主權層面的中心化和局部的去中性化結合。