摘要:
當(dāng)前,人工智能特別是大模型應(yīng)用風(fēng)起云涌,亂花漸欲迷人眼,相關(guān)數(shù)據(jù)安全治理問題亟待梳理。本文基于數(shù)據(jù)的主權(quán)屬性、人身屬性、公共屬性、價(jià)值屬性的四維框架及其位階順序展開分析,重點(diǎn)研究面向人工智能應(yīng)用的數(shù)據(jù)綜合治理架構(gòu)。尤其是數(shù)據(jù)的主權(quán)屬性與人身屬性,對數(shù)據(jù)分類分級及敏感性治理起著基礎(chǔ)性作用,進(jìn)而構(gòu)成人工智能數(shù)據(jù)利用的先決條件。在明確底線原則前提下,本文深入研究了人工智能大模型利用數(shù)據(jù)的原則和方式,管控措施就高不就低,開發(fā)利用就寬不就嚴(yán),并積極探索數(shù)據(jù)隔離、數(shù)據(jù)解耦、數(shù)據(jù)脫敏等措施,將打造數(shù)據(jù)平臺和大模型的融合作為數(shù)據(jù)利用的基礎(chǔ)。此外,本文還就低空經(jīng)濟(jì)數(shù)據(jù)利用、可控匿名化、防范大模型反推出隱私信息、防范區(qū)塊鏈跨境穿透等問題進(jìn)行了專門研究。
關(guān)鍵詞:數(shù)據(jù)分類分級;重要數(shù)據(jù);涉私數(shù)據(jù);邏輯真實(shí)數(shù)據(jù);人工智能;大模型;數(shù)據(jù)治理
數(shù)據(jù)作為新型生產(chǎn)要素的價(jià)值正以前所未有的速度釋放,特別是在人工智能大模型加持下,這一釋放還在進(jìn)一步加速。但這一過程也始終伴隨著深刻的治理挑戰(zhàn)。數(shù)據(jù)作為物理世界在數(shù)字空間的映射,作為物理實(shí)踐的數(shù)字載體,天然承載著復(fù)雜的現(xiàn)實(shí)世界屬性。物理世界的實(shí)踐邏輯決定數(shù)據(jù)空間的運(yùn)行規(guī)則。現(xiàn)實(shí)世界的復(fù)雜性決定著數(shù)據(jù)的多重屬性及其位階結(jié)構(gòu),決定著數(shù)據(jù)的治理邏輯。
本文基于數(shù)據(jù)的主權(quán)屬性、人身屬性、公共屬性、價(jià)值屬性的四維框架展開分析,重點(diǎn)研究面向人工智能應(yīng)用的數(shù)據(jù)治理。尤其是數(shù)據(jù)的主權(quán)屬性與人身屬性,對數(shù)據(jù)分類分級及敏感性治理起著基礎(chǔ)性作用,進(jìn)而構(gòu)成人工智能數(shù)據(jù)利用的先決條件。
數(shù)據(jù)四大屬性的位階順序是:主權(quán)屬性>人身屬性>公共屬性>價(jià)值屬性。這種位階順序的本質(zhì)反映了數(shù)字社會的治理優(yōu)先級:國家安全紅線不可觸碰,人格尊嚴(yán)不可動搖,公共利益需要保障,經(jīng)濟(jì)價(jià)值需以此為前提釋放。在此邏輯下,數(shù)據(jù)分類分級推動數(shù)據(jù)價(jià)值實(shí)現(xiàn)需遵循“主權(quán)特征錨定框架,人格特征細(xì)化顆粒度,公共特征開放利用”的多層路徑。
一、數(shù)據(jù)四大屬性的多維治理架構(gòu)
(一)數(shù)據(jù)主權(quán)屬性的剛性約束
1.依據(jù)數(shù)據(jù)主權(quán)屬性的分類
依據(jù)《數(shù)據(jù)安全法》《網(wǎng)絡(luò)安全法》的立法精神,數(shù)據(jù)主權(quán)屬性體現(xiàn)為國家對關(guān)鍵領(lǐng)域數(shù)據(jù)的管控權(quán)。主權(quán)屬性通過數(shù)據(jù)三級分類制度具象化:除國家秘密數(shù)據(jù)(不上網(wǎng),數(shù)據(jù)價(jià)值化不涉及)之外是核心數(shù)據(jù)、重要數(shù)據(jù)、一般數(shù)據(jù)。[1-4]
核心數(shù)據(jù)是指對領(lǐng)域、群體、區(qū)域具有較高覆蓋度或達(dá)到較高精度、較大規(guī)模、一定深度的數(shù)據(jù),一旦被非法使用或共享,可能直接影響政治安全的重要數(shù)據(jù)。具體包括:一是關(guān)系國家安全重點(diǎn)領(lǐng)域的數(shù)據(jù)(如國防、軍事、政治安全等);二是關(guān)系國民經(jīng)濟(jì)命脈、重要民生、重大公共利益的數(shù)據(jù)(如國家戰(zhàn)略儲備、關(guān)鍵基礎(chǔ)設(shè)施運(yùn)行數(shù)據(jù));三是經(jīng)國家有關(guān)部門評估確定的其他數(shù)據(jù)。
重要數(shù)據(jù)是指對特定領(lǐng)域、特定群體、特定區(qū)域達(dá)到一定精度和規(guī)模的數(shù)據(jù),一旦被泄露、篡改或損毀,可能直接危害國家安全、經(jīng)濟(jì)運(yùn)行、社會穩(wěn)定、公共健康和安全等公共利益的數(shù)據(jù)。僅影響組織自身或公民個(gè)體的數(shù)據(jù)不屬于重要數(shù)據(jù)。典型示例包括:一是關(guān)鍵基礎(chǔ)設(shè)施的網(wǎng)絡(luò)安全保護(hù)數(shù)據(jù);二是涉及國家自然資源、環(huán)境監(jiān)測、人口健康等戰(zhàn)略性數(shù)據(jù);三是大規(guī)模個(gè)人敏感信息等。
一般數(shù)據(jù)是核心數(shù)據(jù)、重要數(shù)據(jù)之外的其他數(shù)據(jù),其敏感性和潛在風(fēng)險(xiǎn)較低,通常僅涉及組織內(nèi)部管理或公民個(gè)人事務(wù),不直接關(guān)聯(lián)國家安全或公共利益。
核心數(shù)據(jù)、重要數(shù)據(jù)、一般數(shù)據(jù)的分類依據(jù)在于對國家安全和公共利益的影響程度。核心數(shù)據(jù)與重要數(shù)據(jù)的邊界可能混淆,根據(jù)《數(shù)據(jù)安全法》,核心數(shù)據(jù)是滿足更高風(fēng)險(xiǎn)條件的重要數(shù)據(jù),需通過行業(yè)主管部門或國家安全機(jī)構(gòu)審定。國家數(shù)據(jù)安全工作協(xié)調(diào)機(jī)制統(tǒng)籌協(xié)調(diào)有關(guān)部門制定重要數(shù)據(jù)目錄,加強(qiáng)對重要數(shù)據(jù)的保護(hù)。根據(jù)國家網(wǎng)信辦《促進(jìn)和規(guī)范數(shù)據(jù)跨境流動規(guī)定》,數(shù)據(jù)處理者應(yīng)申報(bào)重要數(shù)據(jù),但重要數(shù)據(jù)以確認(rèn)為準(zhǔn),對確認(rèn)為重要數(shù)據(jù)的,相關(guān)地區(qū)、部門應(yīng)當(dāng)及時(shí)向數(shù)據(jù)處理者告知或公開發(fā)布。
2.主權(quán)屬性導(dǎo)向的數(shù)據(jù)敏感性分級
從主權(quán)屬性角度,數(shù)據(jù)分類同時(shí)就明確了數(shù)據(jù)敏感性的分級。核心數(shù)據(jù)為高敏感數(shù)據(jù),需要重點(diǎn)保護(hù),甚至采取“物理隔離、邏輯嚴(yán)控”措施。重要數(shù)據(jù)為敏感數(shù)據(jù),應(yīng)在可信環(huán)境下采取“數(shù)據(jù)不出域、可用不可見”等方式處理。一般數(shù)據(jù)為非敏感數(shù)據(jù),可采取“底線安全+市場激活”方式處理,對社會開放。不過要注意,這里的敏感性分級僅就主權(quán)屬性而言,例如一般數(shù)據(jù)中就有個(gè)人數(shù)據(jù),從人身屬性角度,就可能是敏感數(shù)據(jù),需要在可信環(huán)境下經(jīng)數(shù)據(jù)來源者授權(quán)處理。因此一般數(shù)據(jù)的開放可能是普遍開放,也可能需要通過數(shù)據(jù)產(chǎn)品化而開發(fā)開放。
3.依據(jù)數(shù)據(jù)主權(quán)屬性對數(shù)據(jù)的管控
對于重要數(shù)據(jù),特別是核心數(shù)據(jù),需要落實(shí)嚴(yán)格的管控措施,包括加密存儲、加密傳輸、訪問控制、權(quán)限管理、安全審計(jì)、容災(zāi)備份等。重要數(shù)據(jù)處理者還應(yīng)當(dāng)明確數(shù)據(jù)安全負(fù)責(zé)人和管理機(jī)構(gòu),落實(shí)數(shù)據(jù)安全保護(hù)責(zé)任。一般數(shù)據(jù)只需要基礎(chǔ)安全管理,可依據(jù)業(yè)務(wù)需求靈活存儲和清理,但需滿足基本合規(guī)性要求(如個(gè)人信息保護(hù))。
對于核心數(shù)據(jù)、重要數(shù)據(jù)傳輸?shù)墓芸兀畜w現(xiàn)在出境管控上。核心數(shù)據(jù)不出境,重要數(shù)據(jù)限制出境,一般數(shù)據(jù)可出境。
因此,對于核心數(shù)據(jù)、重要數(shù)據(jù)出境的限定不影響數(shù)據(jù)在境內(nèi)的開發(fā)利用。但是,數(shù)據(jù)跨境流動、交易等場景則必須以數(shù)據(jù)分類分級為前提,落實(shí)核心數(shù)據(jù)不出境,重要數(shù)據(jù)出境按照國家網(wǎng)信辦《促進(jìn)和規(guī)范數(shù)據(jù)跨境流動規(guī)定》執(zhí)行。其中,關(guān)鍵信息基礎(chǔ)設(shè)施運(yùn)營者(CIIO)向境外提供任何個(gè)人信息或重要數(shù)據(jù),必須申報(bào)數(shù)據(jù)出境安全評估;其他數(shù)據(jù)處理者若向境外提供重要數(shù)據(jù),或累計(jì)向境外提供超過100萬人非敏感個(gè)人信息或1萬人敏感個(gè)人信息,也需申報(bào)安全評估。當(dāng)然,也有場景化豁免、適用標(biāo)準(zhǔn)合同和認(rèn)證的情形,以及允許自貿(mào)區(qū)制定負(fù)面清單。[5]
(二)數(shù)據(jù)人身屬性的個(gè)體穿透
1.依據(jù)數(shù)據(jù)人身屬性的分類
根據(jù)《個(gè)人信息保護(hù)法》的原則,數(shù)據(jù)來源者(即數(shù)據(jù)關(guān)聯(lián)對象或數(shù)據(jù)主體)對數(shù)據(jù)擁有“知情權(quán)、決定權(quán)”,這里也隱含了對數(shù)據(jù)的“可攜帶權(quán)”。三權(quán)構(gòu)成了數(shù)據(jù)人身屬性的三大支柱。本質(zhì)上看,數(shù)據(jù)依據(jù)人身屬性可以分類為涉私數(shù)據(jù)和非涉私數(shù)據(jù),前者關(guān)涉到了數(shù)據(jù)來源者(即包含直接或間接身份識別要素),而后者不涉及。因而后者可以直接作為客體進(jìn)行數(shù)據(jù)處理,但是前者因?yàn)樯婕叭烁駲?quán),不能直接作為客體進(jìn)行數(shù)據(jù)處理。[6,7]
涉私數(shù)據(jù)進(jìn)一步按位階降序分為個(gè)人私密數(shù)據(jù)、法人/非法人組織商業(yè)秘密數(shù)據(jù)、個(gè)人非私密數(shù)據(jù)、法人/非法人組織非私密數(shù)據(jù)。非私密數(shù)據(jù)主要用于公眾對個(gè)體的識別,即體現(xiàn)社會交往的可識別性,而私密或商業(yè)秘密數(shù)據(jù)則涉及到相關(guān)個(gè)體的私密信息。
2.人身屬性導(dǎo)向的數(shù)據(jù)敏感性分級
按照《個(gè)人信息保護(hù)法》第28條第1款規(guī)定,“敏感信息是指一旦泄露或者非法使用,容易導(dǎo)致自然人的人格尊嚴(yán)受到侵害或者人身、財(cái)產(chǎn)安全受到危害的個(gè)人信息。”根據(jù)這一對敏感性的原則規(guī)定,基于人身屬性的數(shù)據(jù)分級主要有以下幾類:[8]
敏感個(gè)人數(shù)據(jù):即個(gè)人私密數(shù)據(jù)。比如自然人的行蹤信息、財(cái)富信息、健康信息、性取向信息、私密部位信息等。
敏感法人/組織數(shù)據(jù):即法人/非法人組織商業(yè)秘密數(shù)據(jù)。比如法人/組織的經(jīng)營數(shù)據(jù)、客戶數(shù)據(jù)等商業(yè)秘密,法人/組織的技術(shù)訣竅信息等。
非敏感個(gè)人數(shù)據(jù):即個(gè)人非私密數(shù)據(jù)。比如自然人的姓名、身份證件號碼、家庭住址、電話號碼、電子郵箱等,主要被用于滿足社會交往的需要。
非敏感法人/組織數(shù)據(jù):即法人/非法人組織非私密數(shù)據(jù)。比如法人名稱、法人組織機(jī)構(gòu)代碼、法人住址、聯(lián)系方式等。
非涉私數(shù)據(jù):屬于非敏感數(shù)據(jù)。
3.依據(jù)數(shù)據(jù)人身屬性對數(shù)據(jù)的管控
對于涉私數(shù)據(jù),需要嚴(yán)格落實(shí)數(shù)據(jù)來源者的知情權(quán)、決定權(quán)以及可攜帶權(quán),建立經(jīng)數(shù)據(jù)來源者知情、同意才能處理的機(jī)制。
敏感個(gè)人數(shù)據(jù)需要隱私保護(hù)和個(gè)人信息保護(hù)雙重保護(hù),只有在針對特定使用者、特定場景下經(jīng)個(gè)人單獨(dú)授權(quán)才能進(jìn)行數(shù)據(jù)處理。同時(shí),個(gè)人數(shù)據(jù)出境也有限制,主要是達(dá)到一定量的敏感個(gè)人數(shù)據(jù)出境需要申報(bào)數(shù)據(jù)出境安全評估(1萬人以上),或訂立個(gè)人信息出境標(biāo)準(zhǔn)合同,通過個(gè)人信息保護(hù)認(rèn)證(不滿1萬人)。對于關(guān)鍵信息基礎(chǔ)設(shè)施運(yùn)營者還有更嚴(yán)格的要求。[5]
敏感法人/組織數(shù)據(jù)也需要商業(yè)秘密保護(hù)和涉私數(shù)據(jù)保護(hù)雙重保護(hù),只有在針對特定使用者、特定場景下經(jīng)數(shù)據(jù)來源者單獨(dú)授權(quán)才能進(jìn)行數(shù)據(jù)處理。
非敏感個(gè)人數(shù)據(jù)需要受到個(gè)人信息保護(hù),經(jīng)個(gè)人授權(quán)后進(jìn)行處理。至于是普遍授權(quán)公開還是對特定處理者授權(quán),是一攬子授權(quán)還是單次授權(quán),由個(gè)人自決。同時(shí),個(gè)人數(shù)據(jù)出境也有限制,主要是達(dá)到一定量的個(gè)人數(shù)據(jù)(不含敏感個(gè)人數(shù)據(jù))出境100萬人以上的需要申報(bào)數(shù)據(jù)出境安全評估,10萬人以上、不滿100萬人的需要訂立個(gè)人信息出境標(biāo)準(zhǔn)合同,或通過個(gè)人信息保護(hù)認(rèn)證。對于關(guān)鍵信息基礎(chǔ)設(shè)施運(yùn)營者則都需要申報(bào)數(shù)據(jù)出境安全評估。[5]
非敏感法人/組織數(shù)據(jù)需要受到涉私數(shù)據(jù)保護(hù),經(jīng)法人/非法人組織授權(quán)后進(jìn)行處理。同樣,是普遍授權(quán)公開還是對特定處理者授權(quán),是一攬子授權(quán)還是單次授權(quán),由數(shù)據(jù)來源者自決。
非涉私數(shù)據(jù)沒有數(shù)據(jù)來源者,與個(gè)體無關(guān),與隱私保護(hù)、涉私數(shù)據(jù)保護(hù)無關(guān)。
對涉私數(shù)據(jù)的處理需要數(shù)據(jù)來源者知情、同意,即獲得數(shù)據(jù)來源者的授權(quán)和相關(guān)權(quán)益的讓渡。因此,對涉私數(shù)據(jù)的處理需要建立動態(tài)授權(quán)模型,即通過數(shù)據(jù)產(chǎn)品化,在數(shù)據(jù)產(chǎn)品使用場景中觸發(fā)實(shí)時(shí)授權(quán)請求,讓數(shù)據(jù)來源者能夠在應(yīng)用場景中便利地實(shí)時(shí)授權(quán),通過智能合約自動執(zhí)行授權(quán)要求,各個(gè)來源數(shù)據(jù)能夠向數(shù)據(jù)產(chǎn)品瞬間組裝,數(shù)據(jù)產(chǎn)品能夠瞬間集成,數(shù)據(jù)產(chǎn)品服務(wù)能夠瞬間輸出。[7]
(三)數(shù)據(jù)公共屬性的開放共享
數(shù)據(jù)是為利用而生的。在數(shù)據(jù)主權(quán)屬性、人身屬性對數(shù)據(jù)的限制性規(guī)制之后,數(shù)據(jù)公共屬性則是要讓數(shù)據(jù)開放共享和利用起來。
數(shù)據(jù)共享的廣義用法泛指任何數(shù)據(jù)處理者之間的數(shù)據(jù)共享,這是數(shù)據(jù)公共屬性希望趨向卻又難以達(dá)到的目標(biāo)。數(shù)據(jù)共享的狹義用法特指數(shù)據(jù)在單個(gè)機(jī)構(gòu)內(nèi)部的共享,包括作為整體政府的各公共機(jī)構(gòu)(尤其是政務(wù)機(jī)構(gòu))之間的共享。數(shù)據(jù)依據(jù)公共屬性分類,除了不予共享,就是(廣義的)數(shù)據(jù)共享。(廣義的)數(shù)據(jù)共享可以分類為:一是(狹義的)數(shù)據(jù)共享,即在作為整體的單個(gè)機(jī)構(gòu)(或整體政府)內(nèi)部共享;二是數(shù)據(jù)普遍開放,即對社會普遍開放,包括無條件開放和有條件開放——由于條件將會通過智能合約實(shí)現(xiàn)“秒審”而自動執(zhí)行,有條件開放會演變?yōu)闊o條件開放或下面的第三類(開發(fā)開放);三是數(shù)據(jù)開發(fā)開放,即通過數(shù)據(jù)產(chǎn)品化,數(shù)據(jù)嵌入到數(shù)據(jù)產(chǎn)品在應(yīng)用場景中開放利用。第二和第三類又可以合稱為數(shù)據(jù)開放。[9]
對于公共數(shù)據(jù),(狹義的)共享、開放是公共機(jī)構(gòu)的義務(wù),應(yīng)擴(kuò)大普遍開放,不能普遍開放的,通過開發(fā)開放實(shí)現(xiàn)最大范圍的公共數(shù)據(jù)開放利用。
對于社會數(shù)據(jù),鼓勵(lì)數(shù)據(jù)持有者開放數(shù)據(jù),主要是通過開發(fā)開放方式實(shí)現(xiàn)(廣義的)數(shù)據(jù)共享。
(四)數(shù)據(jù)價(jià)值屬性的權(quán)益保護(hù)
數(shù)據(jù)為利用而生,只有在直接和間接的應(yīng)用中才能發(fā)掘數(shù)據(jù)的價(jià)值屬性。數(shù)據(jù)價(jià)值化通過數(shù)據(jù)處理行為才能達(dá)成。根據(jù)《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》的原則,只要不違背數(shù)據(jù)主權(quán)屬性、人身屬性、公共屬性的要求,數(shù)據(jù)處理行為便都是允許的。由此也誕生了數(shù)據(jù)處理者的“三權(quán)”,即數(shù)據(jù)持有權(quán)、數(shù)據(jù)加工使用權(quán)和數(shù)據(jù)產(chǎn)品經(jīng)營權(quán),在“數(shù)據(jù)二十條”中給予了明確。[10]國家數(shù)據(jù)局等部門發(fā)布的《關(guān)于促進(jìn)企業(yè)數(shù)據(jù)資源開發(fā)利用的意見》明確:企業(yè)對其在生產(chǎn)經(jīng)營過程中形成或合法獲取、持有的數(shù)據(jù),依法享有法律法規(guī)規(guī)定的、民商事合同或行政協(xié)議約定的各類數(shù)據(jù)權(quán)益。這事實(shí)上是明確了數(shù)據(jù)處理者“三權(quán)”的來源,即合法獲取、持有即享有各類數(shù)據(jù)權(quán)益,自然也就無需其他機(jī)構(gòu)登記確認(rèn)。當(dāng)然,這也就賦予了數(shù)據(jù)處理者數(shù)據(jù)產(chǎn)品開發(fā)的自主權(quán)。[11]
數(shù)據(jù)價(jià)值化在于應(yīng)用,而數(shù)據(jù)產(chǎn)品是從數(shù)據(jù)到應(yīng)用的唯一橋梁。因此,依據(jù)數(shù)據(jù)價(jià)值屬性,對數(shù)據(jù)進(jìn)行分類分級,就只能從與數(shù)據(jù)產(chǎn)品直接或間接的關(guān)系來衡量數(shù)據(jù)價(jià)值的高低:一是嵌入數(shù)據(jù)產(chǎn)品的數(shù)據(jù),即數(shù)據(jù)產(chǎn)品的來源數(shù)據(jù),可以直接從數(shù)據(jù)產(chǎn)品價(jià)值中分有數(shù)據(jù)價(jià)值;二是未嵌入數(shù)據(jù)產(chǎn)品的數(shù)據(jù),沒有應(yīng)用便沒有直接價(jià)值;三是人工智能訓(xùn)練數(shù)據(jù),雖然沒有在應(yīng)用場景中直接應(yīng)用,但是作為人工智能模型的訓(xùn)練素材,在人工智能的應(yīng)用中具有間接價(jià)值。這第三類數(shù)據(jù)可以單列出來,不過本質(zhì)上說,可以歸入第一類,即作為間接嵌入數(shù)據(jù)產(chǎn)品的數(shù)據(jù),可以視為作為人工智能模型的數(shù)據(jù)產(chǎn)品的來源數(shù)據(jù),因?yàn)槿斯ぶ悄苣P鸵约霸诖嘶A(chǔ)上的智能體都符合數(shù)據(jù)產(chǎn)品的定義,可以看作數(shù)據(jù)產(chǎn)品。[12-17]
數(shù)據(jù)產(chǎn)品價(jià)值決定來源數(shù)據(jù)(即數(shù)據(jù)資源)價(jià)值。這也就意味著,數(shù)據(jù)產(chǎn)品市場決定數(shù)據(jù)要素市場。當(dāng)然,隨著產(chǎn)品市場的發(fā)展,要素(數(shù)據(jù)資源)市場也會隨之呈現(xiàn)出相對獨(dú)立性。市場會根據(jù)類似數(shù)據(jù)資源嵌入數(shù)據(jù)產(chǎn)品獲得的價(jià)值來衡量數(shù)據(jù)資源的價(jià)值,從而形成相對獨(dú)立的數(shù)據(jù)資源(要素)市場,并通過數(shù)據(jù)資源的流通進(jìn)一步反作用賦能產(chǎn)品市場。這也就意味著,數(shù)據(jù)要素作為訓(xùn)練數(shù)據(jù)賦能人工智能大模型也是可以先于基于大模型的數(shù)據(jù)產(chǎn)品生產(chǎn)的。
數(shù)據(jù)價(jià)值需要得到保護(hù),一方面是對數(shù)據(jù)產(chǎn)品價(jià)值和數(shù)據(jù)產(chǎn)品來源數(shù)據(jù)價(jià)值的保護(hù),另一方面是對數(shù)據(jù)處理者“三權(quán)”的保護(hù)。同時(shí),鑒于數(shù)據(jù)產(chǎn)品以及數(shù)據(jù)原子能力(作為經(jīng)過加工的來源數(shù)據(jù))中都含有一定的模型、算法或匿名化等技術(shù),事實(shí)上具有知識產(chǎn)權(quán)特性,還需要對其進(jìn)行知識產(chǎn)權(quán)保護(hù)。[18]例如訓(xùn)練數(shù)據(jù),可能就含有知識產(chǎn)權(quán)問題,需要體現(xiàn)知識產(chǎn)權(quán)價(jià)值。這些權(quán)益的保護(hù)都需要體現(xiàn)在相應(yīng)數(shù)據(jù)產(chǎn)品和來源數(shù)據(jù)的價(jià)值上,即體現(xiàn)在價(jià)格和收益分配上。
二、面向人工智能應(yīng)用的數(shù)據(jù)安全要求
在人工智能大模型快速發(fā)展的大趨勢下,數(shù)據(jù)安全和隱私保護(hù)問題愈加凸顯,關(guān)系到用戶的切身利益,也影響著整個(gè)行業(yè)能不能健康發(fā)展。是談虎色變還是任其野蠻生長?大模型安全合規(guī)管理的邊界在哪里?一方面要根據(jù)數(shù)據(jù)四大屬性決定的分類分級進(jìn)行管控,另一方面還需要深入研究人工智能大模型的特點(diǎn),做到有的放矢。
(一)大模型數(shù)據(jù)安全和隱私問題的特點(diǎn)
大模型數(shù)據(jù)安全和隱私問題集中體現(xiàn)在大模型訓(xùn)練和使用環(huán)節(jié)。其他諸如數(shù)據(jù)收集、存儲等環(huán)節(jié),是傳統(tǒng)數(shù)據(jù)安全和隱私保護(hù)的共性問題,采用相應(yīng)措施即可,例如加密存儲、加密傳輸、隱私計(jì)算等。但是針對大模型訓(xùn)練和使用,還需要單獨(dú)討論,因?yàn)橛珊诵臄?shù)據(jù)、重要數(shù)據(jù)、涉私數(shù)據(jù)訓(xùn)練出來的大模型,在使用的時(shí)候,它生成的內(nèi)容是有可能會把敏感信息泄露出去的。
在大模型訓(xùn)練環(huán)節(jié),不管是預(yù)訓(xùn)練還是微調(diào)階段,如果訓(xùn)練數(shù)據(jù)(包括語料、多模態(tài)數(shù)據(jù))涉及核心數(shù)據(jù)、重要數(shù)據(jù)、涉私數(shù)據(jù),其就進(jìn)入了詞元(tokens)中,并在矢量化中參與了參數(shù)計(jì)算,后續(xù)在大模型應(yīng)用中,就完全可能以一定的概率輸出。
在大模型使用環(huán)節(jié),用戶的提示詞(prompts)完全可能涉及敏感詞,這就更大概率會引導(dǎo)大模型輸出核心數(shù)據(jù)、重要數(shù)據(jù)、涉私數(shù)據(jù)相關(guān)信息,導(dǎo)致數(shù)據(jù)安全、隱私保護(hù)方面的嚴(yán)峻問題。
鑒于人工智能大模型基于概率輸出的特點(diǎn),信息的輸出并不能準(zhǔn)確預(yù)測,這就使得對于輸出信息是否涉及核心數(shù)據(jù)、重要數(shù)據(jù)、涉私數(shù)據(jù)更難以判斷,給數(shù)據(jù)安全管理帶來不可預(yù)測的困難。
(二)大模型數(shù)據(jù)安全和隱私保護(hù)的底線思維
國家網(wǎng)信辦聯(lián)合國家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部、公安部、廣電總局公布了《生成式人工智能服務(wù)管理暫行辦法》,自2023年8月15日起施行,明確生成式人工智能服務(wù)提供者應(yīng)當(dāng)依法開展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動:使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型;涉及知識產(chǎn)權(quán)的,不得侵害他人依法享有的知識產(chǎn)權(quán);涉及個(gè)人信息的,應(yīng)當(dāng)取得個(gè)人同意或者符合法律、行政法規(guī)規(guī)定的其他情形;采取有效措施提高訓(xùn)練數(shù)據(jù)質(zhì)量,增強(qiáng)訓(xùn)練數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、客觀性、多樣性。[19]
面向人工智能的數(shù)據(jù)應(yīng)用必須加強(qiáng)數(shù)據(jù)源頭管控,即從預(yù)訓(xùn)練數(shù)據(jù)開始管控。這就對數(shù)據(jù)分類分級的落實(shí)提出了更高要求。
1.從主權(quán)屬性角度考慮的底線原則
第一,針對通用大模型,在預(yù)訓(xùn)練環(huán)節(jié)如果使用了核心數(shù)據(jù)、重要數(shù)據(jù)、個(gè)人數(shù)據(jù),在大模型的普遍使用中,相關(guān)數(shù)據(jù)在結(jié)果中將會概率性(不確定性)地出現(xiàn),也就必然會導(dǎo)致相關(guān)數(shù)據(jù)的泄露乃至出境,因此原則上應(yīng)禁止核心數(shù)據(jù)、重要數(shù)據(jù)和個(gè)人數(shù)據(jù)出現(xiàn)在通用大模型預(yù)訓(xùn)練環(huán)節(jié)。同樣,通用大模型的微調(diào)優(yōu)化以及推理環(huán)節(jié)對數(shù)據(jù)的利用也需要禁止核心數(shù)據(jù)、重要數(shù)據(jù)和個(gè)人數(shù)據(jù)的使用。
第二,針對大模型的私域部署,采用私域數(shù)據(jù)(私域知識庫)進(jìn)行大模型微調(diào)優(yōu)化或利用RAG(檢索增強(qiáng)生成)等技術(shù)優(yōu)化,應(yīng)當(dāng)允許私域數(shù)據(jù)使用核心數(shù)據(jù)、重要數(shù)據(jù)、個(gè)人數(shù)據(jù),但是要對私域部署的大模型的用戶管理進(jìn)行限定,以符合對核心數(shù)據(jù)、重要數(shù)據(jù)、個(gè)人數(shù)據(jù)的相關(guān)法律法規(guī)要求。顯然,涉及核心數(shù)據(jù)的,需要禁止境外用戶;涉及重要數(shù)據(jù)和個(gè)人數(shù)據(jù)的,需要限制境外用戶數(shù)量和使用數(shù)量。也就是說要在大模型應(yīng)用層再適用對數(shù)據(jù)出境的相關(guān)規(guī)定,而不必禁止大模型在微調(diào)、推理等環(huán)節(jié)的數(shù)據(jù)利用。在加強(qiáng)用戶管理和使用管理的條件下,利用私域部署和高質(zhì)量數(shù)據(jù)集對大模型進(jìn)行微調(diào)、強(qiáng)化學(xué)習(xí)、RAG,有利于減少幻覺,以及面向應(yīng)用開發(fā)智能體。
2.從人身屬性角度考慮的底線原則
我們已經(jīng)從主權(quán)屬性角度對個(gè)人數(shù)據(jù)在大模型的利用提出了底線原則,這更多是針對數(shù)據(jù)集合出境等場景。對于涉私數(shù)據(jù)(包括個(gè)人數(shù)據(jù))還要從人身屬性角度考慮單條數(shù)據(jù)的利用問題,因?yàn)樯嫠綌?shù)據(jù)用于人工智能大模型訓(xùn)練、推理環(huán)節(jié)都會有泄露隱私或商業(yè)秘密的風(fēng)險(xiǎn)。
第一,針對通用大模型,在預(yù)訓(xùn)練環(huán)節(jié)也好,在微調(diào)環(huán)節(jié)或者推理環(huán)節(jié)也好,只要使用了涉私數(shù)據(jù),在大模型的普遍使用中,相關(guān)數(shù)據(jù)在結(jié)果中將會概率性(不確定性)地出現(xiàn),也就必然會導(dǎo)致相關(guān)數(shù)據(jù)的泄露,因此原則上應(yīng)禁止涉私數(shù)據(jù)出現(xiàn)在通用大模型中。
第二,針對大模型的私域部署,采用私域數(shù)據(jù)(私域知識庫)進(jìn)行大模型微調(diào)優(yōu)化或利用RAG等技術(shù)優(yōu)化,除非數(shù)據(jù)來源者(關(guān)聯(lián)對象)有授權(quán)在先,也不能直接使用涉私數(shù)據(jù)。這是更為嚴(yán)格的限定,也就是說不僅要在大模型應(yīng)用層適用對涉私數(shù)據(jù)處理的相關(guān)規(guī)定,而且在大模型的訓(xùn)練、推理等全部環(huán)節(jié)都要落實(shí)涉私數(shù)據(jù)處理的相關(guān)規(guī)定,即要落實(shí)數(shù)據(jù)來源者對數(shù)據(jù)處理的知情權(quán)、決定權(quán)。
顯然,大模型利用面臨著涉私數(shù)據(jù)受制于千千萬萬個(gè)數(shù)據(jù)來源者決定權(quán)的難題。解決這一難題的鑰匙就在于利用“可控匿名化”機(jī)制,使用邏輯真實(shí)數(shù)據(jù)。[15,24]
3.從價(jià)值屬性角度考慮的底線原則
不管是通用大模型還是私域部署,用于訓(xùn)練、推理的數(shù)據(jù)如果涉及第三方的數(shù)據(jù)權(quán)益或知識產(chǎn)權(quán),都應(yīng)給予保護(hù)。質(zhì)而言之,就是應(yīng)取得權(quán)益方的授權(quán)或形成商業(yè)合同,分享利益。
三、面向人工智能應(yīng)用的數(shù)據(jù)安全治理
(一)數(shù)據(jù)多維治理架構(gòu)
|
治理維度
|
數(shù)據(jù)分類
|
敏感分級
|
治理措施
|
|
主權(quán)屬性
|
涉密數(shù)據(jù)
|
極高敏感
|
物理隔離,國家秘密管理。
|
|
核心數(shù)據(jù)
|
高敏感
|
存儲、傳輸、訪問等管控,不出境。
|
|
重要數(shù)據(jù)
|
敏感
|
存儲、傳輸、訪問等管控,限制出境。
|
|
一般數(shù)據(jù)
|
非敏感
|
基礎(chǔ)安全管理,可出境。
|
|
人身屬性
|
個(gè)人私密數(shù)據(jù)
|
敏感
|
隱私保護(hù),知情-同意,限制出境。
|
|
法人/組織商業(yè)秘密數(shù)據(jù)
|
敏感
|
商業(yè)秘密保護(hù),知情-同意。
|
|
個(gè)人非私密數(shù)據(jù)
|
非敏感
|
知情-同意,限制出境。
|
|
法人/組織非私密數(shù)據(jù)
|
非敏感
|
知情-同意。
|
|
非涉私數(shù)據(jù)
|
非敏感
|
基礎(chǔ)安全管理。
|
|
公共屬性
|
可開發(fā)開放數(shù)據(jù)
|
敏感
|
依托可信數(shù)據(jù)空間進(jìn)行數(shù)據(jù)產(chǎn)品化實(shí)現(xiàn)開放。
|
|
可普遍開放數(shù)據(jù)
|
非敏感
|
普遍開放。
|
|
價(jià)值屬性
|
嵌入數(shù)據(jù)產(chǎn)品的數(shù)據(jù)
|
高價(jià)值密度
|
數(shù)據(jù)價(jià)值保護(hù),知識產(chǎn)權(quán)保護(hù)。
|
|
其中:人工智能訓(xùn)練數(shù)據(jù)
|
低價(jià)值密度
|
數(shù)據(jù)價(jià)值保護(hù),知識產(chǎn)權(quán)保護(hù)。
|
|
未嵌入數(shù)據(jù)產(chǎn)品的數(shù)據(jù)
|
無價(jià)值
|
基礎(chǔ)安全管理。
|
第一部分我們從數(shù)據(jù)四大屬性,也就是從四個(gè)維度分別對數(shù)據(jù)進(jìn)行了分類分級,兼顧安全保護(hù)和開放利用,發(fā)掘數(shù)據(jù)價(jià)值。一般說來,一條數(shù)據(jù)是同時(shí)兼具四大屬性,因而需要同時(shí)從四個(gè)維度對數(shù)據(jù)安全和開放利用進(jìn)行考量,并且按照四大屬性的位階等級,優(yōu)先考量主權(quán)屬性,然后依次考量人身屬性、公共屬性和價(jià)值屬性,并將相關(guān)標(biāo)注信息納入元數(shù)據(jù)管理體系中。可以采取“多層熔斷機(jī)制”逐層診斷數(shù)據(jù)管控要求,一是主權(quán)核驗(yàn)層,對接國家核心數(shù)據(jù)、重要數(shù)據(jù)目錄實(shí)現(xiàn)自動檢索、標(biāo)注;二是人格聲明層,對于涉私數(shù)據(jù),標(biāo)注涉及的數(shù)據(jù)來源者(關(guān)聯(lián)對象),并將數(shù)據(jù)納入“關(guān)聯(lián)對象數(shù)字空間”管理,在數(shù)據(jù)處理時(shí)要求數(shù)據(jù)來源者知情、同意;三是開放共享層,區(qū)分公共數(shù)據(jù)和社會數(shù)據(jù),并依據(jù)敏感情況,標(biāo)注可普遍開放或者可開發(fā)開放;四是風(fēng)險(xiǎn)測算層,根據(jù)上表的四個(gè)維度治理結(jié)構(gòu),評估數(shù)據(jù)敏感度,進(jìn)行風(fēng)險(xiǎn)測算;五是應(yīng)急處置層,制定不同敏感度和風(fēng)險(xiǎn)級別的應(yīng)急處置措施,保護(hù)、屏蔽直至刪除數(shù)據(jù)。
1.管控措施就高不就低
鑒于四個(gè)維度的分類分級的交叉重疊,數(shù)據(jù)需要在多重保護(hù)下開放利用。對同一條數(shù)據(jù),管控方面不相同的,例如既是個(gè)人數(shù)據(jù),又涉及持有者的知識產(chǎn)權(quán),管控措施便“既要……又要……”,也就是各個(gè)方面的管控都要到位;管控方面相同的,例如針對出境管控,既是重要數(shù)據(jù),又是個(gè)人數(shù)據(jù),管控措施便就高不就低。
通過管控措施的疊加,切實(shí)加強(qiáng)數(shù)據(jù)安全治理,特別是涉及核心數(shù)據(jù)、重要數(shù)據(jù)的安全治理,確保主權(quán)安全,包括生物安全等。例如對于重要數(shù)據(jù)出境,需要申報(bào)數(shù)據(jù)出境安全評估。
2.開發(fā)利用就寬不就嚴(yán)
在嚴(yán)格管控措施的前提下,開發(fā)利用就需要就寬不就嚴(yán),鼓勵(lì)開發(fā),鼓勵(lì)創(chuàng)新。
關(guān)于重要數(shù)據(jù)的利用,在存儲、傳輸、訪問控制等安全措施加持下,重點(diǎn)遵照國家網(wǎng)信辦《促進(jìn)和規(guī)范數(shù)據(jù)跨境流動規(guī)定》進(jìn)行數(shù)據(jù)出境管理。[5]
在此基礎(chǔ)上,重要數(shù)據(jù)的利用,一方面是不影響數(shù)據(jù)在境內(nèi)的開發(fā)利用,鼓勵(lì)通過有嚴(yán)格安全管控措施的可信數(shù)據(jù)空間等數(shù)據(jù)基礎(chǔ)設(shè)施充分利用重要數(shù)據(jù),鼓勵(lì)嵌入重要數(shù)據(jù)的數(shù)據(jù)產(chǎn)品開發(fā)利用;另一方面是針對數(shù)據(jù)出境,按照規(guī)定限定的數(shù)據(jù)量進(jìn)行管控,在管控下開發(fā)利用,并讓數(shù)據(jù)出境傳輸量接受監(jiān)管。同時(shí),自貿(mào)區(qū)可以充分利用制定負(fù)面清單的政策,加強(qiáng)重要數(shù)據(jù)出境的管理和開放。
關(guān)于涉私數(shù)據(jù)的利用,關(guān)鍵在于數(shù)據(jù)產(chǎn)品化,將涉私數(shù)據(jù)嵌入數(shù)據(jù)產(chǎn)品中,讓數(shù)據(jù)來源者能夠在應(yīng)用場景中實(shí)時(shí)授權(quán)、實(shí)時(shí)獲得服務(wù)。[7]
涉及涉私數(shù)據(jù)出境的情形,就法人/非法人組織數(shù)據(jù)而言,并無限制;就個(gè)人數(shù)據(jù)而言,按照《促進(jìn)和規(guī)范數(shù)據(jù)跨境流動規(guī)定》,特定個(gè)人信息處理情形可免予申報(bào)數(shù)據(jù)出境安全評估、訂立個(gè)人信息出境標(biāo)準(zhǔn)合同、通過個(gè)人信息保護(hù)認(rèn)證:
(1)為訂立、履行個(gè)人作為一方當(dāng)事人的合同,如跨境購物、跨境寄遞、跨境匯款、跨境支付、跨境開戶、機(jī)票酒店預(yù)訂、簽證辦理、考試服務(wù)等,確需向境外提供個(gè)人信息的;
(2)按照依法制定的勞動規(guī)章制度和依法簽訂的集體合同實(shí)施跨境人力資源管理,確需向境外提供員工個(gè)人信息的;
(3)緊急情況下為保護(hù)自然人的生命健康和財(cái)產(chǎn)安全,確需向境外提供個(gè)人信息的;
(4)關(guān)鍵信息基礎(chǔ)設(shè)施運(yùn)營者以外的數(shù)據(jù)處理者自當(dāng)年1月1日起累計(jì)向境外提供不滿10萬人個(gè)人信息(不含敏感個(gè)人信息)的。
以上四種情形下,個(gè)人數(shù)據(jù)可以出境。此外,還需積極拓展個(gè)人數(shù)據(jù)脫敏即可滿足要求的應(yīng)用場景,通過數(shù)據(jù)產(chǎn)品化實(shí)現(xiàn)“數(shù)據(jù)不出境、可用不可見”。
3.積極探索數(shù)據(jù)隔離、數(shù)據(jù)解耦、數(shù)據(jù)脫敏等措施
統(tǒng)籌好數(shù)據(jù)安全治理和開發(fā)利用,必須依托完善的數(shù)據(jù)基礎(chǔ)設(shè)施(數(shù)據(jù)平臺)。[20-23]
對核心數(shù)據(jù)、重要數(shù)據(jù)探索“主權(quán)沙箱”,特別是關(guān)鍵信息基礎(chǔ)設(shè)施運(yùn)營者,更需要依托可信數(shù)據(jù)空間建立“主權(quán)沙箱”,原始數(shù)據(jù)全程隔離,外方通過部署算法模型在“主權(quán)沙箱”的密閉計(jì)算環(huán)境進(jìn)行分析,輸出結(jié)果,中間還可采用同態(tài)加密、聯(lián)盟學(xué)習(xí)等隱私計(jì)算技術(shù)。這樣,不必對大量原始數(shù)據(jù)進(jìn)行出境安全評估,而僅需評估服務(wù)結(jié)果的出境安全即可,從而大大降低數(shù)據(jù)出境的壁壘,發(fā)揮數(shù)據(jù)價(jià)值。
針對涉私數(shù)據(jù)特別是個(gè)人數(shù)據(jù),采取可信數(shù)字身份認(rèn)證機(jī)制,實(shí)現(xiàn)個(gè)體身份信息與個(gè)體業(yè)務(wù)信息的關(guān)聯(lián)和解耦,包括各功能角色的解耦,認(rèn)證和應(yīng)用的解耦,數(shù)據(jù)和應(yīng)用的解耦。可信數(shù)字身份認(rèn)證平臺只掌握個(gè)人/法人/組織的身份信息,但不掌握個(gè)體的應(yīng)用信息、業(yè)務(wù)信息等;數(shù)據(jù)處理者只了解各自服務(wù)范圍內(nèi)真實(shí)個(gè)體的相關(guān)應(yīng)用數(shù)據(jù),據(jù)此提供服務(wù)就好,但是具體是哪個(gè)個(gè)體不需要了解。應(yīng)用場景中需要建立關(guān)聯(lián)時(shí),由數(shù)據(jù)來源者(關(guān)聯(lián)對象)進(jìn)行授權(quán)。[22]
這事實(shí)上正是基于可信數(shù)據(jù)空間(數(shù)據(jù)基礎(chǔ)設(shè)施)的“可控匿名化”措施。在可信數(shù)據(jù)空間內(nèi),與身份認(rèn)證解耦的應(yīng)用信息、業(yè)務(wù)信息不再是涉私數(shù)據(jù),不必授權(quán)便可以進(jìn)行數(shù)據(jù)處理,只有在形成數(shù)據(jù)產(chǎn)品面向應(yīng)用場景需要落實(shí)具體服務(wù)對象時(shí),在數(shù)據(jù)來源者授權(quán)下,應(yīng)用信息、業(yè)務(wù)信息和身份信息建立關(guān)聯(lián),數(shù)據(jù)產(chǎn)品才對服務(wù)對象提供個(gè)性化服務(wù)。
針對可信數(shù)據(jù)空間內(nèi)的涉私數(shù)據(jù),平臺運(yùn)營者還可以主動對數(shù)據(jù)進(jìn)行“可控匿名化”處理,將身份信息和應(yīng)用信息、業(yè)務(wù)信息解耦,形成與原始數(shù)據(jù)結(jié)構(gòu)一致的邏輯真實(shí)數(shù)據(jù),從而便利數(shù)據(jù)處理者進(jìn)行數(shù)據(jù)治理探查、數(shù)據(jù)產(chǎn)品開發(fā)。[15,24]
上述機(jī)制同樣使得不必對大量原始數(shù)據(jù)進(jìn)行出境安全評估,而僅需評估服務(wù)結(jié)果的出境安全即可,從而大大降低數(shù)據(jù)出境的壁壘,發(fā)揮數(shù)據(jù)價(jià)值。注意在這些機(jī)制中,貫穿始終都需要落實(shí)零信任機(jī)制,強(qiáng)化安全認(rèn)證,也需要同步建設(shè)好關(guān)聯(lián)對象“數(shù)字空間”,打造數(shù)字公民。
(二)兼顧大模型數(shù)據(jù)安全、隱私保護(hù)和數(shù)據(jù)利用
1.從主權(quán)屬性角度考慮的數(shù)據(jù)利用機(jī)制
針對通用大模型,核心數(shù)據(jù)、重要數(shù)據(jù)、個(gè)人數(shù)據(jù)不可用。利用這樣的數(shù)據(jù)只能是針對大模型的私域部署,并且在私域數(shù)據(jù)中利用了核心數(shù)據(jù)、重要數(shù)據(jù)、個(gè)人數(shù)據(jù)的話,還需要落實(shí)嚴(yán)格的用戶管理措施,以符合對核心數(shù)據(jù)、重要數(shù)據(jù)、個(gè)人數(shù)據(jù)的相關(guān)法律法規(guī)要求,即:涉及核心數(shù)據(jù)的,禁止境外用戶;涉及重要數(shù)據(jù)和個(gè)人數(shù)據(jù)的,限制境外用戶數(shù)量和使用數(shù)量。
2.從人身屬性角度考慮的數(shù)據(jù)利用機(jī)制
針對通用大模型,原則上應(yīng)全面禁止涉私數(shù)據(jù)利用。針對大模型的私域部署,也不能直接使用涉私數(shù)據(jù)。只有在數(shù)據(jù)來源者對數(shù)據(jù)處理“知情-同意”之下,涉私數(shù)據(jù)才可以利用。
涉私數(shù)據(jù)的利用機(jī)制在于使用“可控匿名化”的邏輯真實(shí)數(shù)據(jù),在大模型的私域部署下,利用邏輯真實(shí)數(shù)據(jù)對大模型進(jìn)行微調(diào)優(yōu)化,或利用RAG優(yōu)化大模型的推理。
利用涉私數(shù)據(jù)關(guān)鍵是要解決涉及到個(gè)體的應(yīng)用問題。涉私數(shù)據(jù)利用機(jī)制的核心是將涉私數(shù)據(jù)嵌入到面向應(yīng)用場景的數(shù)據(jù)產(chǎn)品和智能體之中。采用邏輯真實(shí)數(shù)據(jù)的更大價(jià)值在于依托私域部署的大模型支撐嵌入實(shí)時(shí)邏輯真實(shí)數(shù)據(jù)的數(shù)據(jù)產(chǎn)品和智能體開發(fā)和應(yīng)用。數(shù)據(jù)產(chǎn)品和智能體在應(yīng)用中基于數(shù)據(jù)來源者授權(quán),將嵌入其中的邏輯真實(shí)數(shù)據(jù)還原為真實(shí)數(shù)據(jù),從而實(shí)現(xiàn)大模型支撐的涉私數(shù)據(jù)個(gè)體化利用。
3.從價(jià)值屬性角度考慮的數(shù)據(jù)利用機(jī)制
人工智能大模型利用數(shù)據(jù)涉及第三方的數(shù)據(jù)權(quán)益或知識產(chǎn)權(quán),應(yīng)取得權(quán)益方的授權(quán)或形成商業(yè)合同,分享利益。
4.數(shù)據(jù)平臺和大模型的融合是數(shù)據(jù)利用的基礎(chǔ)
既然對于核心數(shù)據(jù)、重要數(shù)據(jù)、涉私數(shù)據(jù),都只能在私域部署下才有利用的可能,并且需要加強(qiáng)用戶管理,對涉私數(shù)據(jù)還需要“可控匿名化”機(jī)制,這個(gè)私域的“域”就只能是以可信數(shù)據(jù)空間為核心的數(shù)據(jù)基礎(chǔ)設(shè)施(數(shù)據(jù)平臺)。隨著大模型在數(shù)據(jù)平臺的部署,數(shù)據(jù)基礎(chǔ)設(shè)施和人工智能基礎(chǔ)設(shè)施實(shí)際上在可信數(shù)據(jù)空間中便融合為一體了。這就是對大模型做私域部署的基礎(chǔ),也是核心數(shù)據(jù)、重要數(shù)據(jù)、涉私數(shù)據(jù)為大模型所利用的基礎(chǔ)。因而,可信數(shù)據(jù)空間為核心的數(shù)據(jù)平臺對大模型的精準(zhǔn)利用和落地發(fā)展具有關(guān)鍵作用,核心數(shù)據(jù)、重要數(shù)據(jù)、涉私數(shù)據(jù)等高質(zhì)量數(shù)據(jù)集都要依托可信數(shù)據(jù)空間才能落地利用。
5.幾個(gè)需要重點(diǎn)關(guān)注的問題
第一,厘清空間數(shù)據(jù)邊界。近期低空經(jīng)濟(jì)發(fā)展引人注目,而低空經(jīng)濟(jì)本質(zhì)上屬于數(shù)字經(jīng)濟(jì)。關(guān)于低空經(jīng)濟(jì)數(shù)據(jù)的分類分級管理問題迫在眉睫。
從數(shù)據(jù)安全的主權(quán)屬性角度,低空經(jīng)濟(jì)數(shù)據(jù)同樣要按照核心數(shù)據(jù)、重要數(shù)據(jù)、一般數(shù)據(jù)進(jìn)行分類分級。涉及國家安全或重大公共利益,如軍事禁飛區(qū)數(shù)據(jù)、國家級低空管制系統(tǒng)數(shù)據(jù)等,屬于核心數(shù)據(jù),任何未經(jīng)授權(quán)的數(shù)據(jù)采集行為都被嚴(yán)格禁止,授權(quán)采集的數(shù)據(jù)要嚴(yán)格管控,因?yàn)檫@些區(qū)域的數(shù)據(jù)一旦泄露,可能直接危及國家政治安全。可能危害經(jīng)濟(jì)運(yùn)行或公共安全的數(shù)據(jù),如政府機(jī)構(gòu)、關(guān)鍵基礎(chǔ)設(shè)施(如機(jī)場、電網(wǎng)、通信基站)周邊的數(shù)據(jù),大規(guī)模無人機(jī)集群控制數(shù)據(jù),涉及10萬人以上的個(gè)人飛行記錄等,屬于重要數(shù)據(jù)。在公共空域,數(shù)據(jù)的敏感度相對較低,屬于一般數(shù)據(jù),但仍需遵循一定的規(guī)范進(jìn)行管理,以保障公眾利益和空域的正常使用秩序。
但是低空經(jīng)濟(jì)數(shù)據(jù)管理比這還要復(fù)雜。低空經(jīng)濟(jì)數(shù)據(jù)也會涉及數(shù)據(jù)人身屬性,需要考慮涉私數(shù)據(jù)保護(hù)。如無人機(jī)可能采集、標(biāo)注到人、車等個(gè)人信息,可能涉及私宅,可能涉及法人/組織內(nèi)部空間及相關(guān)布局。此外,還有相關(guān)人員的飛行軌跡等個(gè)人數(shù)據(jù)、相關(guān)運(yùn)輸貨物等涉企數(shù)據(jù)。這些數(shù)據(jù)都需要作為涉私數(shù)據(jù)進(jìn)行相應(yīng)保護(hù),即在數(shù)據(jù)來源者“知情-同意”下進(jìn)行處理。
類似的,城市空間的圖像、視頻采集設(shè)備獲取的相關(guān)數(shù)據(jù),也需要分類分級管理。即將于2025年6月1日起施行的國家互聯(lián)網(wǎng)信息辦公室、公安部聯(lián)合公布的《人臉識別技術(shù)應(yīng)用安全管理辦法》就做了相應(yīng)規(guī)定。[25]
第二,開展脫敏利用。公共數(shù)據(jù)用于大模型有特殊的難點(diǎn),這是因?yàn)楣矙C(jī)構(gòu)、公共數(shù)據(jù)運(yùn)營機(jī)構(gòu)一般都屬于關(guān)鍵信息基礎(chǔ)設(shè)施運(yùn)營者,其掌握的平臺、數(shù)據(jù)基本都屬于重要數(shù)據(jù)范疇,向境外提供任何個(gè)人信息或重要數(shù)據(jù),必須申報(bào)數(shù)據(jù)出境安全評估。相關(guān)數(shù)據(jù)如果用于大模型訓(xùn)練,確實(shí)會導(dǎo)致數(shù)據(jù)結(jié)果出境的風(fēng)險(xiǎn)。必須對這些數(shù)據(jù)進(jìn)行數(shù)據(jù)脫敏處理,只能依托公共可信數(shù)據(jù)空間來支撐大模型,利用“可控匿名化”的邏輯真實(shí)數(shù)據(jù)來支撐大模型訓(xùn)練,同時(shí)加強(qiáng)對模型輸出結(jié)果的管理,以及對模型的用戶進(jìn)行管理,以符合數(shù)據(jù)出境安全評估要求。事實(shí)上我們在這里是做了兩方面的措施,以便統(tǒng)籌好安全和利用。一是對關(guān)鍵信息基礎(chǔ)設(shè)施進(jìn)行精細(xì)化管控,厘清邊界,重點(diǎn)保護(hù)邏輯真實(shí)數(shù)據(jù)的映射表,而將邏輯真實(shí)數(shù)據(jù)視為匿名化數(shù)據(jù)(非涉私數(shù)據(jù))。二是將數(shù)據(jù)出境安全評估從源頭數(shù)據(jù)利用轉(zhuǎn)移到對模型輸出數(shù)據(jù)的評估和管控。
第三,加強(qiáng)使用控制。利用公共數(shù)據(jù)等重要數(shù)據(jù)的大模型,在使用層面進(jìn)行控制。主權(quán)屬性方面,控制跨境使用次數(shù),滿足重要數(shù)據(jù)限制出境相關(guān)要求。人身屬性方面,依據(jù)場景,由數(shù)據(jù)來源者授權(quán)使用——都是通過數(shù)據(jù)產(chǎn)品化使用,即使用大模型支撐的數(shù)據(jù)產(chǎn)品或智能體,涉及涉私數(shù)據(jù),由數(shù)據(jù)來源者授權(quán)。
第四,強(qiáng)化數(shù)據(jù)隔離、解耦。《個(gè)人信息保護(hù)法》對個(gè)人信息的去標(biāo)示化、匿名化的定義基于通常理解的技術(shù)手段,并沒有考慮到人工智能大模型等新技術(shù)的強(qiáng)大能力。基礎(chǔ)通用大模型可以利用已經(jīng)在互聯(lián)網(wǎng)主動公開的個(gè)人數(shù)據(jù)進(jìn)行訓(xùn)練,對個(gè)人其實(shí)是有所了解的,再綜合多維度的匿名化的個(gè)人數(shù)據(jù),是有概率性的可能反推出個(gè)人隱私信息的。如果不希望大模型從匿名化的數(shù)據(jù)中反推出隱私信息,就還需要“魔高一尺道高一丈”,有更多機(jī)制、更強(qiáng)技術(shù)來加強(qiáng)數(shù)據(jù)保護(hù)。
這就需要盡量采取強(qiáng)化數(shù)據(jù)隔離、解耦等措施。針對涉私數(shù)據(jù),不建議集中歸集存儲,不建議以這樣集中、綜合的數(shù)據(jù)形態(tài)提供給大模型,包括讓大模型微調(diào)、強(qiáng)化學(xué)習(xí)、RAG等,即使是采取只提供樣例數(shù)據(jù)、邏輯真實(shí)數(shù)據(jù)的方式,也存在一定風(fēng)險(xiǎn)。一是需要數(shù)據(jù)來源分散,個(gè)體身份信息與個(gè)體應(yīng)用信息、業(yè)務(wù)信息隔離和解耦,不同應(yīng)用、不同業(yè)務(wù)、不同功能的信息也要隔離和解耦,并針對大模型服務(wù)的領(lǐng)域,只提供相關(guān)領(lǐng)域應(yīng)用數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù),而不提供不相關(guān)領(lǐng)域的數(shù)據(jù),以避免大模型綜合反推隱私信息。二是涉及個(gè)體應(yīng)用的數(shù)據(jù)產(chǎn)品和智能體也要分散化,不同的數(shù)據(jù)產(chǎn)品和智能體針對不同的應(yīng)用,相對獨(dú)立,針對多場景的綜合應(yīng)用,則采取多產(chǎn)品、多智能體協(xié)同網(wǎng)絡(luò)相互調(diào)用結(jié)果方式提供服務(wù),而綜合性的、通用的數(shù)據(jù)產(chǎn)品和智能體主要面向非個(gè)體應(yīng)用場景,不用到涉私數(shù)據(jù)。三是必要的話還可以采用聯(lián)邦學(xué)習(xí)、隱私計(jì)算、數(shù)據(jù)沙盒等方式,進(jìn)一步強(qiáng)化數(shù)據(jù)安全管理。
第五,防范區(qū)塊鏈穿透。當(dāng)前,數(shù)據(jù)產(chǎn)品(數(shù)據(jù)資產(chǎn))的通證化已經(jīng)開始,并且漸成熱點(diǎn),例如RWA(現(xiàn)實(shí)世界資產(chǎn)通證化)。這類基于公鏈的數(shù)據(jù)應(yīng)用,存在數(shù)據(jù)跨境穿透的風(fēng)險(xiǎn)。未來的多智能體協(xié)同網(wǎng)絡(luò)也會通過區(qū)塊鏈跨境穿透、互動。需要加快研究監(jiān)管措施。基本思路可能是采取可控去中心化方式,即在國家主權(quán)層面的中心化和局部的去中性化結(jié)合。
名詞注釋
1.本文數(shù)據(jù)、信息兩詞通用。數(shù)據(jù)(側(cè)重形式、能指)和信息(側(cè)重內(nèi)容、所指)相統(tǒng)一,可以通用。
2.數(shù)據(jù)來源者=關(guān)聯(lián)對象=數(shù)據(jù)主體。
3.數(shù)據(jù)平臺=數(shù)據(jù)基礎(chǔ)設(shè)施。
4.可信數(shù)據(jù)空間運(yùn)營者=數(shù)據(jù)(基礎(chǔ)設(shè)施)平臺運(yùn)營者=網(wǎng)絡(luò)平臺服務(wù)提供者。
5.涉私數(shù)據(jù)=個(gè)人數(shù)據(jù)+法人數(shù)據(jù)+非法人組織數(shù)據(jù)。
6.數(shù)據(jù)原子能力=數(shù)據(jù)中間產(chǎn)品。
7.數(shù)據(jù)供給方=數(shù)據(jù)持有者。
8.源頭數(shù)據(jù)=原始數(shù)據(jù)+邏輯真實(shí)數(shù)據(jù)。
9.私域數(shù)據(jù)=私域知識庫。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)