- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2025-04-22來源:CIO之家瀏覽數:114次
人工智能技術的飛速發展,大模型以前所未有的能力,深刻地改變著我們的生活和工作方式。然而,在享受大模型帶來的便利之時,我們也必須清醒地認識到,大模型并非完美無瑕,其自身也伴隨著諸多安全風險。這些風險不僅關乎數據、模型和系統本身的安全,更涉及內容、認知和倫理等多個層面,對個人、組織乃至社會都構成了潛在威脅。因此,深入研究大模型的安全問題,構建全面有效的安全防御體系,已成為當前人工智能領域的重要課題。大模型安全風險:六大維度的挑戰大模型的安全風險復雜多樣,需要我們從體系化的視角進行分析。根據其成因,可以將大模型的安全性問題歸納為以下六個維度的挑戰:

數據泄露:大模型訓練需要大規模的模型參數和海量的數據,這使得數據泄露的風險大大增加。例如,OpenAI 在其隱私政策中提到,ChatGPT 會收集用戶的賬戶信息和對話的所有內容,以及互動網頁內的各種隱私信息(包括 Cookies、日志、設備信息等),而且這些隱私信息可能會被共享給供應商、服務提供商以及附屬公司 。網絡安全公司 Cyberhaven 的數據顯示,每 10 萬名員工中就有 319 名員工在一周內將公司敏感數據輸入進 ChatGPT 。
數據竊取:在海量數據上訓練的大規模生成式模型還可能遭受數據竊取攻擊。模型在訓練過程中會記憶一部分訓練數據,攻擊者可以設計特定的攻擊策略將這些訓練數據從模型內部竊取,嚴重威脅了模型的數據安全 。研究者針對 GPT-2 進行了數據竊取攻擊研究,實驗表明,經過簡單的清洗,GPT-2 模型生成的 1800 條回復中有 604 條包含了訓練數據,而其中不乏人名、地址、聯系方式等敏感信息 。
數據投毒:在生成式人工智能的訓練過程中,常常要用到第三方提供的數據集,這使得模型訓練過程中隱藏著數據投毒的風險 。攻擊者可以在數據中注入有毒數據引起后門,一旦后門被注入成功,攻擊者可以輕松操縱模型輸出,使得模型在干凈的輸入樣本的表現與正常的模型并無二樣,但是對于一些惡意的被“下毒”的輸入樣本,模型的輸出則會被攻擊者控制 。 模型安全風險:大模型內部運作的復雜性和難以解釋性,使其容易受到對抗攻擊、指令攻擊和模型竊取攻擊,從而導致模型性能下降、輸出誤導性信息,甚至被濫用。對抗攻擊:對抗樣本是指精心制作與正常樣本幾乎沒有差別的樣本,但模型會在其上面分類錯誤 。這種現象使得模型面臨潛在的對抗攻擊風險。例如,現有的毒性檢測器無法防御簡單的拼寫錯誤攻擊,導致給出錯誤的預測,將一句有毒的文本分類成無毒標簽 。
指令攻擊:攻擊者可以通過設計特定的指令,讓大模型產生不安全的輸出,例如要求大模型扮演邪惡角色發表不當言論,或者通過指令組合、疊加的方式讓大模型對原本的指令產生不安全回復等 。這種攻擊也被形象地稱為模型的“越獄”攻擊 。
模型竊取攻擊:許多閉源的生成式人工智能模型具有優越的表現和極高的經濟價值,例如 OpenAI 的 GPT-4,華為的盤古大模型,百度的文心大模型等 。這些模型的參數一旦泄露,將嚴重侵犯知識產權,并給相應企業和組織帶來巨大的經濟損失 。

硬件層面:硬件漏洞可能導致模型存儲介質受到威脅 。
軟件層面:軟件漏洞可能導致用戶數據和模型數據泄露或被篡改 。
框架層面:深度學習框架和底層依賴庫中的漏洞可能被攻擊者利用。例如,CVE-2023-25674 表示一個空指針錯誤,它可能導致生成式人工智能模型訓練期間的崩潰;CVE-2023-25671 涉及越界崩潰攻擊,CVE-2023-205667 涉及整數溢出問題 。
外部工具安全:第三方工具和插件可能被用于發起提示語注入攻擊,并有可能完成生成式人工智能系統平臺的越獄操作 。
操作系統層面:操作系統中的安全漏洞可能被側信道攻擊者利用,從而威脅大模型的安全 。
內容安全風險:隨著生成式人工智能系統的廣泛應用,大模型生成的內容可能存在毒性、偏見等問題,對網絡環境和社會秩序造成不良影響 。毒性內容風險:大模型生成的內容可能包含仇恨言論、攻擊性言論、褻瀆和威脅等有毒信息 。例如,在 LLaMA2 的預訓練語料庫中,根據毒性分類器,大約 0.2% 的文檔可以被識別為有毒內容 。
偏見內容風險:生成式人工智能可能存在歧視與偏見,這主要是由于其訓練數據和模型設計的特點所導致。例如,OpenAI 于 2021 年 3 月發表的一篇文章指出,GPT-4 模型有可能加強和再現特定的偏見和世界觀,其行為也可能加劇刻板印象或對某些群體造成貶低性的傷害 。谷歌公司的人工智能模型 Gemini 也被指無法正確生成白人歷史圖像,引起外界爭議 。
認知安全風險:生成式人工智能對于人類認知的影響不斷增強和延伸,大模型生成的內容可能對人類的認知和思維產生負面影響,例如提供虛假錯誤信息、展現侵略性觀點等 。虛假信息生成:AIGC 能夠逼真地模仿人類的語言表達和邏輯思維,使得通過 AIGC 生成的虛假新聞看起來就像真人寫的一樣,很難從語法結構和表達方式上進行辨別 。隨著生成式人工智能的發展,社交媒體和在線平臺上出現了越來越多由 AIGC 工具創建的虛假圖像和視頻,這些圖像和視頻極其逼真,難以辨認真偽,這給網絡安全和社會安定帶來了極大的威脅 。
意識形態風險:由于大模型具備個性化生產的特點,用戶在與之一對一的互動的過程中可能不知不覺地被灌輸特定的理念,這種隱蔽的意識形態滲透可能會潛移默化地影響人們的價值觀和世界觀 。此外,大模型的使用也可能加劇意識形態的分裂和對立,由大模型等人工智能工具生成的內容可能攜帶特定的文化傾向和價值觀,這些內容的傳播可能會加深不同群體之間的理解障礙和對立情緒 。
電信詐騙與身份盜竊:生成式人工智能技術的濫用加劇了詐騙犯罪。例如,基于生成式人工智能制作網絡釣魚電子郵件,或者利用人工智能生成的語音制造虛假的緊急情況,實施詐騙行為 。隨著深度偽造技術 Deepfake 的興起,社會面臨著日益加劇的風險,其中包括身份盜竊、詐騙等問題。通過 AI 換臉技術與語音克隆技術,詐騙者能夠欺騙受害者的視聽感知,讓其確認對方身份,進而放下警惕,最終導致被詐騙 。
倫理安全風險:大模型的發展和應用涉及一系列倫理問題,例如知識產權爭端、教育行業誠信危機和偏見誘發公平性問題等 。?
知識產權爭端與版權侵犯:AIGC 技術的迅猛發展掀起了眾多相關應用的熱潮,但是自 AIGC 問世以來,其是否受到版權法的保護一直是社會各界熱烈討論的問題 。2023 年,一張由大模型生成的 NFT 藝術作品《The First 5000 Days》在一家拍賣行以超過 60 萬美元的價格成交。然而,一家名為 Larva Labs 的公司聲稱,該作品在生成時使用了他們開源項目中的頭像,因此侵犯了他們的版權 。?
教育行業誠信危機:AIGC 技術可用于個性化教育,提高教育效率,但其在教育考評中的使用卻帶來了誠信問題 。學生使用 ChatGPT 這類人工智能完成課程作業變得越來越普遍,這不僅挑戰了傳統的教育評價體系,還可能對學生的學習態度和創新能力造成負面影響 。
偏見誘發公平性問題:大型模型在實際應用中可能會對不同群體產生不同的態度,從而導致公平性問題。例如,在招聘、貸款、法律和醫療等領域中,模型可能會基于種族、性別、地域或其他特征做出不公平的決策,進而加劇現實世界的不平等現象 。?
大模型安全防御體系:技術研究與進展面對大模型帶來的諸多安全風險,我們需要構建一套全面有效的安全防御體系,從內生、外生和衍生三個層面,采取相應的防御技術 。

內生安全防御技術:內生安全防御技術主要關注大模型系統自身的安全,包括數據安全、模型安全和系統安全 。? ? 數據安全防御技術:數據隱私保護技術:包括數據脫敏、數據匿名化和數據加密等,旨在保護訓練數據和對話過程中的交互數據安全 。? ? 大模型分布式訓練技術:例如聯邦學習和區塊鏈技術,可以在保護數據隱私的前提下,實現高效的模型訓練 。? ? 模型安全防御技術:大模型越獄防御技術:通過模型生成優化、系統提示優化和輸入輸出檢測等方法,遏制越獄攻擊 。? ? 提示語泄露防御技術:包括輸入檢測、輸入處理和輸出處理等,旨在保護模型對話中嵌入的提示語,防止其被泄露 。? ? 系統安全防御技術:硬件層面防御技術:例如漏洞修復、被動檢測和主動防范等,旨在保護模型存儲介質的安全 。? ? 軟件層面防御技術:包括用戶數據防范技術和模型數據防范技術,旨在保護用戶數據和模型數據免受威脅 。? ? 框架層面防御技術:通過挖掘和修復深度學習框架及相關底層依賴庫中的漏洞,保障框架安全 。? ? 操作系統層面防御技術:例如訪問控制和加密等,旨在防范操作系統層面的安全威脅 。? ? 網絡傳輸層面防御技術:包括端設備地址防范、傳輸路徑防范和網絡服務防范等,旨在保護網絡傳輸的安全 。?
外生安全防御技術:外生安全防御技術主要應對來自大模型外部的各種攻擊威脅,保護模型及數據的完整性、可用性和隱私性 。? ? 面向隱私安全攻擊的防御技術:例如對抗訓練、提示工程、正則化、Dropout、數據增強和差分隱私等,旨在保護用戶隱私數據和模型訓練數據不被泄露或濫用 。? ? 針對毒化數據的防御技術:包括數據溯源和對齊等,旨在識別和過濾掉惡意注入的毒化數據,防止模型被誤導或產生偏見 。? ? 面向惡意后門的防御技術:旨在檢測和清除模型中可能存在的惡意后門,確保模型在各種輸入下的行為符合預期 。? ? 針對提示注入攻擊的防御技術:旨在抵御攻擊者通過精心構造的提示語來操縱模型輸出的行為,增強模型對提示注入攻擊的魯棒性 。? ? 衍生安全防御技術:衍生安全防御技術主要關注大模型生成內容的濫用對社會產生的不良影響,例如偏見言論、版權侵犯和虛假信息等 。?
內容安全防御技術:
毒性內容過濾:旨在識別和過濾掉大模型生成的毒性內容,例如使用毒性分類器識別和移除訓練語料庫中的有毒文檔 。
偏見內容緩解:旨在減少大模型生成內容中的偏見,例如通過篩選和清洗訓練數據,以及在模型設計和算法選擇中引入減少偏見的機制 。
認知安全防御技術: 虛假信息檢測:旨在識別和檢測大模型生成的虛假信息,例如開發能夠辨別 AIGC 生成內容的工具 。? ? 意識形態風險防范:旨在減少大模型被用于傳播不良意識形態的風險,例如對大模型的輸出進行審核和過濾 。?
倫理安全防御技術: 知識產權保護:旨在解決 AIGC 生成作品的版權歸屬問題,明確 AI 生成作品是否侵犯版權以及版權歸誰所有 。? ? 教育誠信維護:旨在應對 AIGC 技術對教育評價體系帶來的挑戰,例如開發能夠準確識別 AIGC 生成內容的工具 。? ? 公平性保障:旨在減少大模型在實際應用中產生不公平決策的風險,例如在模型設計和應用過程中考慮不同群體的利益 。


