隨著人工智能能力越來(lái)越強(qiáng),甚至達(dá)到接近人類智能的水平,AI系統(tǒng)在網(wǎng)絡(luò)安全方面帶來(lái)的問(wèn)題也越來(lái)越多,引發(fā)了人們對(duì)AI系統(tǒng)網(wǎng)絡(luò)安全的廣泛關(guān)注和思考。而現(xiàn)階段要確保AI系統(tǒng)的網(wǎng)絡(luò)安全面臨著巨大的挑戰(zhàn),若不引起足夠重視,人工智能未來(lái)可能帶來(lái)更多網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。

數(shù)據(jù)安全風(fēng)險(xiǎn)
數(shù)據(jù)投毒
數(shù)據(jù)投毒是指惡意行為者在模型訓(xùn)練階段集中注入惡意或經(jīng)過(guò)精心設(shè)計(jì)的數(shù)據(jù)樣本,使模型在訓(xùn)練后產(chǎn)生特定的錯(cuò)誤行為或后門,導(dǎo)致模型在正常輸入下表現(xiàn)正常,但在遇到特定觸發(fā)條件時(shí)產(chǎn)生預(yù)期之外的行為。數(shù)據(jù)投毒產(chǎn)生的原因是海量和多源的數(shù)據(jù)增加了數(shù)據(jù)審核的難度,而模型的黑箱特性進(jìn)一步加大了檢測(cè)投毒的復(fù)雜性。同時(shí),惡意行為者的利益驅(qū)動(dòng)和部分開(kāi)發(fā)者對(duì)數(shù)據(jù)安全意識(shí)的不足,也為此類威脅提供了可乘之機(jī)。數(shù)據(jù)投毒對(duì)模型構(gòu)成了嚴(yán)重的安全風(fēng)險(xiǎn),例如在醫(yī)療診斷、金融交易和自動(dòng)駕駛等應(yīng)用中,可能導(dǎo)致嚴(yán)重的安全事故或經(jīng)濟(jì)損失。此外,一旦發(fā)現(xiàn)模型被投毒,可能需要耗費(fèi)大量資源重新收集數(shù)據(jù)和訓(xùn)練模型,影響模型提供方的開(kāi)發(fā)效率和信任度。
數(shù)據(jù)泄露
數(shù)據(jù)泄露是模型相關(guān)的敏感信息被未授權(quán)訪問(wèn)、使用或泄露。具體包括通過(guò)模型反向工程泄露訓(xùn)練數(shù)據(jù),模型錯(cuò)誤輸出暴露個(gè)人身份等敏感信息,模型本身的結(jié)構(gòu)和參數(shù)被竊取或?yàn)E用。造成數(shù)據(jù)泄露的根本原因是模型具有強(qiáng)大的特征提取和記憶能力,數(shù)據(jù)泄露可能導(dǎo)致個(gè)人隱私被侵犯、身份信息被盜用,以及商業(yè)機(jī)密的泄露。例如在醫(yī)療和金融等敏感領(lǐng)域,這種風(fēng)險(xiǎn)可能造成嚴(yán)重的法律問(wèn)題。
模型安全風(fēng)險(xiǎn)
對(duì)抗樣本
對(duì)抗樣本對(duì)模型的安全應(yīng)用構(gòu)成了嚴(yán)重威脅,其影響范圍涵蓋了多模態(tài)領(lǐng)域,包括視覺(jué)、聽(tīng)覺(jué)和文本處理系統(tǒng)。在視覺(jué)領(lǐng)域,自動(dòng)駕駛車輛可能誤讀被篡改的交通標(biāo)志,安檢系統(tǒng)可能忽視經(jīng)過(guò)精心處理的危險(xiǎn)物品圖像。聽(tīng)覺(jué)方面,語(yǔ)音助手可能被隱藏在背景音中的對(duì)抗指令操縱。人臉識(shí)別和生物特征識(shí)別系統(tǒng)面臨被精心設(shè)計(jì)的圖像或視頻欺騙的風(fēng)險(xiǎn)。在生成式人工智能時(shí)代,多模態(tài)對(duì)抗樣本可能導(dǎo)致大模型輸出惡意行為者可控的有害內(nèi)容。例如,經(jīng)過(guò)處理的圖像輸入可能引導(dǎo)模型生成包含違法或危險(xiǎn)行為指導(dǎo)的文本描述。視頻生成模型可能被操縱制作令人不安或具有誤導(dǎo)性的深度偽造內(nèi)容。音頻生成系統(tǒng)可能被誘導(dǎo)創(chuàng)建虛假的語(yǔ)音消息或模仿特定人物的聲音。多模態(tài)對(duì)抗樣本產(chǎn)生的內(nèi)容如果廣泛傳播,會(huì)造成信息混亂,特別是在跨模態(tài)內(nèi)容理解和生成方面,對(duì)抗樣本的威脅更加隱蔽和難以檢測(cè),為濫用和欺詐行為提供了新的途徑。這種多維度的安全風(fēng)險(xiǎn),突顯了在人工智能發(fā)展中加強(qiáng)多模態(tài)對(duì)抗樣本防御的緊迫性和重要性。
提示詞注入風(fēng)險(xiǎn)
提示詞注入的主要原因?yàn)榇竽P蛯?duì)指令的高度敏感性和靈活性。盡管大模型在語(yǔ)義理解方面表現(xiàn)出色,可以適應(yīng)廣泛的輸入和指令,但這種靈活性可能被惡意利用。惡意行為者可以巧妙構(gòu)造提示詞,通過(guò)利用大模型對(duì)上下文的敏感性和對(duì)指令的忠實(shí)執(zhí)行特性,來(lái)操縱大模型的行為。此外,模型在處理復(fù)雜、多層次或潛在矛盾的指令時(shí)可能存在挑戰(zhàn),這為惡意行為者提供了可利用的空間。雖然模型具有強(qiáng)大的語(yǔ)義理解能力,但在區(qū)分正常請(qǐng)求和惡意指令方面仍面臨困難,特別是當(dāng)這些指令巧妙地融入正常文本中的時(shí)候,惡意行為者可以巧妙構(gòu)造惡意文本來(lái)操縱大模型的行為。
應(yīng)用安全風(fēng)險(xiǎn)
智能體安全風(fēng)險(xiǎn)
大模型智能體的安全風(fēng)險(xiǎn)是指通過(guò)提示詞注入或?qū)箻颖镜姆绞剑尨竽P鸵?guī)劃出惡意的任務(wù)序列,或生成并執(zhí)行惡意的指令。這類風(fēng)險(xiǎn)產(chǎn)生的主要原因?yàn)榇竽P蜔o(wú)法區(qū)分輸入prompt中的數(shù)據(jù)和指令,例如命令大模型閱讀網(wǎng)頁(yè)的評(píng)論并進(jìn)行總結(jié),這種場(chǎng)景下網(wǎng)頁(yè)評(píng)論是數(shù)據(jù),但如果評(píng)論中含有惡意的prompt指令,如發(fā)送照片到某個(gè)郵箱,則大模型在處理這個(gè)評(píng)論時(shí),可能會(huì)規(guī)劃出惡意的任務(wù)并執(zhí)行。
大模型智能體的安全風(fēng)險(xiǎn)可能導(dǎo)致嚴(yán)重的危害,例如造成實(shí)際的資金損失,泄露重要的個(gè)人數(shù)據(jù)等。大模型智能體往往具備訪問(wèn)或操作系統(tǒng)的敏感權(quán)限,會(huì)進(jìn)一步加劇傳統(tǒng)網(wǎng)絡(luò)安全的風(fēng)險(xiǎn),例如智能體可被誘導(dǎo)訪問(wèn)掛馬網(wǎng)站,然后惡意行為者通過(guò)瀏覽器漏洞入侵手機(jī)或PC。
應(yīng)用框架安全風(fēng)險(xiǎn)
AI應(yīng)用框架是AI系統(tǒng)重要的組成部分,AI應(yīng)用框架存在網(wǎng)絡(luò)安全漏洞可導(dǎo)致AI系統(tǒng)被惡意行為者控制。這類問(wèn)題的原因是模型的輸入輸出往往需要插件和工具進(jìn)行輔助處理。例如AI系統(tǒng)在處理數(shù)學(xué)運(yùn)算請(qǐng)求時(shí),會(huì)調(diào)用并執(zhí)行AI應(yīng)用框架的科學(xué)計(jì)算工具獲得精確結(jié)果。如果相關(guān)插件和工具存在命令注入漏洞或權(quán)限配置不當(dāng),就會(huì)導(dǎo)致攻擊者執(zhí)行惡意代碼。針對(duì)AI應(yīng)用框架的惡意行為可能導(dǎo)致嚴(yán)重的后果,惡意行為者通過(guò)注入并執(zhí)行惡意代碼可以完全控制AI系統(tǒng),造成模型文件等敏感信息泄露、盜取用戶資產(chǎn)、傳播惡意軟件或AI系統(tǒng)拒絕服務(wù)等風(fēng)險(xiǎn)
算力底座安全風(fēng)險(xiǎn)
硬件層安全風(fēng)險(xiǎn)
利用側(cè)信道技術(shù),從硬件環(huán)境,包括CPU、GPU/NPU、DPU,乃至通信的PCIE硬件,竊取關(guān)鍵模型信息。基于側(cè)信道的模型竊取主要是在模型部署運(yùn)行過(guò)程中通過(guò)操作系統(tǒng)或硬件等額外信息推斷目標(biāo)模型的機(jī)密屬性,因此側(cè)信道威脅的主要風(fēng)險(xiǎn)是模型屬性推斷,而一般惡意破壞者最有興趣的模型屬性就是目標(biāo)模型架構(gòu)信息。基于側(cè)信道的模型竊取風(fēng)險(xiǎn)包括Cache側(cè)信道、能耗側(cè)信道、時(shí)間側(cè)信道、PCIE側(cè)信道和GPU側(cè)信道等。操作系統(tǒng)層安全風(fēng)險(xiǎn)如同其他類似的軟件系統(tǒng)一樣,AI系統(tǒng)運(yùn)行也依賴于底層的操作系統(tǒng)、驅(qū)動(dòng)等系統(tǒng)軟件的支持。很多應(yīng)用層軟件不保護(hù)其模型,即使對(duì)于那些保護(hù)和加密模型的應(yīng)用程序,惡意行為者能夠通過(guò)簡(jiǎn)單的動(dòng)態(tài)分析技術(shù)從應(yīng)用層中提取模型。因此,當(dāng)權(quán)限配置不當(dāng),或惡意破壞者利用漏洞等技術(shù)獲取到較高的系統(tǒng)權(quán)限后,即可竊取許多商業(yè)產(chǎn)品中的模型,包括用于人臉識(shí)別、活體檢測(cè)、身份證/銀行卡識(shí)別和惡意軟件檢測(cè)等場(chǎng)景模塊。在AI計(jì)算環(huán)境中,普遍采用GPU/NPU加速模型(訓(xùn)練/推理)運(yùn)算。因此,惡意行為者也可利用特定GPU驅(qū)動(dòng)中潛在的漏洞,從而實(shí)現(xiàn)代碼執(zhí)行、權(quán)限提升、模型竊取和數(shù)據(jù)篡改等惡意行為。
第三方件安全風(fēng)險(xiǎn)
當(dāng)前AI領(lǐng)域已經(jīng)演化成為了復(fù)雜的生態(tài),AI計(jì)算環(huán)境中往往包含著大量不同的軟件組件,從而有可能成為潛在的威脅面。例如,AI系統(tǒng)中存在著大量的開(kāi)源、第三方組件。惡意行為者完全可以通過(guò)找到組件的0day或未及時(shí)修補(bǔ)的漏洞,實(shí)現(xiàn)代碼執(zhí)行、模型竊取等惡意行為。此外,當(dāng)前AI計(jì)算生態(tài)中普遍采用docker等容器技術(shù)來(lái)簡(jiǎn)化訓(xùn)練、部署、推理的流程,并利用KubeFlow框架將機(jī)器學(xué)習(xí)任務(wù)部署到Kubernetes集群中。而Docker卻長(zhǎng)期面臨著文件系統(tǒng)隔離、進(jìn)程與通信隔離、設(shè)備管理與主機(jī)資源限制、網(wǎng)絡(luò)隔離和鏡像傳輸?shù)确矫娴陌踩{,稍有配置不當(dāng),就會(huì)導(dǎo)致容器逃逸、權(quán)限濫用等惡意行為,直接威脅到AI的關(guān)鍵模型與訓(xùn)練數(shù)據(jù)。
隨著生成式人工智能(AIGC)的發(fā)展,AI逐漸變?yōu)槌掷m(xù)運(yùn)營(yíng)的在線服務(wù)。上述的數(shù)據(jù)、模型、AI應(yīng)用和算力底座面臨的網(wǎng)絡(luò)安全風(fēng)險(xiǎn),將不僅僅局限于開(kāi)發(fā)、部署階段,而是長(zhǎng)期存在于AI系統(tǒng)的運(yùn)營(yíng)階段,面臨著惡意行為方法持續(xù)演進(jìn)、快速迭代和動(dòng)態(tài)攻防的嚴(yán)峻挑戰(zhàn)。
人工智能網(wǎng)絡(luò)安全治理實(shí)踐
網(wǎng)絡(luò)安全風(fēng)險(xiǎn)管理考慮的因素和方法適用于AI系統(tǒng)的設(shè)計(jì)、開(kāi)發(fā)、部署、評(píng)估和使用。網(wǎng)絡(luò)安全和隱私保護(hù)風(fēng)險(xiǎn)也被視為更廣泛的企業(yè)風(fēng)險(xiǎn)管理考慮因素的一部分,其中包含AI風(fēng)險(xiǎn)。

網(wǎng)絡(luò)安全與隱私保護(hù)治理整體原則和職責(zé)
人工智能網(wǎng)絡(luò)安全與隱私保護(hù)治理由成熟的網(wǎng)絡(luò)安全與隱私保護(hù)組織體系負(fù)責(zé),主要治理原則是:
安全為本:將支撐與保障客戶和自運(yùn)營(yíng)業(yè)務(wù)的網(wǎng)絡(luò)安全與隱私保護(hù)作為業(yè)務(wù)的基本要求來(lái)對(duì)待,并保證網(wǎng)絡(luò)安全與隱私保護(hù)需求得到充分的資源投入。
合法合規(guī):遵守國(guó)家法律法規(guī)和行業(yè)標(biāo)準(zhǔn)要求,確保AI業(yè)務(wù)的合法合規(guī)運(yùn)行。
融入業(yè)務(wù):網(wǎng)絡(luò)安全與隱私保護(hù)保障活動(dòng)需要融入到各相關(guān)業(yè)務(wù)的政策、流程、規(guī)范、基線中,使之成為業(yè)務(wù)的基因,為客戶提供安全可信的產(chǎn)品、解決方案和服務(wù),保障業(yè)務(wù)成功。
主管擔(dān)責(zé):各級(jí)業(yè)務(wù)主管是所轄業(yè)務(wù)網(wǎng)絡(luò)安全與隱私保護(hù)的第一責(zé)任人,各級(jí)流程責(zé)任人是所轄流程網(wǎng)絡(luò)安全與隱私保護(hù)的第一責(zé)任人。
全員參與:所有員工具備網(wǎng)絡(luò)安全與隱私保護(hù)意識(shí)和能力,在自身業(yè)務(wù)中落實(shí)網(wǎng)絡(luò)安全與隱私保護(hù)基本要求。每個(gè)員工都要對(duì)自己所做的事情和產(chǎn)生的結(jié)果負(fù)責(zé),不僅要對(duì)技術(shù)負(fù)責(zé),也要承擔(dān)法律責(zé)任。
獨(dú)立驗(yàn)證:信任應(yīng)基于事實(shí),事實(shí)必須可驗(yàn)證,而驗(yàn)證必須基于共同標(biāo)準(zhǔn)。在此基礎(chǔ)上,基于“不假定任何事情,不相信任何人,檢驗(yàn)所有應(yīng)檢查的事項(xiàng)”理念,分層進(jìn)行獨(dú)立評(píng)估與驗(yàn)證。
開(kāi)放合作:秉承開(kāi)放透明的態(tài)度,真誠(chéng)地與客戶、供應(yīng)商、合作伙伴、行業(yè)組織等利益相關(guān)方積極開(kāi)展網(wǎng)絡(luò)安全與隱私保護(hù)溝通與合作,責(zé)任共擔(dān)、能力共建、價(jià)值共享,共同應(yīng)對(duì)網(wǎng)絡(luò)安全與隱私保護(hù)威脅與挑戰(zhàn)。
持續(xù)優(yōu)化:網(wǎng)絡(luò)安全與隱私保護(hù)是一個(gè)持續(xù)的風(fēng)險(xiǎn)管理和能力建設(shè)過(guò)程,不存在絕對(duì)的安全,也不存在一勞永逸的方案,需要適時(shí)審視不足,持續(xù)改進(jìn)網(wǎng)絡(luò)安全與隱私保護(hù)管理和技術(shù)措施的適宜性、充分性和有效性。
網(wǎng)絡(luò)安全與隱私保護(hù)組織體系工作職責(zé)
合規(guī)與風(fēng)險(xiǎn)管控:建設(shè)完善的網(wǎng)絡(luò)安全與隱私保護(hù)合規(guī)體系,明晰合規(guī)責(zé)任,遵從所有適用的網(wǎng)絡(luò)安全與隱私保護(hù)法律法規(guī),一國(guó)一策,構(gòu)建合規(guī)快速響應(yīng)能力,風(fēng)險(xiǎn)受控不蔓延。
產(chǎn)品安全隱私保障:沿著E2E流程構(gòu)筑產(chǎn)品安全可信,產(chǎn)品安全責(zé)任界面清晰,客戶公平無(wú)歧視。
安全運(yùn)營(yíng):基于“責(zé)任清晰、業(yè)務(wù)當(dāng)責(zé)”和“分類管理、分級(jí)防護(hù)”的原則持續(xù)完善運(yùn)營(yíng)類業(yè)務(wù)的管理制度和流程,提升網(wǎng)絡(luò)安全運(yùn)維運(yùn)營(yíng)能力,強(qiáng)化落實(shí)執(zhí)行、業(yè)務(wù)自查、內(nèi)部獨(dú)立監(jiān)督檢查,保障業(yè)務(wù)守法合規(guī)、安全運(yùn)營(yíng)。
溝通與信任構(gòu)筑:“聚焦、務(wù)實(shí)、靈活有效”,通過(guò)溝通構(gòu)筑信任,通過(guò)建立完善有效的溝通機(jī)制,獲取利益相關(guān)方的信任,支撐業(yè)務(wù)開(kāi)展。
在網(wǎng)絡(luò)安全與隱私保護(hù)整體基調(diào)之下,遵循網(wǎng)絡(luò)安全與隱私保護(hù)8大治理原則,落實(shí)網(wǎng)絡(luò)安全與隱私保護(hù)的4大工作職責(zé)。結(jié)合業(yè)界標(biāo)準(zhǔn)和公司既有實(shí)踐,采用治理加上嵌入式管理的工作方法,以實(shí)現(xiàn)AI網(wǎng)絡(luò)安全風(fēng)險(xiǎn)管控和合規(guī)合法的目標(biāo),構(gòu)建人工智能網(wǎng)絡(luò)安全治理的架構(gòu)。
合法合規(guī)
伴隨著AI技術(shù)的發(fā)展和爆發(fā)式的廣泛應(yīng)用,對(duì)AI的監(jiān)管要求也逐步地完善起來(lái),全球各地逐步發(fā)布了AI相關(guān)的法案。基于法律要求,作為戰(zhàn)略性框架和基線以保證網(wǎng)絡(luò)安全合規(guī)要求被融入到端到端的業(yè)務(wù)實(shí)踐以及產(chǎn)品生命周期管理中,從產(chǎn)品開(kāi)發(fā)一直到服務(wù)交付和支持服務(wù)。確保AI系統(tǒng)遵從適用的國(guó)家和地區(qū)網(wǎng)絡(luò)安全法規(guī)。理管理在治理管理上達(dá)到明確責(zé)任管控風(fēng)險(xiǎn)目標(biāo),通過(guò)深入的AI業(yè)務(wù)風(fēng)險(xiǎn)評(píng)估和分析,預(yù)防和減少AI業(yè)務(wù)中可能出現(xiàn)的網(wǎng)絡(luò)安全和隱私保護(hù)問(wèn)題,確定各方責(zé)任邊界,并不斷度量、驗(yàn)證和評(píng)估結(jié)果達(dá)成情況,同時(shí)基于AI業(yè)務(wù)主要場(chǎng)景進(jìn)行應(yīng)急危機(jī)演練,促進(jìn)AI網(wǎng)絡(luò)安全治理水平的持續(xù)提升。
流程融入
參考國(guó)際法規(guī)、標(biāo)準(zhǔn)和優(yōu)秀實(shí)踐,在研發(fā)、營(yíng)銷、服務(wù)、供應(yīng)、采購(gòu)和制造等流程中逐步融入并持續(xù)優(yōu)化AI網(wǎng)絡(luò)安全治理要求,端到端全流程管控AI風(fēng)險(xiǎn),最終達(dá)成AI系統(tǒng)的質(zhì)量目標(biāo)。
以研發(fā)IPD流程為例,在產(chǎn)品開(kāi)發(fā)的“產(chǎn)品管理”階段輸出“產(chǎn)品AI治理要求定義”中明確網(wǎng)絡(luò)安全與隱私保護(hù)要求,開(kāi)展AI場(chǎng)景及應(yīng)用風(fēng)險(xiǎn)分析,識(shí)別AI風(fēng)險(xiǎn),規(guī)劃消減需求,在其后系統(tǒng)設(shè)計(jì)、資料、集成驗(yàn)證、營(yíng)銷等環(huán)節(jié)落地風(fēng)險(xiǎn)消減需求和舉措,實(shí)現(xiàn)風(fēng)險(xiǎn)消減。AI模型開(kāi)發(fā)流程定義了從數(shù)據(jù)收集、入庫(kù)、存儲(chǔ)、訓(xùn)練、應(yīng)用等數(shù)據(jù)生命周期規(guī)范和追溯要求,為AI數(shù)據(jù)真實(shí)、可追溯定義了執(zhí)行標(biāo)準(zhǔn),使AI開(kāi)發(fā)過(guò)程有指導(dǎo),過(guò)程可控。建立AI數(shù)據(jù)集和模型的元數(shù)據(jù)標(biāo)準(zhǔn),基于產(chǎn)業(yè)特點(diǎn)進(jìn)行適配優(yōu)化并統(tǒng)一AI開(kāi)發(fā)、構(gòu)建工具鏈,實(shí)現(xiàn)AI作業(yè)過(guò)程全在線,構(gòu)建從原始數(shù)據(jù)、數(shù)據(jù)集、模型和軟件E2E可追溯能力,支持?jǐn)?shù)據(jù)集可管控、模型可追溯。達(dá)成AI產(chǎn)品的開(kāi)發(fā)全流程有指導(dǎo),網(wǎng)絡(luò)安全風(fēng)險(xiǎn)可控,AI產(chǎn)品發(fā)布時(shí)可銷售、可交付、可運(yùn)維。
工程能力
制定涵蓋AI安全的工程能力建設(shè)框架,持續(xù)構(gòu)建網(wǎng)絡(luò)安全工程能力,覆蓋全棧安全防護(hù)技術(shù),以軟件安全工程能力為基石,重點(diǎn)推進(jìn)數(shù)據(jù)安全工程能力和模型安全工程能力。數(shù)據(jù)安全工程能力包括但不限于數(shù)據(jù)的收集、存儲(chǔ)、處理和傳輸?shù)雀鱾€(gè)環(huán)節(jié)的安全防護(hù)措施,如采用先進(jìn)的數(shù)據(jù)加密技術(shù)、訪問(wèn)控制機(jī)制和數(shù)據(jù)脫敏處理,以防止數(shù)據(jù)泄露、篡改和濫用,確保數(shù)據(jù)的完整性和機(jī)密性等。模型安全工程能力包含模型安全評(píng)估、對(duì)抗性攻擊防御和模型加固等,提高AI模型的魯棒性和抗攻擊能力。
AI系統(tǒng)安全運(yùn)營(yíng)和運(yùn)維
在AI系統(tǒng)運(yùn)營(yíng)和運(yùn)維階段,重點(diǎn)保護(hù)大模型系統(tǒng)所涉及的訓(xùn)練數(shù)據(jù)、模型、生成內(nèi)容的全生命周期安全,構(gòu)建大模型惡意行為態(tài)勢(shì)感知系統(tǒng),提升攔截能力,對(duì)現(xiàn)網(wǎng)系統(tǒng)進(jìn)行統(tǒng)一運(yùn)營(yíng)。
1. 構(gòu)建在線檢測(cè)能力庫(kù)
聚焦高危惡意行為模式的檢測(cè)方案,構(gòu)建prompt攻擊模式檢測(cè)、惡意意圖檢測(cè)、惡意行為規(guī)則等實(shí)時(shí)檢測(cè)能力,建立目標(biāo)劫持、對(duì)抗Tokens反向誘導(dǎo)等prompt攻擊模式庫(kù),構(gòu)建內(nèi)容不合規(guī)、侵犯?jìng)€(gè)人隱私肖像等惡意意圖模式庫(kù)。
2. 離線檢測(cè)能力庫(kù)
構(gòu)建集成多種檢測(cè)方案(規(guī)則、分類模型、LLM檢測(cè)能力)的離線檢測(cè)系統(tǒng)。
3. 惡意行為檢測(cè)(用AI保護(hù)AI)
在硬件基礎(chǔ)上建立攻擊檢測(cè)引擎,可在離線和在線態(tài)下進(jìn)行惡意行為檢測(cè),該引擎利用基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的特征檢測(cè)模型,對(duì)推理請(qǐng)求進(jìn)行特征提取和攻擊模式匹配,同時(shí)提供物理對(duì)抗樣本和大模型提示注入等AI攻擊感知能力。
4. 可信審計(jì)
在算力運(yùn)行環(huán)境中,通過(guò)基于密碼學(xué)中的Merkle樹(shù)機(jī)制將完整性證據(jù)保存到硬件安全的區(qū)域,構(gòu)建了AI系統(tǒng)日志可信審計(jì)的基礎(chǔ),確保惡意行為者和惡意的運(yùn)維人員篡改日志文件的記錄后,能夠高效檢測(cè)到日志完整性遭破壞,及時(shí)預(yù)警。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)