1 分钟不到、20 步以内“逃狱”随心大模子比特派登录,绕过安全控制!
况且不消知谈模子里面细节 ——
只需要两个黑盒模子互动,就能让 AI 全自动攻陷 AI,说出危急践诺。
别传也曾红极一时的“奶奶舛误”如故被诞生了:
那么当今搬出“调查舛误”、“冒险家舛误”、“作者舛误”,AI 又该如何搪塞?
一波猛攻下来,GPT-4 也遭不住,平直说出要给给水系统投毒惟有…… 如此这般。
要津这仅仅宾夕法尼亚大学计议团队晒出的一小波舛误,而用上他们最新开采的算法,AI 不错自动生成各式袭击教导。
计议东谈主员示意,这种方法比拟于现存的 GCG 等基于 token 的袭击方法,效能提升了 5 个量级。况且生成的袭击可线路注解性强,谁齐能看懂,还能迁徙到其它模子。
不论是开源模子照旧闭源模子,GPT-3.5、GPT-4、 Vicuna(Llama 2 变种)、PaLM-2 等,一个齐跑不掉。
收效能可达 60-100%,拿下新 SOTA。
话说,这种对话时势能够有些似曾清醒。多年前的初代 AI,20 个问题之内就能破解东谈主类脑中想的是什么对象。
如今轮到 AI 来破解 AI 了。
咫尺主流逃狱袭击方法有两类,一种是教导级袭击,一般需要东谈主工接洽,况且不能膨大;
另一种是基于 token 的袭击,有的需要超十万次对话,且需要拜谒模子里面,还包含“乱码”不能线路注解。
△ 左教导袭击,右 token 袭击
宾夕法尼亚大学计议团队提议了一种叫 PAIR(Prompt Automatic Iterative Refinement)的算法,不需要任何东谈主工参与,是一种全自动教导袭击方法。
PAIR 波及四个主要要领:袭击生成、方针反映、逃狱评分和迭代细化;主要用到两个黑盒模子:袭击模子、方针模子。
具体来说,袭击模子需要自动生谚语义级别的教导,来攻破方针模子的安全防地,迫使其生成无益践诺。
中枢想路是让两个模子互相叛逆、你来我往地疏通。
袭击模子会自动生成一个候选教导,然后输入到方针模子中,取得方针模子的回应。
要是此次回应莫得收效攻破方针模子,那么袭击模子会分析此次失败的原因,改造并生成一个新的教导,再输入到方针模子中。
这么抓续疏通多轮,袭击模子每次字据上一次的终结来迭代优化教导,直到生成一个收效的教导将方针模子攻破。
此外,迭代历程还不错并行,也即是不错同期开动多个对话,从而产生多个候选逃狱教导,进一步提升了效能。
计议东谈主员示意,由于两个模子齐是黑盒模子,是以袭击者和方针对象不错用各式话语模子目田组合。
PAIR 不需要知谈它们里面的具体结构和参数,只需要 API 即可,因此适用鸿沟特地广。
实验阶段,计议东谈主员在无益手脚数据集 AdvBench 中选出了一个具有代表性的、包含 50 个不同类型任务的测试集,在多种开源和闭源诳言语模子上测试了 PAIR 算法。
终结 PAIR 算法让 Vicuna 逃狱收效能达到了 100%,平均不到 12 步就能攻破。
闭源模子中,GPT-3.5 和 GPT-4 逃狱收效能在 60% 左右,平均用了不到 20 步。在 PaLM-2 上收效能达到 72%,步数约为 15 步。
然而 PAIR 在 Llama-2 和 Claude 上的后果较差,计议东谈主员合计这可能是因为这些模子在安全详确上作念了更为严格的微调。
他们还比较了不同方针模子的可改动性。终结娇傲,PAIR 的 GPT-4 教导在 Vicuna 和 PaLM-2 上改动后果较好。
计议东谈主员合计,PAIR 生成的语义袭击更能败露话语模子固有的安全时弊,而现存的安全步伐更侧重详确基于 token 的袭击。
就比如开采出 GCG 算法的团队,将计议终结共享给 OpenAI、Anthropic 和 Google 等大模子厂商后,相干模子诞生了 token 级袭击舛误。
大模子针对语义袭击的安全详确机制还有待完善。
论文连系:https://arxiv.org/ abs / 2310.08419
参考连系:https://x.com/ llm_sec / status / 1718932383959752869?s=20
本文来自微信公众号:量子位 (ID:QbitAI),作者:西风
告白声明:文内含有的对外跳转连系(包括不限于超连系、二维码、口令等神态)比特派登录,用于传递更多信息,省俭甄选时间,终结仅供参考,IT之家悉数著述均包含本声明。
声明:新浪网独家稿件,未经授权禁止转载。 -->