注册比特派 20 步内逃狱随性大模子!更多“奶奶谬误”全自动发现
发布日期:2023-12-30 14:43    点击次数:130

注册比特派 20 步内逃狱随性大模子!更多“奶奶谬误”全自动发现

1 分钟不到、20 步以内“逃狱”随性大模子,绕过安全放肆!

况兼无须知谈模子里面细节 ——

只需要两个黑盒模子互动,就能让 AI 全自动攻陷 AI,说出危急实践。

传闻也曾红极一时的“奶奶谬误”如故被劝诱了:

那么当今搬出“考核谬误”、“冒险家谬误”、“作者谬误”,AI 又该若何应付?

比特派网

一波猛攻下来,GPT-4 也遭不住,径直说出要给给水系统投毒独一…… 如此这般。

关节这仅仅宾夕法尼亚大学询查团队晒出的一小波谬误,而用上他们最新劝诱的算法,AI 不错自动生成各式袭击辅导。

询查东谈主员暗意,这种方法比较于现存的 GCG 等基于 token 的袭击方法,遵守擢升了 5 个量级。况兼生成的袭击可证明性强,谁齐能看懂,还能迁徙到其它模子。

无论是开源模子如故闭源模子,GPT-3.5、GPT-4、 Vicuna(Llama 2 变种)、PaLM-2 等,一个齐跑不掉。

得胜率可达 60-100%,拿下新 SOTA。

话说,这种对话款式粗略有些似曾雄厚。多年前的初代 AI,20 个问题之内就能破解东谈主类脑中想的是什么对象。

如今轮到 AI 来破解 AI 了。

刻下主流逃狱袭击方法有两类,一种是辅导级袭击,一般需要东谈主工筹办,况兼弗成延长;

另一种是基于 token 的袭击,有的需要超十万次对话,且需要看望模子里面,还包含“乱码”弗成证明。

△ 左辅导袭击,右 token 袭击

宾夕法尼亚大学询查团队提议了一种叫 PAIR(Prompt Automatic Iterative Refinement)的算法,不需要任何东谈主工参与,是一种全自动辅导袭击方法。

PAIR 波及四个主要规范:袭击生成、概念反应、逃狱评分和迭代细化;主要用到两个黑盒模子:袭击模子、概念模子。

具体来说,袭击模子需要自动生谚语义级别的辅导,来攻破概念模子的安全防地,迫使其生成无益实践。

中枢想路是让两个模子相互招架、你来我往地相似。

袭击模子会自动生成一个候选辅导,然后输入到概念模子中,取得概念模子的回话。

要是此次回话莫得得胜攻破概念模子,那么袭击模子会分析此次失败的原因,改良并生成一个新的辅导,再输入到概念模子中。

这么执续相似多轮,袭击模子每次凭证上一次的扫尾来迭代优化辅导,直到生成一个得胜的辅导将概念模子攻破。

此外,迭代流程还不错并行,也即是不错同期启动多个对话,从而产生多个候选逃狱辅导,进一步擢升了遵守。

询查东谈主员暗意,由于两个模子齐是黑盒模子,是以袭击者和概念对象不错用各式谈话模子解放组合。

PAIR 不需要知谈它们里面的具体结构和参数,只需要 API 即可,因此适用界限终点广。

实验阶段,询查东谈主员在无益看成数据集 AdvBench 中选出了一个具有代表性的、包含 50 个不同类型任务的测试集,在多种开源和闭源大谈话模子上测试了 PAIR 算法。

扫尾 PAIR 算法让 Vicuna 逃狱得胜率达到了 100%,平均不到 12 步就能攻破。

闭源模子中,GPT-3.5 和 GPT-4 逃狱得胜率在 60% 傍边,平均用了不到 20 步。在 PaLM-2 上得胜率达到 72%,步数约为 15 步。

然而 PAIR 在 Llama-2 和 Claude 上的成果较差,询查东谈主员觉得这可能是因为这些模子在安全可贵上作念了更为严格的微调。

他们还比较了不同概念模子的可更正性。扫尾骄傲,PAIR 的 GPT-4 辅导在 Vicuna 和 PaLM-2 上更正成果较好。

询查东谈主员觉得,PAIR 生成的语义袭击更能显现谈话模子固有的安全劣势,而现存的安全门径更侧重可贵基于 token 的袭击。

就比如劝诱出 GCG 算法的团队,将询查扫尾共享给 OpenAI、Anthropic 和 Google 等大模子厂商后,相干模子劝诱了 token 级袭击谬误。

大模子针对语义袭击的安全可贵机制还有待完善。

论文联接:https://arxiv.org/ abs / 2310.08419

参考联接:https://x.com/ llm_sec / status / 1718932383959752869?s=20

本文来自微信公众号:量子位 (ID:QbitAI),作者:西风

告白声明:文内含有的对外跳转联接(包括不限于超联接、二维码、口令等体式)注册比特派,用于传递更多信息,纯粹甄选技术,扫尾仅供参考,IT之家扫数著述均包含本声明。

  声明:新浪网独家稿件,未经授权辞让转载。 -->

热点资讯
相关资讯


Powered by 比特派安全 @2013-2022 RSS地图 HTML地图

Copyright 365建站 © 2013-2023 比特派 版权所有