IT之家在这里简要补充下背景知识:
-
提示词注入(prompt injection):将恶意或非预期内容添加到提示中,以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集;
-
提示词越狱(prompt jailbreaks):绕过安全和审查功能。
不过根据科技媒体 theregister 报道,这个防止 AI 提示词注入和越狱的模型,本身也存在漏洞,用户只需要通过空格键就能绕过 Meta 的 AI 安全系统。
企业人工智能应用安全商店 Robust Intelligence 的漏洞猎人阿曼・普里扬舒(Aman Priyanshu)分析 Meta 的 Prompt-Guard-86M 模型与微软的基础模型 microsoft / mdeberta-v3-base 之间的嵌入权重差异时,发现了这种安全绕过机制。
用户只需要在字母之间添加空格并省略标点符号,就可以要求 Meta 的 Prompt-Guard-86M 分类器模型“忽略之前的指令”。
Priyanshu 在周四提交给 Prompt-Guard repo 的 GitHub Issues 帖子中解释说:
绕过方法是在给定提示符中的所有英文字母字符之间插入按字符顺序排列的空格。这种简单的转换有效地使分类器无法检测到潜在的有害内容。

Robust Intelligence 首席技术官海勒姆・安德森(Hyrum Anderson)表示
无论你想问什么令人讨厌的问题,你所要做的就是去掉标点符号,在每个字母之间加上空格。
它的攻击成功率从不到 3% 到接近 100%。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
未经允许不得转载:新聚网 » 攻击成功率从 3% 到接近 100%,利用空格键可绕过 Meta AI 模型安全系统

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





