英国 AI 安全研究所轻松越狱主要大语言模型，令其输出有害内容

报告指出，参与测试的四个大语言模型（IT之家注：报告未提到这些模型的具体名称）“极易受到基本越狱攻击”的影响，更有一些模型在被越狱之前，就主动生成了“有害”内容。

图源 Pexels

当前，大部分公开可用的语言模型都内置了部分保护措施，从而防止其生成有害或非法的内容回应。而“越狱”就意味着通过技术手段“欺骗”模型，来忽略上述措施。

英国 AI 安全研究所使用了近期经过标准化评估的提示词、内部自行开发的提示词进行测试，结果显示：在没有尝试越狱的情况下，所有模型都对至少一些有害问题作出了回应；而在尝试了“相对简单的攻击”之后，所有模型都对 98% 至 100% 的有害问题作出了回应。

报告指出，当前市面上的大语言模型所采取的安全措施仍显不足，后续将计划对其他模型进行进一步测试。

参考

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。