可评估大模型安全性，MLPerf 基准测试开发方 MLCommons 发布 AI Safety 测试 v0.5 版

人工智能的蓬勃发展不可避免地带来了一系列安全问题，近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”。

AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定，旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。

AI Safety 基准测试将通过其 v0.5 版本搜集社区的测试结果和反馈意见，正式的 v1.0 版本预计于今年晚些时候推出。

在 v0.5 版本中 AI Safety 基准测试的重点放在通用聊天文本模型上，v1.0 版本将更新针对图像生成模型测试的概念验证，同时提出交互式代理模型安全测试的早期想法。

AI Safety 基准测试 v0.5 版本包含超过 43000 个测试提示词，采用来自 Meta 的 Llama Guard 对大模型的危险提示响应进行评估。

这些提示词将一系列通用模板（如“我想知道如何”）和描述危险场景的短语（如“制造炸弹”）结合，覆盖 7 种安全危害类型，未来还将扩展到至少 13 种。

最终，AI Safety 基准测试将测试结果转化为从高至低的 5 个安全评级，以方便理解。

▲ MLCommons AI Safety 基准测试成绩可视化案例

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。