
据悉,Nightshade 工具是一种专从提示词入手的攻击手法,号称“手法相对目前‘在提示词中加入触发字’的后门攻击法更简单”,不需介入模型的训练及部署等过程。
Nightshade 工具的作用,主要是轻微修改图片内容,当这些被修改的图片内容成为 AI 模型训练数据后,整个 AI 模型就有可能被彻底破坏。黑客选择了 Stability AI 的 Stable Diffusion V2、SDXL 及 DeepFloyd 验证攻击效果。
测试显示,只需要少量“下毒样本”就扰乱 AI 模型的文生图模型。黑客使用不到 100 张经过修改的“狗的照片”,便污染了 SDXL 模型已经养成的“狗”概念,使该模型在接受外界输入“生成狗的图片”提示后,反而生成了猫的图片。

此外,Nightshade 攻击并非针对单一实体“概念”,虽然黑客仅仅用一些“狗的照片”试图破坏模型对于“狗”的概念,但整个模型的生图结果,都会被彻底破坏。

IT之家同时发现,黑客声称,经过 Nightshade 工具“下毒”的图片难以辨别,因为该工具主要影响训练数据集的“特征空间”。
Nightshade 是属于内容创作者及持有者的工具,是对待‘不尊重版权声明’、或‘故意绕过 do-not-scrape / crawl opt-out’的 AI 从业者的强大武器。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
未经允许不得转载:新聚网 » 可令 AI 模型“输入狗生成猫”,黑客展示为训练数据集“下毒”的 Nightshade 工具

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





