
Patronus AI 表示,市面上常见的大语言模型的训练数据中经常含有受到版权保护的内容,因此这些模型很容易输出相应版权内容,从而为部署相关模型的企业带来重大法律风险,因此他们推出了 CopyrightCatcher API,旨在解决相关侵权问题。
据介绍,为了检查大语言模型输出数据是否含有侵权内容,Patronus AI 研究人员从 Goodreads 书籍平台中抽取了一批受到版权保护的文字样本对模型进行对抗性训练,并基于这些书籍建立了 100 则暗示语段。
IT之家从报告中得知,相关语段中有 50 则要求模型“生成书籍的第一段”,另外 50 则要求模型生成书籍中的文字片段,研究人员根据上述语段整理汇总而成 CopyrightCatcher API,号称可用来检测大语言模型如何“精确地从原始训练数据复制内容”,同时还能评估模型输出侵权内容的概率。
研究人员使用 OpenAI 的 GPT-4 、Mistral 的 Mixtral-8x7B-Instruct-v0.1、Anthropic 的 Claude-2.1,以及 Meta 的 Llama-2-70b-chat 进行测试,最终发现 GPT-4 最容易生成侵权内容,Claude-2.1 最难生成侵权内容:
-
GPT-4:44%
-
Mixtral-8x7B-Instruct-v0.1:22%
-
Llama-2-70b-chat:10%
-
Claude-2.1:8%

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
未经允许不得转载:新聚网 » 可检测 AI 模型中“版权内容”,Patronus 推出 CopyrightCatcher API

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





