GPT-4 是继 GPT、GPT-2 和 GPT-3 之后,OpenAI 推出的最先进的系统,也是目前最大的多模态模型(可以接受图像和文本输入,输出文本)。其利用深度学习技术,使用人工神经网络来模仿人类的写作。
研究人员诺亚・辛恩(Noah Shinn)和阿什温・戈平纳特(Ashwin Gopinath)在论文中写道:“我们开发了一种新颖的技术,让 AI 代理能够模拟人类的自我反思,并评估自己的表现。GPT-4 在完成各种测试的时候,会增加一些额外的步骤,让它能够自己设计测试来检查自己的答案,找出错误和不足之处,然后根据发现来修改自己的解决方案。”


研究团队使用这种技术对 GPT-4 进行了几种不同的性能测试。在 HumanEval 测试中,GPT-4 需要解决 164 个从未见过的 Python 编程问题,原本准确率为 67%,使用反思技术后,准确率提升到了 88%。在 Alfworld 测试中,AI 需要在各种不同的交互环境中,通过执行一些允许的操作,来做出决策和解决多步任务。使用反思技术后,GPT-4 的准确率从 73% 提高到了 97%,只有 4 个任务失败。在 HotPotQA 测试中,GPT-4 可以访问维基百科,并回答 100 个需要从多个支持文档中解析内容和推理的问题,原本准确率为 34%,使用反思技术后,准确率提高到了 54%。
这项研究表明,AI 问题的解决方案有时候是依赖 AI 本身。IT之家发现,这有点像生成对抗网络,这是一种让两个 AI 互相提高技能的方法,比如一个 AI 试图生成一些看起来像真实图片的图片,另一个 AI 试图分辨哪些是假的,哪些是真的。但在这种情况下,GPT 既是写作者又是编辑,通过自我反思来改进自己的输出质量。
未经允许不得转载:新聚网 » GPT-4“自我反思”后能力大增,测试表现提升 30%

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





