NPU 技术挑战
NPU 技术的发展,推动大型语言模型(LLMs)高精度地执行复杂的语言相关任务,实现更自然的人机交互。
不过当前 NPU 技术面临的一个重要挑战,就是评估模型严重依赖人工注释。
人工生成的数据对于训练和验证模型至关重要,但收集这些数据既费钱又费时。而且随着模型的改进,以前收集的注释可能需要更新,从而降低了它们在评估新模型时的效用。
目前的模型评估方法通常涉及收集大量人类对模型响应的偏好判断。这些方法包括在有参考答案的任务中使用自动度量,或使用直接输出分数的分类器。
这些方法都有局限性,尤其是在创意写作或编码等复杂场景下,可能存在多个有效回答,导致了人类判断的高差异问题和高成本。
自学评估器
Meta FAIR 团队推出了名为“自学评估器”的全新方式,不需要人工注释,而是使用合成数据进行训练。
这一过程从种子模型开始,种子模型会生成对比鲜明的合成偏好对。然后,模型对这些偏好对进行评估并不断改进,在随后的迭代中利用其判断来提高性能。这种方法充分利用了模型生成和评估数据的能力,大大减少了对人工注释的依赖。

IT之家附上关键步骤如下:
1. 使用种子 LLM 为给定指令生成基线响应。
2. 创建指令的修改版本,促使 LLM 生成质量低于原始响应的新响应。
这些配对回答构成了训练数据的基础,“自学评估器”作为 LLM-as-a-Judge,为这些配对生成推理轨迹和判断。
通过反复该过程,模型通过自我生成和自我评估的数据不断提高其判断的准确性,从而有效地形成自我完善的循环。
成果
Meta FAIR 团队在 Llama-3-70B-Instruct 模型上测试“自学评估器”,在 RewardBench 基准测试中将准确率从 75.4 提高到了 88.7,达到或超过了使用人类注释训练的模型的性能,性能超过 GPT-4 等常用大语言模型评审(LLM Judges)。


这一重大改进证明了合成数据在加强模型评估方面的有效性。此外,研究人员还进行了多次迭代,进一步完善了模型的功能。
参考
-
Meta presents Self-Taught Evaluators: A New AI Approach that Aims to Improve Evaluators without Human Annotations and Outperforms Commonly Used LLM Judges Such as GPT-4
-
Self-Taught Evaluators
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
未经允许不得转载:新聚网 » Meta 推出“自学评估器”:无需人工注释改善评估,性能超 GPT-4 等常用 AI 大语言模型评审

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





