声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和谷歌内部的 HiddenMath 基准进行测试。

根据谷歌的数据，数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5 Pro 在 AIME 基准测试中解决的问题明显增多，在其他基准测试中的得分也有所提高。

谷歌官方分享的三个示例中，两个是由数学专用的 Gemini 1.5 Pro 解决的，而一个是由标准的 Gemini 1.5 Pro 变体错误解决的。这些问题通常要求解题者回忆代数中的基本数学公式，并依靠它们的分段和其他数学规则得出正确答案。IT之家附上相关截图如下：

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

除了问题之外，谷歌还分享了 Gemini 1.5 Pro 基准测试的重要细节。这些数据表明，在所有五项基准测试成绩中，Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。

谷歌表示数学衍生版 Gemini 1.5 Pro 单个样本 MATH 基准准确率为 80.6%，在对 256 个解决方案进行采样并选择一个候选答案时（rm@256），准确率达到 91.1%。

参考

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。