
谷歌表示相比较前代产品 Gemini 1.0 Ultra,1.5 新模型在多个方面都取得了长足进步,能够更高效、更长时间地处理信息。
Alphabet 与 Google 公司首席执行官孙达尔・皮柴(Sundar Pichai)表示:
我们上周推出了功能强大的 Gemini 1.0 Ultra 模型,并从 Gemini Advanced 开始,让谷歌产品在实用性上迈上新台阶。
开发者和云计算客户今天开始可以使用 1.0 Ultra 开始构建,在 AI Studio 和 Vertex AI 中使用我们的 Gemini API。
在推出 Gemini 1.5 的同时,谷歌继续将安全性和人工智能模型的快速发展放在首位。根据皮查伊的说法,Gemini 1.5 Pro 可达到与 1.0 Ultra 模型相当的质量,同时使用更少的计算能力,因此效率更高。
Gemini 1.5 Pro 可以处理 128000 个代币的标准情境窗口,但仅限特定开发人员和企业客户使用的版本可以处理多达 100 万个代币。
这意味着什么?谷歌表示:“1.5 Pro 可以一次性处理大量信息,包括 1 小时的视频、11 小时的音频、超过 3 万行代码的代码库或超过 70 万字的文字。在我们的研究中,我们还成功测试了多达 1000 万个标记。”

Gemini 1.5 Pro 正在检查阿波罗 11 号登月任务中长达 402 页的 PDF 文稿。谷歌甚至给出了一张靴子即将踏下的简短图画,它就能回答这是尼尔・阿姆斯特朗(Neil Armstrong)登月的相关信息。
下面是 Gemini 1.5 Pro 处理巴斯特-基顿(Buster Keaton)44 分钟无声电影(696,000 个代币)的情况,它能够分析情节点和其他事件以提及时间码,甚至还能回答多种模式的提示(例如提供一个简短的草图并询问场景是什么):
IT之家附上报告原文地址,感兴趣的用户可以深入阅读。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
未经允许不得转载:新聚网 » 谷歌 Gemini 1.5 炸场:能处理 1 小时视频、11 小时音频、3 万行代码、70 万文字

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





