
GAIA-1 是一个可以利用不同类型的资料,包括影片、文字和动作,创建逼真驾驶场景影片的世界模型(World Model)。可对自动驾驶车辆的行为和场景特征进行细致的控制,且由于 GAIA-1 多模态的性质,能够从多种提示模式和组合中生成相关视频。

官方提到,GAIA-1 可对环境进行学习,从而提供结构性的环境理解,协助自动驾驶系统做出明智的决策。而“预测未来事件”是该模型的基本关键能力,而对未来的准确预测,可以让自动驾驶车辆预先知道即将发生的事件,从而规划对应的动作,增加汽车上路时的安全性和效率。
据悉,GAIA-1 会先运用专门的编码器,将影片或文字等各种形式的输入,编码成一个共享的表示形式,进而在模型中实现统一的时序对齐和上下文理解,这种编码方法,让模型能够更好地整合和理解不同类型的输入。

而 GAIA-1 的核心,是一个自回归 Transformer,能够预测序列中下一组图像 token,世界模型不只考虑过去的图像 token,还参照文字和动作 token 的上下文资讯,运用这个方法所生成的图像 token,不仅会在视觉上连贯,而且和预期的文字和动作指引保持一致。
在此之后,模型会启动视频解码器这个阶段被启动,主要功能是将这些图像 token 转换回像素空间,视频解码器作为一个扩散模型,其强大之处主要在于可保证生成的影片,具语义意义、视觉准确且时间序一致性。

IT之家从官网得知,GAIA-1 的世界模型经过 64 个英伟达 A100 GPU 上长达 15 天的训练,包含了高达 65 亿个参数,而视频解码器则在 32 个英伟达 A100 GPU 上训练了 15 天,总共拥有 26 亿个参数。
GAIA-1 的主要价值,是在自动驾驶中引入生成式世界模型的概念,透过整合影片、文本和动作输入,展示多模态学习在创建多样化驾驶情境的潜力,而且透过整合世界模型与驾驶模型,使驾驶模型能够更好地理解自己的决策,并且泛化至真实世界的情境中,进而提升自动驾驶系统的能力。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
未经允许不得转载:新聚网 » Wayve 展示 GAIA-1 自动驾驶世界模型,号称可预测事件“看见未来”

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





