
OpenAI 首席技术官穆里・穆拉蒂 (Muri Murati) 表示,GPT-4o 将提供与 GPT-4 同等水平的智能,但在文本、图像以及语音处理方面均取得了进一步提升。
“GPT-4o 可以综合利用语音、文本和视觉信息进行推理,”穆拉蒂在 OpenAI 公司总部举行的主题演讲中表示。GPT-4 是 OpenAI 此前的旗舰模型,可以处理由图像和文本混合而成的信息,并能完成诸如从图像中提取文字或描述图像内容等任务,GPT-4o 则在此基础上新增了语音处理能力。
GPT-4o 的运行速度将大大提升,最大亮点在于其语音交互模式采用了新技术。OpenAI 一直致力于让用户通过语音与 ChatGPT 进行交流,仿佛与真人对话一般。然而,之前的版本由于延迟问题,严重影响了对话的沉浸感。GPT-4o 则采用了全新的技术,让聊天机器人对话的响应速度大幅提升。
IT之家注意到,发布会上 OpenAI 展示了使用 GPT-4o 进行语音对话的演示。演示者提问结束后,GPT-4o 几乎可以即时回应,并通过文本转语音功能进行朗读,让对话感觉更加自然逼真。
另一个演示展示了 GPT-4o 根据要求调整说话时语气,GPT-4o 可以根据指令改变声音,从夸张戏剧到冰冷机械,展现了出色的可塑性。最后,演示还展示了 GPT-4o 的唱歌功能。
以往,OpenAI 发布新版 ChatGPT 模型时,通常会将其置于付费墙之后。不过这次 GPT-4o 将免费提供给所有用户,付费用户则可以享受五倍的调用额度。
此外,OpenAI 还发布了桌面版的 ChatGPT 和新的用户界面。“我们认识到这些模型正变得越来越复杂,” 穆拉蒂说道,“但我们希望用户与人工智能模型的交互体验能够更加自然、轻松,让用户可以将注意力完全集中在与模型的协作上,而无需在意界面本身。”
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
未经允许不得转载:新聚网 » OpenAI 发布全新旗舰生成式 AI 模型 GPT-4o:语音对话更流畅,免费提供

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





