感谢IT之家网友 航空先生 的线索投递!

Meta 在介绍 Voicebox 模型时表示,视障人士可以听到好友的回复信息、普通用户可以用自己的语调、语气来说外语。
AI 模型本身可以生成高质量的音频剪辑,消除汽车喇叭等不必要的背景噪音,同时保留音频的内容和风格,同时使用多种语言,以六种语言生成语音。该模型的未来发展包括在元宇宙游戏中为视觉助理或非玩家角色提供自然的声音。
Meta 还比较了 Voicebox 和 Vall-E、YourTTS 等其它音频 AI 模型,表明 Voicebox 更先进,在比较单词错误率和样式相似性时优于两种模型。


IT之家在此附上详细新闻稿链接,感兴趣的用户可以点击阅读。
未经允许不得转载:新聚网 » 普通人也能成为音频剪辑师,Meta 推出 AI 模型 Voicebox

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





