
据悉,Voicebox AI 模型只需要一段 2 秒钟的音频样本,即可准确辨别出音频细节、音色,并基于文字结果转换为语音输出,支持英语、法语、德语、西班牙语。此外,Voicebox 还具备“基于语音片段前后内容来补齐中间缺失内容”的能力。


Meta 表示,Voicebox 可以为基于 AI 的虚拟助手或元宇宙中的 NPC 提供自然而真实的语音效果。而对于无障碍方面而言,Voicebox 也可以对声带受损的人群提供一定的协助作用。
IT之家经过查询得知,Voicebox AI 模型目前仍处于研发阶段。Meta 表示,他们意识到这种人工智能技术在虚假伪造方面,可能会带来潜在危害,因此 Meta 目前正在努力找到一种有效的方式来区分真实语音和由 Voicebox 生成的音频,在找到解决方案前,暂时不会向公众公开提供。目前可以在这里找到 Voicebox 模型的更多信息。
未经允许不得转载:新聚网 » Meta 发布 Voicebox AI 模型:可生成音频回复信息,用于 NPC 对话等

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





