当前位置：新聚网 > 科技 > 智能之家 > 正文

让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

新聚网发布于 2024-04-19
分类：智能之家
阅读(81)

VASA-1 特别有趣的地方在于，它能够模拟自然的面部表情、各种情绪和唇部同步，最重要的是几乎没有人工痕迹，如果不细看很难发现。

研究人员承认，与所有其他模型一样，该模型目前还无法妥善处理头发等非刚性元素，但整体效果要比其它同类模型要更为优秀。

让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

研究人员还表示 VASA-1 支持离线 batch 处理模式下，以 45fps 生成分辨率为 512*512 的动态短视频，在线直播模式下可以达到 40 fps，且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。

IT之家附上参考地址

New VASA-1 model by Microsoft Research Asia
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

未经允许不得转载：新聚网 » 让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

作者：新聚网

相关推荐