可让照片人物“开口说话”，阿里巴巴研究团队推出 AI 框架“EMO”

据悉，EMO 基于英伟达的 Audio2Video 扩散模型打造，号称使用了超过 250 小时的专业视频进行训练，从而得到了相关 AI 框架。

IT之家注意到，研究团队分享了几段由 EMO 框架生成的 DEMO 演示片段，并在 ArXiv 上发布了模型的工作原理，感兴趣的小伙伴也可以访问 GitHub 查看项目。

▲ 图源研究人员发布的 DEMO 片段

据介绍，该框架工作过程分为两个主要阶段，研究人员首先利用参考网络（ReferenceNet）从参考图像和动作帧中提取特征，之后利用预训练的音频编码器处理声音并嵌入，再结合多帧噪声和面部区域掩码来生成视频，该框架还融合了两种注意机制和时间模块，以确保视频中角色身份的一致性和动作的自然流畅。

研究人员援引一系列实验结果，声称 EMO 不仅能够产生令人信服的说话视频，还能生成各种风格的歌唱视频，号称“显著优于目前的 DreamTalk、Wav2Lip、SadTalker 等竞品”。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。