当前位置：新聚网 > 科技 > 智能之家 > 正文

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

新聚网发布于 2024-08-13
分类：智能之家
阅读(74)

感谢IT之家网友我抢了台、風見暉一的线索投递！

作为一个大规模音频语言模型，Qwen2-Audio 能够接受各种音频信号输入，并根据语音指令执行音频分析或直接响应文本，有两种不同的音频交互模式：

语音聊天：用户可以自由地与 Qwen2-Audio 进行语音互动，而无需文本输入
音频分析：用户可以在互动过程中提供音频和文本指令对音频进行分析

官方在一系列基准数据集上进行了测试，Qwen2-Audio 超越了先前的最佳模型。

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

▲ Qwen2-Audio 整体表现

IT之家附相关链接如下：

试用链接：https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo
论文地址：https://arxiv.org/abs/2407.10759
评估标准：https://github.com/OFA-Sys/AIR-Bench
开源代码：https://github.com/QwenLM/Qwen2-Audio

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

未经允许不得转载：新聚网 » 阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

作者：新聚网

相关推荐