感谢IT之家网友 killgfat 的线索投递!

IT之家附上 Qwen 2.0 主要内容如下:
-
5 个尺寸的预训练和指令微调模型,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B
-
在中文英语的基础上,训练数据中增加了 27 种语言相关的高质量数据;
-
多个评测基准上的领先表现;
-
代码和数学能力显著提升;
-
增大了上下文长度支持,最高达到 128K tokens(Qwen2-72B-Instruct)。
模型基础信息
Qwen2 系列包含 5 个尺寸的预训练和指令微调模型,其中包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。
| 模型 | Qwen2-0.5B | Qwen2-1.5B | Qwen2-7B | Qwen2-57B-A14B | Qwen2-72B |
|---|---|---|---|---|---|
| 参数量 | 0.49B | 1.54B | 7.07B | 57.41B | 72.71B |
| 非 Embedding 参数量 | 0.35B | 1.31B | 5.98B | 56.32B | 70.21B |
| GQA | True | True | True | True | True |
| Tie Embedding | True | True | False | False | False |
| 上下文长度 | 32K | 32K | 128K | 64K | 128K |
在 Qwen1.5 系列中,只有 32B 和 110B 的模型使用了 GQA。这一次,所有尺寸的模型都使用了 GQA,以便让大家体验到 GQA 带来的推理加速和显存占用降低的优势。
模型评测
相比 Qwen1.5,Qwen2 在大规模模型实现了非常大幅度的效果提升。我们对 Qwen2-72B 进行了全方位的评测。
在针对预训练语言模型的评估中,对比当前最优的开源模型,Qwen2-72B 在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型,如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。




IT之家附上参考地址
-
你好,Qwen2
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
未经允许不得转载:新聚网 » 阿里云通义千问系列 AI 开源模型升至 Qwen2:5 个尺寸、上下文长度最高支持 128K tokens

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





