据介绍,InternLM2 是在 2.6 万亿 token 的语料上训练得到的。沿袭第一代书生・浦语(InternLM)设定,InternLM2 包含 7B 及 20B 两种参数规格及基座、对话等版本,继续开源,提供免费商用授权。
目前,浦语背后的数据清洗过滤技术已经历三轮迭代升级,号称仅使用约 60% 的训练数据即可达到使用第二代数据训练 1T tokens 的性能表现。

与第一代 InternLM 相比,InternLM2 在大规模高质量的验证语料上的 Loss 分布整体左移,表明其语言建模能力增强。

通过拓展训练窗口大小和位置编码改进,InternLM2 支持 20 万 tokens 的上下文,能够一次性接受并处理约 30 万汉字(约五六百页的文档)的输入内容。
下面表格对比了 InternLM2 各版本与 ChatGPT(GPT-3.5)以及 GPT-4 在典型评测集上的表现。可以看到,InternLM2 在 20B 参数的中等规模上,整体表现接近 ChatGPT。

IT之家附开源链接:
Github:
https://github.com/InternLM/InternLM
HuggingFace:
https://huggingface.co/internlm
ModelScope:
https://modelscope.cn/organization/Shanghai_AI_Laboratory
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
未经允许不得转载:新聚网 » 商汤“书生・浦语”2.0 大语言模型开源:200K 上下文,一次可读 30 万汉字

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





