
据介绍,YaFSDP 在训练速度方面优于传统的 FSDP 方法,尤其适用于大型模型。在预训练 LLM 方面,YaFSDP 速度提高了 20%,并且在高内存压力条件下表现更佳。
例如,YaFSDP 对具有 700 亿参数的 Llama 2 可以实现 21% 的效率提升,对具有同级参数的 Llama 3 也实现 了 26% 的效率提升。IT之家附官方数据一览:
| 模型 | gpu-count | seq-len | num-ckpt-layers | speedup |
|---|---|---|---|---|
| Llama 2 7B | 64 | 2048 | 0 | 9.92% |
| Llama 2 7B | 64 | 4096 | 0 | 3.43% |
| Llama 2 7B | 64 | 8192 | 0 | 2.68% |
| Llama 2 7B | 128 | 2048 | 0 | 9.57% |
| Llama 2 7B | 128 | 4096 | 0 | 2.42% |
| Llama 2 7B | 128 | 8192 | 0 | 2.32% |
| Llama 2 13B | 128 | 2048 | 0 | 12.10% |
| Llama 2 13B | 128 | 4096 | 0 | 3.49% |
| Llama 2 34B | 128 | 2048 | 0 | 20.70% |
| Llama 2 34B | 256 | 2048 | 0 | 21.99% |
| Llama 2 34B | 256 | 4096 | 5 | 8.35% |
| Llama 2 70B | 256 | 2048 | 10 | 21.48% |
| Llama 2 70B | 256 | 4096 | 50 | 7.17% |
| Llama 3 8B | 64 | 2048 | 0 | 11.91% |
| Llama 3 8B | 64 | 4096 | 0 | 7.86% |
| Llama 3 70B | 256 | 2048 | 20 | 26.60% |
Yandex 表示,通过优化 GPU 使用率,YaFSDP 可以为开发者和公司节省大量资金 —— 每月可能节省数十万美元。
Yandex 的资深开发人员、YaFSDP 团队成员之一 Mikhail Khruschev 还提到,“目前,我们正在积极尝试各种模型架构和参数大小,以扩展 YaFSDP 的通用性” 。
参考资料:
-
《Яндекс открывает YaFSDP — инструмент для ускорения обучения больших языковых моделей и сокращения расходов на GPU / Хабр》
-
《GitHub – yandex/YaFSDP: YaFSDP: Yet another Fully Sharded Data Parallel》
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
未经允许不得转载:新聚网 » 俄罗斯科技巨头 Yandex 宣布开源“YaFSDP”大语言模型训练工具:大幅提升 GPU 利用率,对 Llama 3 可实现 26% 加速

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





