据 Tom’s Hardware 今日报道,前特斯拉 AI 总监、OpenAI 联合创始人、项目开发者 Andrej Karpathy 使用 llm.c“重现”了 GPT-2,其成本降到了每小时仅 28 美元(IT之家备注:当前约 204 元人民币),在短短 5 年内降低了近 90%。

成本降低的主要因素,则是其使用了单个 8XH100 节点进行训练。此外,Andrej Karpathy 表示,llm.c 直接实现了 GPT 训练。“由于 llm.c 是用 C / CUDA 直接实现的 GPT 训练,因此其要求非常之低 —— 不需要 conda 环境、Python 解释器、pip 安装等。你只需启动一个云 GPU 节点,选择性地安装 NVIDIA cuDNN、NCCL / MPI,下载.bin 数据分片,编译并运行,几分钟内就能开始。”
他补充说:“然后等待 24 小时(28*24=672),就能生成关于‘安第斯山脉中会说英语的独角兽’的样本。”
据悉,llm.c 项目最初是作为一个教育视频的一部分,但很快变成了 Karpathy 在遇到一些 PyTorch 问题后从头开始构建的项目。
然而报道认为,硬件、软件和训练数据的进步并不意味着尖端 AI 训练的成本在下降。例如,Anthropic CEO Dario Amodei 近期就表示,当前正在开发的 AI 模型可能需要 10 亿美元的训练成本,预计到 2025 年成本更高的模型将达到 1000 亿美元。
硬件性能的提高也伴随着成本的上涨。例如,英伟达 H100 芯片的单价为 4 万美元,下一代 Blackwell AI 芯片的预计售价则可能达到 7 万美元。但即便如此,谷歌 Deepmind CEO 曾表示,当前模型的智商水平仍然仅仅相当于一只猫。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
未经允许不得转载:新聚网 » 模型训练成本“平民化”,前特斯拉 AI 总监 24 小时仅用 672 美元“重现”GPT-2

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





