人工智能的经济学正达到一个关键的拐点。根据研究,前沿人工智能模型的训练成本预计到2027年将超过10亿美元。 @AnthropicAI的首席执行官达里奥·阿莫代伊预测,明年人工智能模型的训练成本将增长到每次运行数十亿美元。 “到2026年,训练单个模型的成本可能会超过100亿美元。到2027年,他预计模型公司将有雄心建立1000亿美元的训练集群。”
硬件壁垒令人震惊:仅仅获取用于训练GPT-4的硬件就花费了大约8亿美元,而摊销成本仅为4000万美元。 随着训练成本每年增长约2.4倍,低效的计算基础设施正成为无法优化支出的AI公司的生存威胁。
让我们来分析一下实际成本:在1-2万亿个标记上训练一个7B参数的LLM需要大约60,000个H100 GPU小时。按照我们的费率($1.49/小时),总共是$89,400。 在AWS按需使用相同的工作负载? 令人震惊的$405,000。其他云服务提供商的费用在$179,400到$209,400之间,而本地解决方案在完全摊销后大约需要$300,000。
我们的平台提供了明显的优势:比折扣后的AWS便宜2.5倍,比典型的云服务提供商便宜3-4倍。考虑到所有费用,内部基础设施的成本高出6-9倍。对于希望以预算友好、透明的方式扩展大型LLM训练的团队,我们的产品提供了即时的节省和操作简便性。
随着模型的不断增长,计算效率不仅仅是一个可有可无的因素——它是你的竞争护城河。问题不在于你是否能负担得起优化,而在于你是否能负担得起不优化。今天就开始最大化你的人工智能预算吧。
参考文献 Epoch AI. "GPU 性能价格趋势." Epoch AI, 2022, . Hobbhahn, Marius, 和 Tamay Besiroglu. "GPU 性能价格趋势." Epoch AI, 2022, . TRG Datacenters. "解锁节省:为什么 NVIDIA H100 GPU 优于 AWS 租赁成本." TRG Datacenters, 2023, Cottier, Ben, 等. "训练前沿 AI 模型的成本上升." arXiv, 2024,
查看完整博客请点击这里:
1.65K