您的位置：首页 >微商 >

最高花费1700万美元，这是租卡训练谷歌5400亿参数PaLM的成本

时间：2022-04-09 13:45:26 | 来源：机器之心Pro

假设我们普通人想用云计算来训练一个 PaLM，我们需要准备多少钱？一位网友算出的结果是：900~1700 万美元。

从去年开始，谷歌人工智能主管 JeffDean 就开始了「谷歌下一代人工智能架构」——Pathways 的预告。与之前为数千个任务训练数千个模型的方法不同，新架构的愿景是训练一个模型做成千上万件事情。

一年之后，Pathways 系统论文终于亮相，Jeff Dean 所在的团队还公布了用它训练的一个大型语言模型——PaLM。实验表明，PaLM 在多语言任务和代码生成方面具有强大的能力，可以出色地完成笑话解读、bug 修复、从表情符号中猜电影等语言、代码任务。

PaLM 解读笑话示例。

PaLM 是一个只有解码器的密集 Transformer 模型，参数量达到了 5400 亿。为了训练这个模型，谷歌动用了 6144 块 TPU，让 Pathways 在两个 Cloud TPU v4 Pods 上训练 PaLM。这是名副其实的「钞能力」。

惊叹之余，有人可能想问：假设我们普通人（不像谷歌那样拥有大量 TPU）想用云计算来训练一个 PaLM，我们需要准备多少钱？一位网友算出的结果是：900~1700 万美元。

我们一起来看一下他是怎么算的。

论文里的可用信息

随着参数的增加，ML 模型的计算成本也在飙升。谷歌曾总结过，自 2010 年以来，ML 模型的训练计算量惊人地增长了 100 亿，平均每 6 个月就翻一番。如今，PaLM 站上了 C 位。

论文显示，PaLM 的最终训练运行消耗的算力是 2.56e24 FLOPs。

论文还提到，PaLM-540B 在 6144 块 TPU v4 芯片上训练了 1200 小时，在 3072 块 TPU v4 芯片上训练了 336 小时，包括一些停机时间（downtime）和重复步骤。

因此，PaLM-540B 的训练总共花费：

2.56e24 FLOPs；

8404992 个 TPUv4 chip-hour（每个芯片包含 2 个核，约合 16809984 个 TPUv4core-hour）；

大约 64 天。

此外，在 TPU 利用率方面，PaLM-540B 的训练使用了 rematerialization，因为带有 rematerialization 的可行批大小可实现更高的训练吞吐量。不考虑 rematerialization 成本，最终模型在没有自注意力机制的情况下 FLOP 利用率为 45.7%，有自注意力为 46.2%。PaLM 的分析计算硬件 FLOPs 利用率（包括 rematerialization FLOPs）为 57.8%。

估算结果

现在有两种方法可以估计 PaLM-540B 的成本：

1、最后训练运行使用 2.56×10²⁴ FLOPs

可以通过租用 TPU 实例来估计每个 flops 的成本（假设利用率为 57.8%）。

从其他云提供商（例如使用 NVIDIA A100 的云提供商）获取每个 FLOP 的成本，然后估计总成本。

2、使用 8404992 个 TPUv4 chip-hour 这一数据

方法 2 似乎更加准确，但遗憾的是，作者没有拿到有关 TPUv4 的租用价格数据（需要咨询销售代表）。