最高花费1700万美元，这是租卡训练谷歌5400亿参数PaLM的成本( 二 )

2026-05-13

另一方面，我们经常看到，虽然平台提供的硬件更好了，但价格可能不怎么变化。因此，如果GoogleCloud给出的TPUv4与TPUv3的价格大致相同，那么这种估计就是公平的。但如果二者价格相差较大，那么实际成本也会有较大差异。

文章图片
按每FLOP的花销算
我们知道， TPUv3芯片为bfloat16提供大约每秒123TFLOP（TFLOPS）的算力。当然，这只是表格里显示的峰值性能。

文章图片
由于不同情况下，硬件的利用率存在差异，所以实际的TFLOPS数据往往低于峰值数据。前面说过， PaLM的FLOPs利用率达到了惊人的57.8% 。与之前的诸多模型相比（如下图），这是一项新的记录。
因此，作者假设PaLM在TPUv3上训练时硬件利用率达到50%：
按照这个算法，我们每一美元可以买到221PFLOPs 。考虑到最后一次训练要用2.56×10^24FLOPs的算力，我们的最终花费大约是1160万美元：
按租用NVIDIA显卡算
两年前，有人给GPT-3算过一笔账，发现如果使用当时市场上价格最低的GPU云（使用LambdaGPU实例）来训练GPT-3 ，花费最低为460万美元。
图源：https://lambdalabs.com/blog/demystifying-gpt-3/
如果只考虑PaLM的训练计算量是GPT-3的10倍这一事实， PaLM的最终训练成本应为4600万美元左右。
但是，文章里的数据毕竟是两年前的，而且用的是TeslaV100 。现在的NVIDIAA100性能（Tensor性能）已经提升了一个数量级。
因此，如果按硬件性能提高到原来的10倍，利用率是50%来计算， PaLM的训练成本大概是920万美元左右。
结论
作者用三种方法估计了PaLM的最终训练成本，结果分别为1700万美元、1160万美元和920万美元左右。
但需要注意的是：
1、谷歌并不需要花那么多钱，他们拥有硬件。这里是假设终端消费者因租用TPUv3pod训练PaLM而向GoogleCloud支付的钱；
2、如果租用时间比较长，你可以拿到折扣（1年37%的折扣）；
3、作者没有TPUv4的价格数据，所以使用了TPUv3的。
4、这里假设你知道如何高效利用TPUv3pod ，将利用率提到50% ，这一利用率非常惊人；
5、这里只讨论最后一次训练的成本，不包括其他困难且费钱的工作，如工程、研究、测试等。
【最高花费1700万美元，这是租卡训练谷歌5400亿参数PaLM的成本】参考链接：https://blog.heim.xyz/palm-training-cost/

上一篇：realme|用过红米K50和RealmeGT Neo3，不吹不黑，聊聊感受和差别！

下一篇：真有那么好？小米11 Ultra直降1500引发争议：去年的