最高花费1700万美元,这是租卡训练谷歌5400亿参数PaLM的成本( 二 )
另一方面 , 我们经常看到 , 虽然平台提供的硬件更好了 , 但价格可能不怎么变化 。 因此 , 如果GoogleCloud给出的TPUv4与TPUv3的价格大致相同 , 那么这种估计就是公平的 。 但如果二者价格相差较大 , 那么实际成本也会有较大差异 。

文章图片
按每FLOP的花销算
我们知道 , TPUv3芯片为bfloat16提供大约每秒123TFLOP(TFLOPS)的算力 。 当然 , 这只是表格里显示的峰值性能 。

文章图片
由于不同情况下 , 硬件的利用率存在差异 , 所以实际的TFLOPS数据往往低于峰值数据 。 前面说过 , PaLM的FLOPs利用率达到了惊人的57.8% 。 与之前的诸多模型相比(如下图) , 这是一项新的记录 。
因此 , 作者假设PaLM在TPUv3上训练时硬件利用率达到50%:
按照这个算法 , 我们每一美元可以买到221PFLOPs 。 考虑到最后一次训练要用2.56×10^24FLOPs的算力 , 我们的最终花费大约是1160万美元:
按租用NVIDIA显卡算
两年前 , 有人给GPT-3算过一笔账 , 发现如果使用当时市场上价格最低的GPU云(使用LambdaGPU实例)来训练GPT-3 , 花费最低为460万美元 。
图源:https://lambdalabs.com/blog/demystifying-gpt-3/
如果只考虑PaLM的训练计算量是GPT-3的10倍这一事实 , PaLM的最终训练成本应为4600万美元左右 。
但是 , 文章里的数据毕竟是两年前的 , 而且用的是TeslaV100 。 现在的NVIDIAA100性能(Tensor性能)已经提升了一个数量级 。
因此 , 如果按硬件性能提高到原来的10倍 , 利用率是50%来计算 , PaLM的训练成本大概是920万美元左右 。
结论
作者用三种方法估计了PaLM的最终训练成本 , 结果分别为1700万美元、1160万美元和920万美元左右 。
但需要注意的是:
1、谷歌并不需要花那么多钱 , 他们拥有硬件 。 这里是假设终端消费者因租用TPUv3pod训练PaLM而向GoogleCloud支付的钱;
2、如果租用时间比较长 , 你可以拿到折扣(1年37%的折扣);
3、作者没有TPUv4的价格数据 , 所以使用了TPUv3的 。
4、这里假设你知道如何高效利用TPUv3pod , 将利用率提到50% , 这一利用率非常惊人;
5、这里只讨论最后一次训练的成本 , 不包括其他困难且费钱的工作 , 如工程、研究、测试等 。
【最高花费1700万美元,这是租卡训练谷歌5400亿参数PaLM的成本】参考链接:https://blog.heim.xyz/palm-training-cost/
- 【选购技巧】最高可省1600 苹果暑期教育优惠季保姆级攻略
- 国产x86 CPU兆芯有了ITX迷你主板:最高八核2.7GH
- 6月23日晚|九连发!索尼一大波电视新品发布:最高卖79999元
- 华为|我国新女首富“诞生”!公司超华为成第二大民企,坐拥身家1700亿
- 李飞飞团队将ViT用在机器人身上,规划推理最高提速512倍
- 华为鸿蒙系统|18个月显卡花费150亿美元,以太坊「矿工」即将停止开采
- 蚂蚁金服|国产x86 CPU有了明星板卡:最高八核2.7GHz
- 摩托罗拉|Moto 2亿像素骁龙8+旗舰入网:最高125W快充
- 台积电|台积电市值超腾讯阿里,成亚洲市值最高公司,互联网为何不香了?
- 新品|黑鲨新款散热背夹来了:最高直降30℃!
