英伟达新核弹GPU：4nm制程800亿晶体管，新Hopper架构太炸了

丰色萧箫发自凹非寺
量子位|公众号QbitAI
他来了他来了，老黄带着英伟达的最新一代GPU来了。

文章图片
之前大家猜的5nm错了，一手大惊喜，老黄直接上了台积电4nm工艺。
新卡取名H100 ，采用全新Hopper架构，直接集成了800亿个晶体管，比上一代A100足足多了260亿个。

文章图片
【英伟达新核弹GPU：4nm制程800亿晶体管，新Hopper架构太炸了】内核数量则飙到了前所未有的16896个，达到上一代A100卡的2.5倍。
浮点计算和张量核心运算能力也随之翻了至少3倍，比如FP32就达到了达到60万亿次/秒。
特别注意的是， H100面向AI计算，针对Transformer搭载了优化引擎，让大模型训练速度直接×6 。
（可算知道5300亿参数的威震天-图灵背后的秘诀了。）
作为一款性能爆炸的全新GPU ，不出意外， H100将与前辈V100、A100一样成为AI从业者心心念念的大宝贝。

文章图片
不过不得不提，它的功耗也爆炸了，达到了史无前例的700W ，重回核弹级别。
关于自研的GraceCPU ，这次大会也公布了更多细节。
没想到，老黄从库克那里学来一手1+1=2 ，两块CPU“粘”在一起组成了CPU超级芯片——GraceCPUSuperchip 。
GraceCPU采用最新Armv9架构，两块总共拥有144个核心，拥有1TB/s的内存带宽，比苹果最新M1Ultra的800GB/s还高出一截。

文章图片
基于全新CPU、GPU基础硬件，这次发布会也带来了下一代企业级AI基础设施DXGH100、全球最快AI超算Eos 。
当然，英伟达作为真正的元宇宙先驱，也少不了Omniverse上的新进展。
下面具体来看看。
首款Hopper架构GPU ，性能暴增
作为上一代GPU架构A100（安培架构）的继承者，搭载了全新Hopper架构的H100有多突飞猛进？

文章图片
话不多说，先上参数：
老黄可谓下血本，先是直接采用了台积电4nm工艺，晶体管一口气集成了800亿个。
要知道，上一代A100还只是7nm架构，这次发布会出来前，外界不少声音猜测老黄会用5nm制程，结果一发布就给大家来了个大惊喜。
最恐怖的是CUDA核心直接飙升到了16896个，直接达到了A100的近2.5倍。（要知道从V100到A100的时候，核心也不过增加那么一丝丝）
这次可不能感慨老黄刀法精准了。
再看浮点运算和INT8/FP16/TF32/FP64的张量运算，性能基本全部提升3倍不止，相比来看，前两代的架构升级也显得小打小闹。
这也使得H100的热功耗（TDP）直接达到了前所未有的700w ，英伟达“核弹工厂”名副其实（手动狗头）。

文章图片
话又说回来，这次H100也是首款支持PCle5.0和HBM3的GPU ，数据处理速度进一步飞升——内存带宽达到了3TB/s 。
这是什么概念？
老黄在发布会上神秘一笑：只需要20个H100在手，全球互联网流量我有。
整体参数细节究竟如何，与前代A100和V100对比一下就知道了：

文章图片
△图源@anandtech
值得一提的是， Hopper架构的新GPU和英伟达CPUGrace名字组在一起，就成了著名女性计算机科学家GraceHopper的名字，这也被英伟达用于命名他们的超级芯片。