英伟达新核弹GPU:4nm制程800亿晶体管,新Hopper架构太炸了
丰色萧箫发自凹非寺
量子位|公众号QbitAI
他来了他来了 , 老黄带着英伟达的最新一代GPU来了 。

文章图片
之前大家猜的5nm错了 , 一手大惊喜 , 老黄直接上了台积电4nm工艺 。
新卡取名H100 , 采用全新Hopper架构 , 直接集成了800亿个晶体管 , 比上一代A100足足多了260亿个 。

文章图片
【英伟达新核弹GPU:4nm制程800亿晶体管,新Hopper架构太炸了】内核数量则飙到了前所未有的16896个 , 达到上一代A100卡的2.5倍 。
浮点计算和张量核心运算能力也随之翻了至少3倍 , 比如FP32就达到了达到60万亿次/秒 。
特别注意的是 , H100面向AI计算 , 针对Transformer搭载了优化引擎 , 让大模型训练速度直接×6 。
(可算知道5300亿参数的威震天-图灵背后的秘诀了 。 )
作为一款性能爆炸的全新GPU , 不出意外 , H100将与前辈V100、A100一样成为AI从业者心心念念的大宝贝 。

文章图片
不过不得不提 , 它的功耗也爆炸了 , 达到了史无前例的700W , 重回核弹级别 。
关于自研的GraceCPU , 这次大会也公布了更多细节 。
没想到 , 老黄从库克那里学来一手1+1=2 , 两块CPU“粘”在一起组成了CPU超级芯片——GraceCPUSuperchip 。
GraceCPU采用最新Armv9架构 , 两块总共拥有144个核心 , 拥有1TB/s的内存带宽 , 比苹果最新M1Ultra的800GB/s还高出一截 。

文章图片
基于全新CPU、GPU基础硬件 , 这次发布会也带来了下一代企业级AI基础设施DXGH100、全球最快AI超算Eos 。
当然 , 英伟达作为真正的元宇宙先驱 , 也少不了Omniverse上的新进展 。
下面具体来看看 。
首款Hopper架构GPU , 性能暴增
作为上一代GPU架构A100(安培架构)的继承者 , 搭载了全新Hopper架构的H100有多突飞猛进?

文章图片
话不多说 , 先上参数:
老黄可谓下血本 , 先是直接采用了台积电4nm工艺 , 晶体管一口气集成了800亿个 。
要知道 , 上一代A100还只是7nm架构 , 这次发布会出来前 , 外界不少声音猜测老黄会用5nm制程 , 结果一发布就给大家来了个大惊喜 。
最恐怖的是CUDA核心直接飙升到了16896个 , 直接达到了A100的近2.5倍 。 (要知道从V100到A100的时候 , 核心也不过增加那么一丝丝)
这次可不能感慨老黄刀法精准了 。
再看浮点运算和INT8/FP16/TF32/FP64的张量运算 , 性能基本全部提升3倍不止 , 相比来看 , 前两代的架构升级也显得小打小闹 。
这也使得H100的热功耗(TDP)直接达到了前所未有的700w , 英伟达“核弹工厂”名副其实(手动狗头) 。

文章图片
话又说回来 , 这次H100也是首款支持PCle5.0和HBM3的GPU , 数据处理速度进一步飞升——内存带宽达到了3TB/s 。
这是什么概念?
老黄在发布会上神秘一笑:只需要20个H100在手 , 全球互联网流量我有 。
整体参数细节究竟如何 , 与前代A100和V100对比一下就知道了:

文章图片
△图源@anandtech
值得一提的是 , Hopper架构的新GPU和英伟达CPUGrace名字组在一起 , 就成了著名女性计算机科学家GraceHopper的名字 , 这也被英伟达用于命名他们的超级芯片 。
- GeForce|英伟达GeForce RTX 4090系列渲染图曝光:FE版将超过三槽规格
- 英伟达|显卡评测不用看了?AMD推显卡对比工具,性能高低一目了然
- 英伟达|NVIDIA Triton 推理引擎公开课上新:基于多实例 GPU 和 K8s 的大规模 CV 模型部署实践
- AMD 上线“GPU 比较工具”,可在不同游戏中与英伟达型号对比
- 2022上半年行将收官|amdrdna3超级“核弹”预计2023年见面
- 华为|AMD RDNA3核弹卡曝光:性能怪兽
- AMD|AMD RDNA3核弹卡曝光:双芯加持的性能怪兽
- 软件|AMD显卡价格已低于MSRP,英伟达显卡亦无限接近
- 苹果|iPhone13价格达新低,不少平台卖断货,但618最大赢家却不是苹果
- 英伟达|盘点ColorOS很实用却冷门的功能,618买买买全靠他!
