英伟达新架构发布，AI芯片上限提升了九倍，20块带宽就等于全球互联网( 二 )

Hopper架构的芯片和HBM3内存用台积电CoWoS2.5D工艺封装在板卡上，形成「超级芯片模组SXM」，就是一块H100加速卡：

文章图片
这块显卡拿着可得非常小心——它看起来整体异常紧凑，整个电路板上塞满各种元器件。另一方面，这样的结构也适用于液冷——H100设计700W的TDP已经非常接近散热处理的上限了。
自建全球第一AI超算
「科技公司处理、分析数据，构建AI软件，已经成为智能的制造者。他们的数据中心就是AI的工厂，」黄仁勋说道。
基于Hopper架构的H100 ，英伟达推出了机器学习工作站、超级计算机等一系列产品。 8块H100和4个NVLink结合组成一个巨型GPU——DGXH100 ，它一共有6400亿晶体管， AI算力32petaflops ， HBM3内存容量高达640G 。

文章图片
新的NVLINKSwithSystem又可以最多把32台DGXH100直接并联，形成一台256块GPU的DGXPOD 。

文章图片
「DGXPOD的带宽是每秒768terbyte ，作为对比，目前整个互联网的带宽是每秒100terbyte ，」黄仁勋说道。

文章图片
基于新superPOD的超级计算机也在路上，英伟达宣布基于H100芯片即将自建一个名叫EoS的超级计算机，其由18个DGXPOD组成，一共4608个H100GPU 。以传统超算的标准看， EoS的算力是275petaFLOPS ，是当前美国最大超算Summit的1.4倍， Summit目前是基于A100的。
从AI计算的角度来看， EoS输出18.4Exaflops ，是当今全球第一超算富岳的四倍。

文章图片
总而言之， EoS将会是世界上最快的AI超级计算机，英伟达表示它将会在几个月之后上线。
下面看看H100在具体任务上的性能提升：单看GPU算力的话训练GPT-3速度提升6.3倍，如果结合新的精度、芯片互联技术和软件，提升增至9倍。在大模型的推理工作上， H100的吞吐量是A100的30倍。

文章图片
对于传统服务器，英伟达提出了H100CNX ，通过把网络与H100直接并联的方式绕过PCIE瓶颈提升AI性能。
英伟达更新了自家的服务器CPU ，新的GraceHopper可以在同一块主板上两块并联，形成一个拥有144核CPU ，功耗500W ，是目前产品性能的2-3倍，能效比也是两倍。
在Grace上，几块芯片之间的互联技术是新一代NVlink ，其可以实现晶粒到晶粒、芯片到芯片、系统到系统之间的高速互联。黄仁勋特别指出， GraceCPU与Hopper可以通过NVlink进行各种定制化配置。英伟达的技术可以满足所有用户需求，在未来英伟达的CPU、GPU、DPU、NIC和SoC都可以通过这种技术实现芯片端高速互联。

文章图片
英伟达计划在今年三季度推出配备H100的系统，包括DGX、DGXSuperPod服务器，以及来自OEM合作伙伴使用HGX基板和PCIe卡服务器。
至于价格，昨天老黄并没有说「themoreyoubuy,themoreyousave.」
此前有传闻说专用于游戏的AdaLovelace架构，昨天并没有出现在黄仁勋的keynote中，看来还要再等等。
人人可见的元宇宙
「第一波AI学习了生物的预测推断能力，如图像识别、语言理解，也可以向人们推荐商品。下一波AI将是机器人：AI做出计划，在这里是数字人、物理的机器人进行感知、计划并行动，」黄仁勋说道。「TensorFlow和PyTorch等框架是第一波AI必须的工具，英伟达的Omniverse是第二波AI的工具，将会开启下一波AI浪潮。」