英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网( 二 )
Hopper架构的芯片和HBM3内存用台积电CoWoS2.5D工艺封装在板卡上 , 形成「超级芯片模组SXM」 , 就是一块H100加速卡:

文章图片
这块显卡拿着可得非常小心——它看起来整体异常紧凑 , 整个电路板上塞满各种元器件 。 另一方面 , 这样的结构也适用于液冷——H100设计700W的TDP已经非常接近散热处理的上限了 。
自建全球第一AI超算
「科技公司处理、分析数据 , 构建AI软件 , 已经成为智能的制造者 。 他们的数据中心就是AI的工厂 , 」黄仁勋说道 。
基于Hopper架构的H100 , 英伟达推出了机器学习工作站、超级计算机等一系列产品 。 8块H100和4个NVLink结合组成一个巨型GPU——DGXH100 , 它一共有6400亿晶体管 , AI算力32petaflops , HBM3内存容量高达640G 。

文章图片
新的NVLINKSwithSystem又可以最多把32台DGXH100直接并联 , 形成一台256块GPU的DGXPOD 。

文章图片
「DGXPOD的带宽是每秒768terbyte , 作为对比 , 目前整个互联网的带宽是每秒100terbyte , 」黄仁勋说道 。

文章图片
基于新superPOD的超级计算机也在路上 , 英伟达宣布基于H100芯片即将自建一个名叫EoS的超级计算机 , 其由18个DGXPOD组成 , 一共4608个H100GPU 。 以传统超算的标准看 , EoS的算力是275petaFLOPS , 是当前美国最大超算Summit的1.4倍 , Summit目前是基于A100的 。
从AI计算的角度来看 , EoS输出18.4Exaflops , 是当今全球第一超算富岳的四倍 。

文章图片
总而言之 , EoS将会是世界上最快的AI超级计算机 , 英伟达表示它将会在几个月之后上线 。
下面看看H100在具体任务上的性能提升:单看GPU算力的话训练GPT-3速度提升6.3倍 , 如果结合新的精度、芯片互联技术和软件 , 提升增至9倍 。 在大模型的推理工作上 , H100的吞吐量是A100的30倍 。

文章图片
对于传统服务器 , 英伟达提出了H100CNX , 通过把网络与H100直接并联的方式绕过PCIE瓶颈提升AI性能 。
英伟达更新了自家的服务器CPU , 新的GraceHopper可以在同一块主板上两块并联 , 形成一个拥有144核CPU , 功耗500W , 是目前产品性能的2-3倍 , 能效比也是两倍 。
在Grace上 , 几块芯片之间的互联技术是新一代NVlink , 其可以实现晶粒到晶粒、芯片到芯片、系统到系统之间的高速互联 。 黄仁勋特别指出 , GraceCPU与Hopper可以通过NVlink进行各种定制化配置 。 英伟达的技术可以满足所有用户需求 , 在未来英伟达的CPU、GPU、DPU、NIC和SoC都可以通过这种技术实现芯片端高速互联 。

文章图片
英伟达计划在今年三季度推出配备H100的系统 , 包括DGX、DGXSuperPod服务器 , 以及来自OEM合作伙伴使用HGX基板和PCIe卡服务器 。
至于价格 , 昨天老黄并没有说「themoreyoubuy,themoreyousave.」
此前有传闻说专用于游戏的AdaLovelace架构 , 昨天并没有出现在黄仁勋的keynote中 , 看来还要再等等 。
人人可见的元宇宙
「第一波AI学习了生物的预测推断能力 , 如图像识别、语言理解 , 也可以向人们推荐商品 。 下一波AI将是机器人:AI做出计划 , 在这里是数字人、物理的机器人进行感知、计划并行动 , 」黄仁勋说道 。 「TensorFlow和PyTorch等框架是第一波AI必须的工具 , 英伟达的Omniverse是第二波AI的工具 , 将会开启下一波AI浪潮 。 」
- 架构设计|6G发展再迎里程碑 网络架构设计获突破
- 移动通信网络|6G发展再迎里程碑 网络架构设计获突破
- GeForce|英伟达GeForce RTX 4090系列渲染图曝光:FE版将超过三槽规格
- gen.g战队|骁龙8Gen2发布时间提前至11月,采用全新架构,改动较大
- 一、前言:采用Zen3+架构的6000系移动端处理器带来多核性能提升AMDZen3架构的...|A4纸大的锐龙6000轻薄本有多强!华硕灵耀X 13评测
- 英伟达|显卡评测不用看了?AMD推显卡对比工具,性能高低一目了然
- CPU处理器|国产CPU第一股龙芯上市:市值超340亿 自研架构光环与争议并存
- CPU|MIPS倒塌!对抗x86/ARM的全新第三大CPU架构崛起了
- CPU处理器|20年老牌CPU厂商转型!RISC-V架构新U瓜熟蒂落
- 英伟达|NVIDIA Triton 推理引擎公开课上新:基于多实例 GPU 和 K8s 的大规模 CV 模型部署实践
