Intel|5种工艺、1000+亿晶体管！Intel Xe HPC顶级计算卡秀肌肉( 二 )

文章图片

文章图片

Ponte Vecchio作为基于Xe HPC架构的首款产品，一切的一切都是全新的，包括验证方法、软件、可靠性方法、信号完整性机制、互连、供电、封装、I/O架构、内存架构、IP架构、SoC架构。
Ponte Vecchio是个庞然大物，集成晶体管数量突破1000亿个，使用5种不同的制造工艺，在内部封装了多达47个不同的单元(Tile)，包括计算单元、Rambo缓存单元、Foveros封装单元、基础单元、HBM单元、Xe链路单元、EMIB单元，等等。

文章图片

如此复杂的芯片设计，面临的挑战自然是空前的，首席架构师Masooma Bhaiwala直言这是她30年来设计的最复杂的芯片，堪称制造奇迹。
其中，Foveros 3D封装是一个关键，最终的数据传输速度不得不提高到最初规划的1.5倍，以便以把Foveros连接数量降至最低，但依然比之前任何设计都高了两个数量级。
开发团队还必须在设计初期就锁定Foveros在所有单元上的位置，这意味着必须一开始就搞定整个平面图布局，中途也不允许有明显变更。
芯片设计和验证也是全新流程，为此开发了大量新的工具、方法、脚本，并独立安排4个主要单元，开发各自的调试软件包，分而治之，加速开发，最终在SoC整体封装完成几天内就成功启动，运行了Hello World 。

文章图片

再来看几个关键的部分，计算单元采用台积电N5 5nm工艺，每个集成8个Xe核心、4MB一级缓存，Foveros封装凸点间距36微米。

文章图片

基础单元是一个连接器，所有复杂的I/O和高带宽组件都在这里汇聚，包括PCIe 5.0总线、HBM2e内存、MDFI链路、EMIB桥接，几乎是在挑战物理极限。
它采用Intel 7工艺、Foveros封装，面积达640平方毫米，集成了多达144MB二级缓存。

文章图片

Xe链路单元是台积电N7 7nm工艺制造，负责不同GPU之间的连接，是面向HPC、AI的纵向扩展的关键，每个单元有8条，实现了最高90G Serdes，可以满足“极光”（Aurora）这样百亿亿次级级超级计算机的需求。

文章图片

Ponte Vecchio目前处于A0版本阶段(一般到A1就投入量产)，成功运行了数百个工作负载，实测FP32吞吐性能超过45TFlops，Memory Fabric缓存带宽超过5TB/s，互连带宽超过2TB/s 。

文章图片

Ponte Vecchio将有多种产品形态，最基本的单芯片做成OAM模块，集成到一个载体基板上，AMD Instinct也有这种。
四芯并联组成一个子系统，再搭配双路的下一代Sapphire Rapids至强处理器，就是一个超算节点，将用于“极光”超算。