英伟达|壁仞科技首款GPU亮点剧透!独家对话CTO洪洲( 三 )
在壁仞科技团队看来,客户习惯是芯片研发的至上准则。正如开惯了法拉利的人不愿骑三轮车,用惯了英伟达V100、A100等国际主流芯片的客户也不会乐意用算力一般、不好用的芯片。
这一背景下,壁仞科技着重优化其芯片的3个亮点特性:通用性、高算力、芯粒(chiplet)技术。
1、通用性:从兼容CUDA到取代CUDA
“我们要做一个真正能落地的、能兼容现在的生态的、真正能大规模量产的通用架构。”洪洲说。
在洪洲看来,新的GPU板卡要无缝地支持CUDA生态,这比更高的算力,更好的能效比更重要。
因此,目前阶段必须保证用CUDA写的程序能无缝运行在壁仞科技的异构计算开发平台上,不应当为了追求所谓的极致能效,而打破对通用编程模型的兼容性。
当前壁仞科技的第一要务是在打造自有编程模型的同时,兼容CUDA当前版本,并会面向未来的设计,新增很多东西,使程序能跑得更快更好。
这只是第一步,壁仞科技的终极目标,是提供比CUDA更好的自研编程模型。
文章插图
壁仞科技异构计算开发平台
2、高算力:融合多种架构的优点
“高算力对我们来说极端重要。”洪洲说,壁仞科技芯片的单位瓦算力非常高,并且有信心打败英伟达下一代产品。
达到这一性能表现,离不开其芯片架构的优化——以通用性为根本的同时,在专用领域做深耕、优化,融入多种架构的优点。
传统GPGPU主要做向量运算,但对于AI加速来说,矩阵运算对数据的带宽需求比向量操作低。
考虑到这些问题,壁仞科技不拘泥于传统的向量流处理架构,而会在其理念中加入数据流处理单元、近存储计算架构等其他元素,并对重点场景进行特殊优化,使其能处理各种数据类型,从而在同等能耗上,获得比英伟达高好几倍的算力。
单颗芯片算力的提升只是一个点,壁仞科技还在其芯片中引入非常高的互连带宽,能做到数百数千的芯片大规模拓展,从而实现集群化大算力。
对于数据中心而言,未来“算力”将是王道。如果能将单卡算力提高2倍,其他条件不变时,综合性价比则有望提高2倍,相应地,数据中心服务器的总拥有成本(TCO)就会降低约一半。
3、芯粒(chiplet):提高性价比的必备技术
当先进芯片制程走向7nm、5nm、3nm,芯粒(chiplet)成为一种愈发热门的技术方向。
一颗芯片上有不同功能的组件,如果这些组件全部用最先进的技术节点来制造,成本将非常高。
而芯粒技术的价值在于,允许不同组件分别选择其合适的技术节点来生产,然后再像拼乐高一样堆叠封装在一起,不仅提高芯片整体性价比,也能通过更有序的配置来提升芯片处理能力。
英特尔、AMD等大公司均在积极探索芯粒技术。该技术对小公司同样有价值,如果不走芯粒方向,无论是产品性价比,还是能接触到的市场空间,都会有很多局限性。
“我们的芯片已经采用chiplet技术,可以说比英伟达走得快。”洪洲说。
五、团队扩至400余人,三招解决人才困境在洪洲看来,缺少原创的芯片架构是中国现存的一个短板,当前国内真正做原创性GPU的团队非常稀缺。
两大国际GPU巨头中,英伟达在国内没有核心IP研发团队,AMD在上海只有一小部分研发团队。国内真正从GPU底层架构和软件做起来的,只有原来的兆芯团队和现在的海思团队。
但原创性不是照着别家的架构比葫芦画瓢,而是真正解决整个通用计算问题。这需要组建一支有多年积累的、全面性的团队,除了硬件人才外,软件人才、编译器人才也极为关键。
- 为什么科学家用昆虫翅膀的起源质疑进化论?达尔文到底是对是错?
- 小米Civi,推荐给喜欢高颜值外观的自拍达人
- GeForce|英伟达GeForce RTX 4090系列渲染图曝光:FE版将超过三槽规格
- 世界上最孤独的“手”,他握住一棵树长达50年,却从来没有松过手
- OPPO|OPPO真香千元机,骁龙778G+五千电池官方降至1299,好评率高达97%
- 世界智能大会|AMD7000系列V-CacheCPU与可能达到6GHz的Intel第13代抗衡
- 身份证|?电竞内存与普通内存有什么不同?金百达海力士上手体验
- 天大团队研发完全有机光驱动纳米马达,将药物定向输送到肿瘤深处
- 上海交大团队研发单结有机太阳能电池,单结器件效率达19.6%
- 固态硬盘|速率高达512GBs!PCIe7.0规范发布,但PCIe4.0或仍是主流!
