中国首次！2021年图计算挑战赛揭榜，华中科技大团队夺冠( 二 )

文章图片
项目地址：https://github.com/CGCL-codes/Graphchallenge21
与2020年HPEC稀疏DNN挑战赛冠军相比，论文的方法在单个NVIDIAV100GPU上实现了每秒55.6TeraEdges的推理吞吐量，将速度提高了13.74倍和22.29倍。
此外，比起2020年冠军使用768个GPU的方法，论文提出的方法在很多情况下仅用4个GPU就能实现更佳的性能。
方法实现
SpMM的基本实现可由三个循环构成：

文章图片
其中， b-loop遍历矩阵中的不同batch ， k-loop遍历输入神经元，而n-loop遍历输出神经元。

文章图片
论文方法的工作流程，其中*代表通配符
(a)用于SpDNN推理的改进的SpMM优化空间；
(b)修剪后的SpMM优化空间；
(c)为给定的权重矩阵（如W1和W2）搜索性能最优的解决方案。
性能分析
论文提出的方法实现了每秒11.8～55.6的推理吞吐量，且性能随着网络层的增加而增加。

文章图片
单个V100GPU与往年冠军的对比
与2020年冠军的最强性能方法H&F相比，论文提出的方法至少能将性能提升1.73倍，最多可以提升13.74倍。
与2019年的冠军B&F相比，论文的方法实现了6.39倍～15.56倍的性能提升。
此外，作者也与广泛使用的SpMM库cuSPARSE进行了比较，性能的提升达到72.90倍～152.68倍。

文章图片
4个GPU与往年冠军的对比
在多个GPU的比较上，论文的方法只需采用4个GPU ，就能比最多使用16个V100GPU的B&F性能提升4.56倍～10.18倍。
与同样可以采用4个GPU的SNIG相比，实现了18.73倍～32.73倍的性能提升。
论文的方法同样优于H&P在不同GPU数量上的实现，甚至在很多情况下比采用768个GPU的H&P性能更强，尤其是对于大型网络来说。
半年备赛，夺得全球冠军

文章图片
华中科技大学参赛团队主要成员为硕士生辛杰（左上）和叶先祺（中下），由郑龙副教授指导，其他成员包括博士生王庆刚、黄禹、姚鹏程，老师余林琛、廖小飞、金海。
本次大赛夺冠团队从去年年底开始备赛，参赛赛道为稀疏神经网络推理，为加速人工智能应用提供新方案。
这个赛道的任务是将神经网络的权重数据抽象为图数据，执行推理任务，是人工智能领域的典型应用场景。
参赛过程中，团队获得了服务计算技术与系统教育部重点实验室和「面向图计算的通用计算机技术与系统」国家重点研发计划项目组的大力支持。
实验室为团队提供了V100GPU多卡服务器作为计算平台，确保团队有一个稳定的开发环境。
团队参赛队员每周都会和图计算项目组的博士生王庆刚、黄禹、姚鹏程等进行应用分析和方案论证。
多次讨论后，他们最终get到了这个赛道应用的特点：
不存在一种特定的实现方法可以在任何一个数据集上都取得较好的性能提升。
根据这个特点，参赛团队确定了通过用参数化的方式，构造算子的实现空间，然后进行参数搜索，取得对应数据集的最优实现方法。
在代码实现过程中，团队复用了图计算项目中图处理模块的思想，加快开发效率，快速完成了实验。
参考资料：
https://graphchallenge.mit.edu/champions