清华刘知远：大模型“十问”，寻找新范式下的研究方向( 二 )

文章图片
我们还可以从工程和物理角度去考虑这个问题，比如StateSpaceModel ，以及动态系统的角度去考虑等等；第三个方面来自于神经科学，面向类脑最近一直有人在研究SpikingNeuralNetwork ，上述这些都是新型架构的前沿研究。到底下一代大模型框架是什么？还没有一个标准答案，这本身就是一个亟待探索的问题。

文章图片

文章图片
03能效：如何使大模型更加高效？
第三个问题，大模型的性能问题。随着大模型越变越大，对计算和存储成本的消耗自然也越来越大。最近有人提出GreenAI的概念，即需要考虑计算能耗的情况来综合设计和训练人工智能模型。面向这个问题，我们认为，随着模型变大， AI会越来越需要跟计算机系统进行结合，从而提出一个更高效面向大模型的支持体系。一方面，我们需要去建设更加高效分布式训练的算法，在这方面国内外都有非常多的相关探索，包括国际上比较有名的DeepSpeed以及悟道团队在开发的一些加速算法。

文章图片
另一个方面，大模型一旦训练好去使用时，模型的「大」会让推理过程变得十分缓慢，因此另外一个前沿方向就是如何高效将模型进行尽可能的压缩，在加速推理的同时保持它的效果。这方面的主要技术路线包括剪枝、蒸馏、量化等等。同时最近我们发现，大模型里面具有非常强的稀疏发放的现象，这对于模型的高效压缩和计算有着非常大的帮助，这方面需要一些专门算法的支持。

文章图片

文章图片
04适配：大模型如何适配到下游任务？
第四个问题，大模型一旦训好之后如何适配到下游的任务？模型越大，在已知任务上效果越好，同时也展现出支持未定义过的复杂任务的潜力。同时我们会发现随着大模型变得越来越大，适配到下游任务的计算和存储开销会显著增大。大家看我们统计结果从2020年到2021年顶会上的论文，你会发现越来越多的论文在使用预训练模型，但是真正去使用大模型的论文还是处在非常低的水平。

文章图片
【清华刘知远：大模型“十问”，寻找新范式下的研究方向】非常重要的原因就在于即使全世界已经开源了非常多的大模型，但是对于很多研究机构来讲，他们其实还是没有办法很好把大模型适配到下游任务上，这方面是大模型一个非常重要的研究前沿，一个非常重要的方向其实就是刚才唐杰老师有提到的PromptTuning ，通过把下游任务形式更改成一个跟预训练过程中所谓maskedlanguagemodel相似的形式，让适配过程变得更加平滑和容易。

文章图片
另外非常重要的一个前沿其实就是parameter-effcientlearning或者DeltaTuning ，基本思想就是只去调整大模型里非常小的一些参数，从而让这个模型非常快的适配到下游任务，会让适配过程不会变得那么困难，这方面是我们认为如何去把大模型快速适配到下游任务的关键问题，这是一个非常前沿的方向。刚才唐老师提到，我们其实开源了两个工具包括OpenPrompt和OpenDelta来支持这个方面的快速研究，也是欢迎大家使用、相关意见和建议甚至可以贡献。