清华刘知远:大模型“十问”,寻找新范式下的研究方向( 二 )


清华刘知远:大模型“十问”,寻找新范式下的研究方向
文章图片
我们还可以从工程和物理角度去考虑这个问题 , 比如StateSpaceModel , 以及动态系统的角度去考虑等等;第三个方面来自于神经科学 , 面向类脑最近一直有人在研究SpikingNeuralNetwork , 上述这些都是新型架构的前沿研究 。 到底下一代大模型框架是什么?还没有一个标准答案 , 这本身就是一个亟待探索的问题 。
清华刘知远:大模型“十问”,寻找新范式下的研究方向
文章图片
清华刘知远:大模型“十问”,寻找新范式下的研究方向
文章图片
03能效:如何使大模型更加高效?
第三个问题 , 大模型的性能问题 。 随着大模型越变越大 , 对计算和存储成本的消耗自然也越来越大 。 最近有人提出GreenAI的概念 , 即需要考虑计算能耗的情况来综合设计和训练人工智能模型 。 面向这个问题 , 我们认为 , 随着模型变大 , AI会越来越需要跟计算机系统进行结合 , 从而提出一个更高效面向大模型的支持体系 。 一方面 , 我们需要去建设更加高效分布式训练的算法 , 在这方面国内外都有非常多的相关探索 , 包括国际上比较有名的DeepSpeed以及悟道团队在开发的一些加速算法 。
清华刘知远:大模型“十问”,寻找新范式下的研究方向
文章图片
另一个方面 , 大模型一旦训练好去使用时 , 模型的「大」会让推理过程变得十分缓慢 , 因此另外一个前沿方向就是如何高效将模型进行尽可能的压缩 , 在加速推理的同时保持它的效果 。 这方面的主要技术路线包括剪枝、蒸馏、量化等等 。 同时最近我们发现 , 大模型里面具有非常强的稀疏发放的现象 , 这对于模型的高效压缩和计算有着非常大的帮助 , 这方面需要一些专门算法的支持 。
清华刘知远:大模型“十问”,寻找新范式下的研究方向
文章图片
清华刘知远:大模型“十问”,寻找新范式下的研究方向
文章图片
04适配:大模型如何适配到下游任务?
第四个问题 , 大模型一旦训好之后如何适配到下游的任务?模型越大 , 在已知任务上效果越好 , 同时也展现出支持未定义过的复杂任务的潜力 。 同时我们会发现随着大模型变得越来越大 , 适配到下游任务的计算和存储开销会显著增大 。 大家看我们统计结果从2020年到2021年顶会上的论文 , 你会发现越来越多的论文在使用预训练模型 , 但是真正去使用大模型的论文还是处在非常低的水平 。
清华刘知远:大模型“十问”,寻找新范式下的研究方向
文章图片
清华刘知远:大模型“十问”,寻找新范式下的研究方向】非常重要的原因就在于即使全世界已经开源了非常多的大模型 , 但是对于很多研究机构来讲 , 他们其实还是没有办法很好把大模型适配到下游任务上 , 这方面是大模型一个非常重要的研究前沿 , 一个非常重要的方向其实就是刚才唐杰老师有提到的PromptTuning , 通过把下游任务形式更改成一个跟预训练过程中所谓maskedlanguagemodel相似的形式 , 让适配过程变得更加平滑和容易 。
清华刘知远:大模型“十问”,寻找新范式下的研究方向
文章图片
另外非常重要的一个前沿其实就是parameter-effcientlearning或者DeltaTuning , 基本思想就是只去调整大模型里非常小的一些参数 , 从而让这个模型非常快的适配到下游任务 , 会让适配过程不会变得那么困难 , 这方面是我们认为如何去把大模型快速适配到下游任务的关键问题 , 这是一个非常前沿的方向 。 刚才唐老师提到 , 我们其实开源了两个工具包括OpenPrompt和OpenDelta来支持这个方面的快速研究 , 也是欢迎大家使用、相关意见和建议甚至可以贡献 。