清华刘知远:大模型“十问”,寻找新范式下的研究方向( 二 )

文章图片
我们还可以从工程和物理角度去考虑这个问题 , 比如StateSpaceModel , 以及动态系统的角度去考虑等等;第三个方面来自于神经科学 , 面向类脑最近一直有人在研究SpikingNeuralNetwork , 上述这些都是新型架构的前沿研究 。 到底下一代大模型框架是什么?还没有一个标准答案 , 这本身就是一个亟待探索的问题 。

文章图片

文章图片
03能效:如何使大模型更加高效?
第三个问题 , 大模型的性能问题 。 随着大模型越变越大 , 对计算和存储成本的消耗自然也越来越大 。 最近有人提出GreenAI的概念 , 即需要考虑计算能耗的情况来综合设计和训练人工智能模型 。 面向这个问题 , 我们认为 , 随着模型变大 , AI会越来越需要跟计算机系统进行结合 , 从而提出一个更高效面向大模型的支持体系 。 一方面 , 我们需要去建设更加高效分布式训练的算法 , 在这方面国内外都有非常多的相关探索 , 包括国际上比较有名的DeepSpeed以及悟道团队在开发的一些加速算法 。

文章图片
另一个方面 , 大模型一旦训练好去使用时 , 模型的「大」会让推理过程变得十分缓慢 , 因此另外一个前沿方向就是如何高效将模型进行尽可能的压缩 , 在加速推理的同时保持它的效果 。 这方面的主要技术路线包括剪枝、蒸馏、量化等等 。 同时最近我们发现 , 大模型里面具有非常强的稀疏发放的现象 , 这对于模型的高效压缩和计算有着非常大的帮助 , 这方面需要一些专门算法的支持 。

文章图片

文章图片
04适配:大模型如何适配到下游任务?
第四个问题 , 大模型一旦训好之后如何适配到下游的任务?模型越大 , 在已知任务上效果越好 , 同时也展现出支持未定义过的复杂任务的潜力 。 同时我们会发现随着大模型变得越来越大 , 适配到下游任务的计算和存储开销会显著增大 。 大家看我们统计结果从2020年到2021年顶会上的论文 , 你会发现越来越多的论文在使用预训练模型 , 但是真正去使用大模型的论文还是处在非常低的水平 。

文章图片
【清华刘知远:大模型“十问”,寻找新范式下的研究方向】非常重要的原因就在于即使全世界已经开源了非常多的大模型 , 但是对于很多研究机构来讲 , 他们其实还是没有办法很好把大模型适配到下游任务上 , 这方面是大模型一个非常重要的研究前沿 , 一个非常重要的方向其实就是刚才唐杰老师有提到的PromptTuning , 通过把下游任务形式更改成一个跟预训练过程中所谓maskedlanguagemodel相似的形式 , 让适配过程变得更加平滑和容易 。

文章图片
另外非常重要的一个前沿其实就是parameter-effcientlearning或者DeltaTuning , 基本思想就是只去调整大模型里非常小的一些参数 , 从而让这个模型非常快的适配到下游任务 , 会让适配过程不会变得那么困难 , 这方面是我们认为如何去把大模型快速适配到下游任务的关键问题 , 这是一个非常前沿的方向 。 刚才唐老师提到 , 我们其实开源了两个工具包括OpenPrompt和OpenDelta来支持这个方面的快速研究 , 也是欢迎大家使用、相关意见和建议甚至可以贡献 。
- 网友热议|母亲回应3个孩子2个上清华:只能教孩子做人诚实守信 学习都靠自己努力
- 生科医学|691分考生父母凌晨3点接到清华电话 本人淡定睡到早上:为家人要学医
- 从几个月到几分钟,NLP模型运行效率暴涨,小公司也能玩大模型
- aiXcoder XL智能编程大模型发布:自然语言一键生成方法级代码
- 苹果|清华专家称苹果自乔布斯之后再无创新:跟以前没法比!
- AI自己写代码让智能体进化!OpenAI的大模型有“人类思想”那味了
- 百度APP数字人上线个性化AI陪聊功能 文心大模型助力对话交互式搜索创新
- 又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……
- 北斗导航|“破解”北斗,获美高度肯定的清华女学霸,如今为黑科技提供技术支持
- 罗永浩|狂人王垠:从清华退学,被微软封杀,没有一家公司值得我为他工作
