任务|有了“大数据”，还需“多任务”，谷歌AI大牛Quoc V. Le发现大模型零样本学习能力的关键( 四 )

文章插图

表5：FLAN对通过指令微调获得的连续输入的反应比Base LM更好。

讨论

本文探讨了零样本场景下一个简单的问题：指令微调语言模型是否能提高其执行未见任务的能力？我们在FLAN上的实验表明，指令微调提高了对未微调模型的性能，并在我们评估的大多数任务上超过了零样本场景下的GPT-3。通过消融研究，我们了解到，未见任务的性能随着指令调谐中使用的任务集群的数量的增加而提高，而且有趣的是，指令微调的优点只有在模型规模足够大时才会出现。此外，FLAN似乎比未修改的基础模型对指令微调的反应更好，显示了指令微调的另一优点。
我们研究中的一个局限是：对任务分组时存在一定程度的主观性（例如，情感分析可以被看作是阅读理解的一个小子集），因为没有公认的方法来处理两个任务之间的相似性。因此，我们根据文献中公认的分类方法将任务分配到群组中，当任务可能属于多个群组时，我们采取了保守的方法（例如，在评估阅读理解和常识推理时，将阅读理解与常识推理排除在指令微调之外）。作为另一个限制，我们使用简短的指令（通常是一句话）来描述熟知的NLP任务。其他任务可能需要更长或更具体的指令来充分描述，同时还要有涉及实例的解释；我们把这些情况留给未来的研究工作。
本文显示的结果为未来的研究提出了几个方向。尽管FLAN在60多个数据集上进行了指令微调，但这些数据集只覆盖了10个任务群（加上一些杂项任务），考虑到这样一个模型可以用于所有潜在的任务，因此这个数字相对较小。有可能通过更多的指令微调任务来进一步提高性能，例如，这些任务可以以自监督的方式生成。除了收集更多的任务，探索多语言环境也很有价值，例如，我们可以提出这样的疑问：在高资源语言的监督数据上的指令调整是否会提高低资源语言的新任务的性能？最后，有监督数据的指令微调模型也有可能被用来改善模型在偏见和公平方面的行为。

文章插图

雷锋网雷锋网雷锋网