任务|有了“大数据”,还需“多任务”,谷歌AI大牛Quoc V. Le发现大模型零样本学习能力的关键( 四 )

文章插图
我们研究中的一个局限是:对任务分组时存在一定程度的主观性(例如,情感分析可以被看作是阅读理解的一个小子集),因为没有公认的方法来处理两个任务之间的相似性。因此,我们根据文献中公认的分类方法将任务分配到群组中,当任务可能属于多个群组时,我们采取了保守的方法(例如,在评估阅读理解和常识推理时,将阅读理解与常识推理排除在指令微调之外)。作为另一个限制,我们使用简短的指令(通常是一句话)来描述熟知的NLP任务。其他任务可能需要更长或更具体的指令来充分描述,同时还要有涉及实例的解释;我们把这些情况留给未来的研究工作。
本文显示的结果为未来的研究提出了几个方向。尽管FLAN在60多个数据集上进行了指令微调,但这些数据集只覆盖了10个任务群(加上一些杂项任务),考虑到这样一个模型可以用于所有潜在的任务,因此这个数字相对较小。有可能通过更多的指令微调任务来进一步提高性能,例如,这些任务可以以自监督的方式生成。除了收集更多的任务,探索多语言环境也很有价值,例如,我们可以提出这样的疑问:在高资源语言的监督数据上的指令调整是否会提高低资源语言的新任务的性能?最后,有监督数据的指令微调模型也有可能被用来改善模型在偏见和公平方面的行为。
文章插图
雷锋网雷锋网雷锋网
- 苹果|华为新一代“小方表”来了:Watch FIT 2正式官宣
- 纸质表格|“数字化”助推火箭升空
- 炸锅|酷暑之下,莫让这些谣言再增“热”度
- 户外|“小眼镜”增多 专家支招教你科学用眼
- 单项冠军|再添三家“小巨人”,青岛高新区梯度培育见成效
- 陨石|小行星“打水漂”闯入地球 形成世界最长陨石陨落带
- 科技入黔|“科技入黔”助力贵州高质量发展
- 踩线|主播不“踩线” 直播才有未来
- 套餐资费|广电放号 5G套餐竞争告别“三国时代”
- Flyme|“国产系统之光”Flyme迎来十周年,纪念海报上线引发热议
