Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
梦晨萧箫发自凹非寺
量子位|公众号QbitAI千亿级参数AI大模型 , 竟然真的能获取代码了?!
一觉醒来 , AI圈发生了一件轰动的事情——
MetaAI开放了一个“重达”1750亿参数的大语言模型OPT-175B , 不仅参数比GPT-3的3750亿更少 , 效果还完全不输GPT-3——

文章图片
这意味着AI科学家们 , 终于可以“撬开”像GPT-3这样的大模型 , 看看里面到底有些什么秘密了 。
之前GPT-3虽然效果惊艳但不够开放 , 源代码独家授权给了微软 , 连马斯克都批评过OpenAI不够open 。

文章图片
虽然论文就在那里 , 想要在此之上做进一步研究的话就得先复现一个出来再说 。
而这一次 , Meta从完整模型到训练代码、部署代码全部开放 。
有人甚至在官宣之前就摸到还没上传好的GitHub仓库去蹲点了 。

文章图片
还有人艾特OpenAI试图“引战”:

文章图片
那么 , Meta大模型有何特点、如何做到绿色低能耗 , 又为何要对外开放?一起来看看 。
用16块V100就能跑起来OPT全称OpenPre-trainedTransformerLanguageModels , 即“开放的预训练Transformer语言模型” 。
相比GPT , 名字直接把Generative换成了Open , 可以说是非常内涵了 。 (手动狗头)
在论文中 , MetaAI也不避讳宣称OPT-175B就是对标GPT-3 , 还暗示一波自己更环保:

文章图片
MetaAI对此解释称 , OPT就是奔着开放代码去的 , 为了让更多人研究大模型 , 环境配置肯定是越经济越好 。
这不 , 运行时产生的碳足迹连GPT-3的1/7都不到 , 属实省能又高效 。
为了方便研究人员“量力而行” , MetaAI搞出了各种大小的OPT模型 , 从125M参数到1750亿参数的不同大小模型都有 。
其中 , 660亿参数的模型还在制作中 , 马上也会和大伙儿见面:

文章图片
所以 , 最大的OPT-175B模型究竟有多高效 , 又是怎么做到的?
性能方面 , MetaAI针对OPT-175B和GPT-3 , 用14个NLP任务进行了测试 。
结果表明 , 无论是零样本学习(zero-shot)还是多样本学习(Multi-shot) , OPT在这些任务上的平均精度都与GPT-3相差不大 。 其中虚线为GPT , 实线为OPT:

文章图片
△左为零样本学习 , 右为多样本学习再看具体任务 。 在对话任务中 , 采用无监督学习的方法训练OPT-175B , 效果和监督学习训练的几类模型相近:

文章图片
仇恨言论检测任务上的效果 , 更是完全超过Davinci版本的GPT-3模型(在GPT-3的四个版本中是效果最好的):

文章图片
训练硬件方面 , MetaAI用了992块英伟达A100GPU(80GB)训练OPT , 平均每块GPU的计算效率最高能达到147TFLOP/s 。
这个效率 , 甚至比英伟达自家研究人员用起来还高 , 大约超过17%左右 。
MetaAI透露称 , 一方面是采用了自家推出的一款名叫FSDP(FullyShardedDataParallel)的GPU内存节省工具 , 使得大规模训练的速度比传统方法快上5倍左右;
- meta|促进更逼真AR/VR体验,Meta正在开发全新空间音频工具
- meta|Meta带崩歌尔股份,元宇宙遇瓶颈
- meta|2022年《中国互联网络发展状况统计报告》
- meta|学习通被曝泄露1.7亿条信息!网友:快下架吧
- meta|从200多降到17元!互联网光环消退,大厂工牌不再值钱
- 显示器|郭明錤:Meta下调今年出货预期,推迟24年后所有新硬件
- meta|郭明錤:Meta下调今年出货预期,推迟24年后所有新硬件
- 小米科技|Meta、微软等科技巨头组建元宇宙标准论坛,用于制定元宇宙行业标准
- 扎克伯格肯定超级希望元宇宙(metaverse)赶快实现。|metarealitylabs发布vr头显原型机
- Meta公司公开了下一代VR眼镜…其目标是“无法区分虚拟与现实”
