Meta复刻GPT-3“背刺”OpenAI，完整模型权重及训练代码全公开

梦晨萧箫发自凹非寺
量子位|公众号QbitAI千亿级参数AI大模型，竟然真的能获取代码了？！
一觉醒来， AI圈发生了一件轰动的事情——
MetaAI开放了一个“重达”1750亿参数的大语言模型OPT-175B ，不仅参数比GPT-3的3750亿更少，效果还完全不输GPT-3——

文章图片
这意味着AI科学家们，终于可以“撬开”像GPT-3这样的大模型，看看里面到底有些什么秘密了。
之前GPT-3虽然效果惊艳但不够开放，源代码独家授权给了微软，连马斯克都批评过OpenAI不够open 。

文章图片
虽然论文就在那里，想要在此之上做进一步研究的话就得先复现一个出来再说。
而这一次， Meta从完整模型到训练代码、部署代码全部开放。
有人甚至在官宣之前就摸到还没上传好的GitHub仓库去蹲点了。

文章图片
还有人艾特OpenAI试图“引战”：

文章图片
那么， Meta大模型有何特点、如何做到绿色低能耗，又为何要对外开放？一起来看看。
用16块V100就能跑起来OPT全称OpenPre-trainedTransformerLanguageModels ，即“开放的预训练Transformer语言模型” 。
相比GPT ，名字直接把Generative换成了Open ，可以说是非常内涵了。（手动狗头）
在论文中， MetaAI也不避讳宣称OPT-175B就是对标GPT-3 ，还暗示一波自己更环保：

文章图片
MetaAI对此解释称， OPT就是奔着开放代码去的，为了让更多人研究大模型，环境配置肯定是越经济越好。
这不，运行时产生的碳足迹连GPT-3的1/7都不到，属实省能又高效。
为了方便研究人员“量力而行” ， MetaAI搞出了各种大小的OPT模型，从125M参数到1750亿参数的不同大小模型都有。
其中， 660亿参数的模型还在制作中，马上也会和大伙儿见面：

文章图片
所以，最大的OPT-175B模型究竟有多高效，又是怎么做到的？
性能方面， MetaAI针对OPT-175B和GPT-3 ，用14个NLP任务进行了测试。
结果表明，无论是零样本学习（zero-shot）还是多样本学习（Multi-shot）， OPT在这些任务上的平均精度都与GPT-3相差不大。其中虚线为GPT ，实线为OPT：

文章图片
△左为零样本学习，右为多样本学习再看具体任务。在对话任务中，采用无监督学习的方法训练OPT-175B ，效果和监督学习训练的几类模型相近：

文章图片
仇恨言论检测任务上的效果，更是完全超过Davinci版本的GPT-3模型（在GPT-3的四个版本中是效果最好的）：

文章图片
训练硬件方面， MetaAI用了992块英伟达A100GPU（80GB）训练OPT ，平均每块GPU的计算效率最高能达到147TFLOP/s 。
这个效率，甚至比英伟达自家研究人员用起来还高，大约超过17%左右。
MetaAI透露称，一方面是采用了自家推出的一款名叫FSDP（FullyShardedDataParallel）的GPU内存节省工具，使得大规模训练的速度比传统方法快上5倍左右；