众筹超算直播训练1760亿参数AI大模型，九百工程师搞开源( 二 )

文章图片
在训练之前，研究者分析了其他超过1000亿参数的大模型是如何形成的。对于模型体量如何随规模增加而变化，也有很多研究可以参考：特别是Kaplan等人（2020年）和Levine等人（2020年）的研究。

文章图片

文章图片
速度
【众筹超算直播训练1760亿参数AI大模型，九百工程师搞开源】最后， BigScience的杰出工程师StasBekman对数百种配置进行了基准测试，以找到最快的配置。你可以在其网站中阅读更多相关信息。这一切都是为了找到一组magicnumber ，避免诸如tile/波量化之类的影响。
项目最终获取了三个有希望的配置，首先排除（1），因为注意力头过大，最终选择（3）是因为它比（2）快。速度很重要：每增加一点吞吐量就意味着更多的总计算量，能够带来更多的预训练token ，并形成更好的模型。

文章图片
此外， BigScience模型在检查点方面，仅bf16权重就有329GB ，具有优化器状态的完整检查点有2.3TB 。
BigScience的1760亿参数大模型训练始于美国西海岸时间2022年3月11日上午11点42分。
数据集
这个项目要用到一个TB级的多语言数据集，包含1.5TB（3500亿token）的文本数据。这个数据量是什么概念呢？如果你把它打印到A4纸上，这些纸可以堆成141座埃菲尔铁塔或5座珠穆朗玛峰。

文章图片
为了构建这个数据集，项目组成员分工完成了以下工作：
数据治理小组帮助定义了指导数据工作的具体价值，并提出了一个新的国际数据治理结构，包括一些支持性的技术和法律工具；
数据来源小组在全球范围内组织黑客松，帮助参与者利用当地专业知识建立了246种语言资源目录，并准备了605个相关网站的列表；
隐私工作小组致力于分类和策略，以降低隐私风险；
法律学术小组开发了一套涵盖九个司法管辖区的法律手册，其中包含不同的隐私和数据保护法规，以帮助ML从业者了解他们工作的法律背景。
由于数据规模过大，使用自动方法来对整个语料库进行自动筛选所带来的影响将非常不可控，同时，通过手动检查数据样本来获得良好的洞察也是一大挑战。为了应对这些挑战，并提高数据选择过程的可理解性和可说明性，项目人员在工作中优先考虑了以下方法：
1、构建支持大规模人工决策的工具，而不是完全自动化，在手动和自动之间找到一个平衡点。
2、更少的语言，更多的语言专业知识。将精力集中在能够投入足够资源的语言和语言组上。

文章图片
以下博文介绍了关于该数据集的更多细节：https://bigscience.huggingface.co/blog/building-a-tb-scale-multilingual-dataset-for-language-modeling
最后，关注这个项目的同学可以查看以下账户的直播信息：https://twitter.com/BigScienceLLM
参考链接：https://www.reddit.com/r/MachineLearning/comments/tfm7zb/n_live_and_open_training_of_bigsciences_176b/
时在中春，阳和方起——机器之心「AI科技年会」
机器之心AI科技年会将于3月23日在线上举办，本次活动分为三场论坛：
「人工智能论坛」直播间：http://live.bilibili.com/3519835