英伟达|中英文最大AI模型世界纪录产生,大模型竞赛新阶段来了( 二 )


英伟达与微软合体正是为此,同样面对该问题,浪潮在“源1.0”中也用了前沿的技术路径解决训练效率问题。
从“源1.0”的arXiv论文中,我们可以窥见这种提高计算效率的方法。
在对源的大规模分布式训练中,浪潮采用了张量并行、流水线并行和数据并行的三维并行策略。
“威震天-图灵”和“源1.0”一样,在张量并行策略中,模型的层在节点内的设备之间进行划分。
英伟达|中英文最大AI模型世界纪录产生,大模型竞赛新阶段来了
文章插图
流水线并行将模型的层序列在多个节点之间进行分割,以解决存储空间不足的问题。
英伟达|中英文最大AI模型世界纪录产生,大模型竞赛新阶段来了
文章插图
另外还有数据并行策略,将全局批次规模按照流水线分组进行分割。
英伟达|中英文最大AI模型世界纪录产生,大模型竞赛新阶段来了
文章插图
三家公司运用各自的技术,将最先进的GPU与尖端的分布式学习软件堆栈进行融合,实现了前所未有的训练效率,最终分别打造出英文领域和中文领域的最大AI单体模型。
训练超大规模自然语言模型成本升高,技术上殊途同归,形成研究机构与科技巨头协同发展,三种探索模式并驾齐驱的局面。
中英AI模型互有胜负训练成本趋高,技术趋同,为何各家公司还是选择独自研究,不寻求合作?
我们从GPT-3身上或许可见一斑。
去年发布的GPT-3不仅未开源,甚至连API都是限量提供,由于获得微软的投资,今后GPT-3将由微软独享知识产权,其他企业或个人想使用完整功能只能望洋兴叹。
【 英伟达|中英文最大AI模型世界纪录产生,大模型竞赛新阶段来了】训练成本奇高、道德伦理问题以及为了保证行业领先地位,让微软不敢下放技术。其他科技公司也不可能将自己的命运交给微软,只能选择独自开发。
尤其对于中国用户来说,以上一批超大模型都不是用中文数据集训练,无法使用在中文语境中。
中文语言的训练也比英文更难。英文由单词组成,具有天然的分词属性。
而中文需要对句子首先进行分词处理,如“南京市长江大桥”, 南京市|长江|大桥、南京|市长|江大桥,错误的分词会让AI产生歧义。
相比于英文有空格作为分隔符,中文分词缺乏统一标准,同样一个词汇在不同语境、不同句子中的含义可能会相差甚远,加上各种网络新词汇参差不齐、中英文混合词汇等情况,要打造出一款出色的中文语言模型需要付出更多努力。
所以国内公司更积极研究中文模型也就不难理解了。
即便难度更高,国内公司还一度处于全球领先,比如数据集和训练效率方面。
据浪潮论文透露,“源1.0”硬件上使用了2128块GPU,浪潮共搜集了850TB数据,最终清洗得到5TB高质量中文数据集。
英伟达|中英文最大AI模型世界纪录产生,大模型竞赛新阶段来了
文章插图
其文字数据体积多于“威震天-图灵”(835GB),而且中文信息熵大大高于英文,信息量其实更大。
在训练效率方面,“源1.0”训练用了16天,“图灵威-震天”用了一个多月,前者数据量是后者3倍有余,耗时却只有后者一半——
其专注中文,关注效率努力也可见一斑。
大模型你来我往间能看出,发展已走入百花齐放互不相让的阶段,这给我们带来新的思考:AI巨量模型既然不“闭门造车”,那如何走向合作?
多方合作可能才是未来表面上“威震天-图灵”(Megatron-Turing NLG)是第一次由两家科技巨头合作推出超大AI模型。
其背后,双方不仅组成了“超豪华”硬件阵容,在算法上也有融合。强强联合成为超大AI模型落地的一种新方式,