资讯

用更少GPU更快地完成2457亿参数巨量模型训练，浪潮信息是如何实现的？

2022-01-14| 来源：互联网| 查看: 317| 评论: 0

摘要: 巨量模型是当前人工智能研究的热点，但以十年尺度来看仍处于起步阶段，模型训练和部署依然面临着巨大挑战。......

巨量模型是当前人工智能研究的热点，但以十年尺度来看仍处于起步阶段，模型训练和部署依然面临着巨大挑战。日前，2021 NeurIPS MeetUp China举办，浪潮信息副总裁、AI&HPC产品线总经理刘军基于2457亿参数的“源1.0”中文语言模型，分享了浪潮人工智能研究院在巨量模型训练方面的领先实践。

浪潮信息刘军表示：“训练工作中最复杂也最具挑战的技术点在于如何行之有效地完成数千万级参数的模型训练”。因此，巨量模型训练工作，需要在模型算法、分布式训练、大规模集群计算等各个层面进行协同设计、优化，才能保证模型训练过程收敛。为此，浪潮信息采用了张量并行、流水线并行和数据并行的“三合一”并行策略。

首先，将266台AI服务器共计2128个GPU芯片分成7组，每组38台AI服务器放置一个完整的“源1.0”大模型；其次，每组的38个服务器，采用流水并行每个服务器放置1/38的模型（2个Transformer Layer），一共76层；最后，在每台服务器内采用张量并行，按照Transformer结构的每一层进行均匀切分。在此过程中，浪潮人工智能研究院也通过“增加序列长度”、“减少模型层数”、“增加隐藏层大小”、“增加节点中微批次大小”等模型结构策略，提升训练效率。基于此，浪潮人工智能研究院完成2457亿参数的“源 1.0” 模型训练，总计训练1800亿个tokens，模型收敛的交叉熵为1.64。