谷歌推出新型语言模型Switch Transformer

2021-01-13  美国 来源:新智元 领域:信息

关键词:

据新智元1月13日消息,谷歌公司推出新的超级语言模型Switch Transformer,拥有1.6万亿个参数,远超OpenAI公司开发的GPT-3语言模型的1750亿,它的训练速率比谷歌早期开发的T5-XXL语言模型快了4倍。一般来说,在自然语言处理NLP领域,参数数量和复杂程度之间具有正相关性。谷歌公司研究人员表示,大规模训练是通向强大模型的有效途径,但是有效的大规模训练需要大量的计算。在Switch Transformer模型的开发中,研究人员通过简化一个超大规模的神经网络——稀疏门控混合专家层(Mixture-Of-Experts,MoE),得到了一个易于理解、易于训练的体系结构。该结构比同等大小的密集模型具有更强的采样效率。最终,Switch Transformer模型在一系列不同的自然语言任务和不同的训练机制中,包括预训练、微调和多任务训练,都表现出色。这些进步使得使用数千亿到万亿参数训练模型成为可能,相对于密集的T5基准,Switch Transformer模型可以实现显著的加速。研究人员希望他们的工作能够使得稀疏模型成为一种有效的架构,并鼓励研究人员和实践者在自然语言任务中考虑这些灵活的模型。 
https://mp.weixin.qq.com/s/UC8WIOjpJpADzoN6931Vyg