全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

谷歌推出新型语言模型Switch Transformer

2021-01-13 美国来源：新智元领域：信息

关键词：

据新智元1月13日消息，谷歌公司推出新的超级语言模型Switch Transformer，拥有1.6万亿个参数，远超OpenAI公司开发的GPT-3语言模型的1750亿，它的训练速率比谷歌早期开发的T5-XXL语言模型快了4倍。一般来说，在自然语言处理NLP领域，参数数量和复杂程度之间具有正相关性。谷歌公司研究人员表示，大规模训练是通向强大模型的有效途径，但是有效的大规模训练需要大量的计算。在Switch Transformer模型的开发中，研究人员通过简化一个超大规模的神经网络——稀疏门控混合专家层（Mixture-Of-Experts，MoE），得到了一个易于理解、易于训练的体系结构。该结构比同等大小的密集模型具有更强的采样效率。最终，Switch Transformer模型在一系列不同的自然语言任务和不同的训练机制中，包括预训练、微调和多任务训练，都表现出色。这些进步使得使用数千亿到万亿参数训练模型成为可能，相对于密集的T5基准，Switch Transformer模型可以实现显著的加速。研究人员希望他们的工作能够使得稀疏模型成为一种有效的架构，并鼓励研究人员和实践者在自然语言任务中考虑这些灵活的模型。
https://mp.weixin.qq.com/s/UC8WIOjpJpADzoN6931Vyg