2024-02-21 美国 来源:其他 作者:唐乾琛 领域:信息
关键词:
据量子位2月20日消息,美国初创公司Groq发布语言处理单元(LPU)芯片,大模型推理加速性能卓越。该产品的推理速度已经接近每秒500词元(Tokens) ,最快可达到每秒750 Tokens。Groq公司由谷歌TPU芯片团队原成员创立,领导层10人中有5人都曾有谷歌的工作经历,3人曾在英特尔工作。该公司的LPU芯片采用14nm制程,其核心优势是克服了两个大语言模型推理的瓶颈——计算密度和内存带宽,搭载了230MB的SRAM存储器来保证内存带宽,片上内存带宽达到80TB/s,整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。LPU芯片主要基于TSP架构,结合Dragonfly网络拓扑设计,提高了系统的并行处理能力和效率。目前,Groq LPU芯片支持Mixtral 8x7B SMoE和Llama 2模型的推理。LPUGroq公司的目标是打造最快的大模型硬件,希望在3年内超越英伟达。