美国英伟达公司发布Llama-3.1-Nemotron-Ultra-253B-v1模型,实现性能和效率的重大突破

2025-04-14  全球 来源:https://www.ithome.com/0/844/789.htm 领域:信息

关键词:

据IT之家4月12日消息,美国英伟达公司发布2530亿参数的 Llama-3.1-Nemotron-Ultra-253B-v1大模型(以下简称Nemotron Ultra)。该模型在推理能力、架构效率和生产准备度上均实现重大突破。推理能力上,Nemotron Ultra支持128K token的上下文窗口,可处理长篇文本,适合高级RAG系统和多文档分析。此外,Nemotron Ultra采用前馈网络(FFN)融合技术,在保证模型性能的同时大幅缩短了推理时间。架构效率上,Nemotron Ultra采用仅解码器的密集Transformer结构,通过神经架构搜索(NAS)算法优化,创新性地采用跳跃注意力机制,支持从工具使用到多轮复杂指令执行等任务。部署效率上,Nemotron Ultra能在单8xH100节点上运行推理,显著降低了数据中心成本,提升了企业开发者的可及性。