全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

美国英伟达公司发布Llama Nemotron Nano VL模型，专注文档级理解

2025-06-05 美国来源：其他领域：信息

关键词：

据AIbase网6月4日消息，美国英伟达公司推出Llama Nemotron Nano VL视觉-语言模型（VLM），旨在高效、精准地处理文档级理解任务。该模型基于Llama 3.1架构，融合了CRadioV2-H视觉编码器和Llama 3.1 8B指令微调语言模型，能同时处理多页文档中的视觉和文本元素，支持最长16K的上下文长度，尤其适用于长篇多模态任务。该模型在OCRBench v2基准测试中，在OCR、表格解析和图表推理等任务上取得了领先精度，尤其在结构化数据提取和布局相关问题解答中表现突出，媲美更大规模模型。在部署方面，Llama Nemotron Nano VL设计灵活，支持服务器和边缘推理场景，并提供4-bit量化版本，兼容Jetson Orin等受限环境。