2025-06-05 美国 来源:其他 领域:信息
关键词:
据AIbase网6月4日消息,美国英伟达公司推出Llama Nemotron Nano VL视觉-语言模型(VLM),旨在高效、精准地处理文档级理解任务。该模型基于Llama 3.1架构,融合了CRadioV2-H视觉编码器和Llama 3.1 8B指令微调语言模型,能同时处理多页文档中的视觉和文本元素,支持最长16K的上下文长度,尤其适用于长篇多模态任务。该模型在OCRBench v2基准测试中,在OCR、表格解析和图表推理等任务上取得了领先精度,尤其在结构化数据提取和布局相关问题解答中表现突出,媲美更大规模模型。在部署方面,Llama Nemotron Nano VL设计灵活,支持服务器和边缘推理场景,并提供4-bit量化版本,兼容Jetson Orin等受限环境。