2025-08-19 中国 来源:https://www.pingwest.com/w/306939 领域:信息
关键词:
据品玩网8月18日消息,中国阿里巴巴自然语言处理团队推出首个开源的多模态深度研究智能体WebWatcher。该智能体旨在突破现有闭源系统和开源智能体在多模态深度研究领域的局限。目前,闭源系统在文本深度研究方面表现出色,但难以处理图像、图表等多模态内容,而开源智能体专注文本检索,无法处理图像。基于此,WebWatcher整合了网页浏览、图像搜索、代码解释器、内部OCR等多种工具,具备视觉理解、逻辑推理、知识调用、工具调度、自我验证能力,能处理复杂多模态任务。根据测评结果,WebWatcher在复杂推理、信息检索、知识整合、信息聚合等四大核心领域,全面领先主流开源与闭源多模态大模型。在人类终极考试(HLE-VL)基准中,其Pass@1分数达13.6%,远超GPT-4o的9.8%。