2025-10-21 中国 来源:https://news.aibase.com/zh/news/22117 领域:信息
关键词:
据AIbase网10月21日消息,中国DeepSeek发布全新光学字符识别(OCR)开源模型DeepSeek-OCR。该模型是一种端到端的视觉语言模型(VLM),由高分辨率输入的视觉编码器DeepEncoder和名为DeepSeek3B-MoE-A570M的专家混合解码器组成,旨在通过将长文本压缩为一小组视觉标记,随后利用语言模型进行解码,从而实现高效的文档解析。测试结果显示,DeepSeek-OCR在Fox基准测试中实现了97%的解码精度,当文本标记数与视觉标记数的比例为10倍时,精度依然保持良好,甚至在20倍压缩下也能表现出有用的特性。DeepSeek-OCR初步验证了“上下文光学压缩”的可行性,标志着文档人工智能领域的一次重要突破。