全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

中国DeepSeek开源全新OCR模型，探索视觉-文本压缩边界

2025-10-21 中国来源：https://news.aibase.com/zh/news/22117 领域：信息

关键词：

据AIbase网10月21日消息，中国DeepSeek发布全新光学字符识别（OCR）开源模型DeepSeek-OCR。该模型是一种端到端的视觉语言模型（VLM），由高分辨率输入的视觉编码器DeepEncoder和名为DeepSeek3B-MoE-A570M的专家混合解码器组成，旨在通过将长文本压缩为一小组视觉标记，随后利用语言模型进行解码，从而实现高效的文档解析。测试结果显示，DeepSeek-OCR在Fox基准测试中实现了97%的解码精度，当文本标记数与视觉标记数的比例为10倍时，精度依然保持良好，甚至在20倍压缩下也能表现出有用的特性。DeepSeek-OCR初步验证了“上下文光学压缩”的可行性，标志着文档人工智能领域的一次重要突破。