开源|DeepSeek-OCR:突破长上下文压缩瓶颈,日生成20万页训练数据
thinkindev • 2025-10-21
4361 views
DeepSeek-AI团队最新开源的DeepSeek-OCR项目在长上下文压缩技术领域实现重要突破。该项目通过创新的光学二维映射技术,探索将长文本上下文进行高效压缩的可行性。系统由DeepEncoder核心引擎和DeepSeek3B-Moe-A570M解码器构成完整架构,能够将文本信息转化为视觉表示并进行重建。令人瞩目的是,该平台具备强大的数据生成能力,每日可产出超过20万页的大规模训练数据,为大语言模型和多模态模型的训练提供了宝贵资源。实验数据显示,当文本令牌数量控制在视觉令牌10倍以内时,模型解码精度可达97%,这一指标充分证明了该技术在信息保真度方面的卓越表现。该技术的突破对于解决当前大模型处理长文档时的内存和计算瓶颈具有重要意义,为下一代多模态AI系统的发展开辟了新路径。
核心要点
- 采用光学二维映射技术实现长上下文压缩,文本令牌在视觉令牌10倍内时解码精度达97%
- 系统由DeepEncoder引擎和DeepSeek3B-Moe-A570M解码器组成,具备完整编码解码架构
- 日生成训练数据能力超20万页,为大语言模型和多模态模型提供大规模训练资源