两周复刻DeepSeekOCR两人小团队还原DeepSeekOCR两人小团队,仅

量子位看科技 2025-11-07 20:08:02

两周复刻DeepSeekOCR两人小团队还原DeepSeekOCR

两人小团队,仅用两周就复刻了之前被硅谷夸疯的DeepSeek-OCR??

复刻版名叫DeepOCR,还原了原版低token高压缩的核心优势,还在关键任务上追上了原版的表现。

完全开源,而且无需依赖大规模的算力集群,在两张H200上就能完成训练。

这一波,彻底让“AI PDF压缩”成为小团队也能玩的事了。

DeepOCR保留了原版的视觉编码核心DeepEncoder构架:

- 第一步:用SAM-base切图,把1024×1024大图变成小块;

- 第二步:卷积压缩token数量,从4096压到256个;

- 第三步:CLIP接手压缩后的tokens,用全局注意力理解语义。

整段视觉处理流程追求的,就是最大化减小token冗余,实现文本→图片→再转文字的“视觉压缩”。

原版用的是参数量大的DeepSeek-3B-MoE做解码,复刻则换成了更常见的Qwen2-7B-Instruct,一来更兼容训练框架,二来全部开源也方便二次开发部署。

替换后的表现也没有显著差距,基础任务上甚至更强,尤其在表格识别这一横竖同步任务上有优越表现。

团队背景也很硬核:一位在清华+普林斯顿主攻多模态视觉,一位是北大物理转计算机方向、现就读爱荷华州立大学,均有Amazon、字节、NVIDIA等一线实习经历。

项目主页:

代码仓库:

0 阅读:17
量子位看科技

量子位看科技

感谢大家的关注