当前大型语言模型(LLMs)在处理超长文本内容时面临严峻的计算挑战,其计算量随序列长度呈二次方增长。例如在超大文本的总结应用中,文本tokens超过了大模型的有限窗口,此时只能对输入文本进行压缩,DeepSeek-OCR探索了一种潜在解决方案 -- 光学压缩。
光学压缩:利用视觉模态作为文本信息的高效压缩载体。单张包含文档文本的图像,能够以远少于等效数字文本的 tokens 数量承载丰富信息,这表明通过视觉 tokens 实现的光学压缩有望达成更高的压缩比。
1 模型部署
本文基于 Ollama 本地部署 deepseek-ocr:3b。
1.1 Ollama安装
可参考官方文档,或本文:https://junki.cn/archives/igCtxGvh
1.2 安装模型
执行命令:
ollama run deepseek-ocr
当前latest指向deepseek-ocr:3b模型,大小6.7GB。
2 模型体验
请注意,模型对其输入很敏感。例如,缺少标点符号或新增行可能导致输出不正确。
2.1 准备源图片
本文使用的本地图片路径:/Users/junki/Downloads/math.png
图片预览:

2.2 图片OCR
执行命令:
ollama run deepseek-ocr "/Users/junki/Downloads/math.png\n<|grounding|>OCR this image."
运行结果:
Added image '/Users/junki/Downloads/math.png'
<|ref|>四、解答题:本题共5小题,共77分。解答应写出文字说明、证明过程或演算步骤。<|/ref|><|det|>[[91, 40, 874,
58]]<|/det|>
<|ref|>15.(13分)<|/ref|><|det|>[[91, 75, 204, 93]]<|/det|>
<|ref|>已知函数f(x)=cos(2x+0)(0≤0≤π),f(0)=<|/ref|><|det|>[[133, 111, 589, 140]]<|/det|>
<|ref|>(1)求p;<|/ref|><|det|>[[143, 157, 237, 179]]<|/det|>
<|ref|>(2)函数g(x)=f(x)+f(x-),求g(x)的值域和单调区间<|/ref|><|det|>[[143, 197, 695, 224]]<|/det|>
<|ref|>16.(15分)<|/ref|><|det|>[[91, 324, 204, 343]]<|/det|>
<|ref|>椭圆C:<|/ref|><|det|>[[135, 366, 205, 385]]<|/det|>
<|ref|>x²y²<|/ref|><|det|>[[199, 357, 270, 385]]<|/det|>
<|ref|>(a>b>0)的离心率为<|/ref|><|det|>[[274, 364, 509, 388]]<|/det|>
<|ref|>2<|/ref|><|det|>[[519, 382, 535, 397]]<|/det|>
<|ref|>长轴长为4.<|/ref|><|det|>[[559, 364, 674, 388]]<|/det|>
<|ref|>(1)求C的方程;<|/ref|><|det|>[[143, 410, 304, 431]]<|/det|>
<|ref|>(2)过点(0,-2)的直线1与C交于A,B两点,O为坐标原点,若△OAB的面积是<|/ref|><|det|>[[143, 442, 905,
463]]<|/det|>
<|ref|>√2,求|AB|.<|/ref|><|det|>[[94, 473, 224, 497]]<|/det|>
<|ref|>17.(15分)<|/ref|><|det|>[[91, 589, 204, 608]]<|/det|>
<|ref|>如图,四边形ABCD中,AB//CD,DAB=90°,F为CD的中点,E在AB上,EF<|/ref|><|det|>[[133, 619, 909, 639]]<|/det|>
<|ref|>//AD,AB=3AD,CD=2AD.将四边形EFDA沿EF翻折至四<|/ref|><|det|>[[94, 652, 694, 670]]<|/det|>
<|ref|>边形EFD'A',使得平面EFD'A'与平面EFCB所成的二面角为60°<|/ref|><|det|>[[91, 682, 699, 702]]<|/det|>
<|ref|>(1)证明:A'B//平面CD'F;<|/ref|><|det|>[[143, 713, 409, 731]]<|/det|>
<|ref|>(2)求平面BCD'与平面EFD'A'所成二面角的正弦值<|/ref|><|det|>[[143, 745, 634, 763]]<|/det|>
<|ref|>A<|/ref|><|det|>[[601, 956, 619, 970]]<|/det|>
<|ref|>B<|/ref|><|det|>[[880, 956, 894, 967]]<|/det|>
2.3 无布局OCR
执行命令:
ollama run deepseek-ocr "/Users/junki/Downloads/math.png\nFree OCR."
运行结果:
Added image '/Users/junki/Downloads/math.png'
四、解答题:本题共 5 小题,共 77 分。解答应写出文字说明、证明过程或演算步骤。
15. (13 分)
已知函数 \( f(x) = \cos(2x + \varphi) \)(\( 0 \leq \varphi \leq \pi \)),\( f(0) = \frac{1}{2} \)。
(1)求 \( \varphi \);
(2)函数 \( g(x) = f(x) + f(x - \frac{\pi}{6}) \),求 \( g(x) \) 的值域和单调区间。
16. (15 分)
椭圆 \( C: \frac{x^2}{a^2} + \frac{y^2}{b^2} = 1 \)(\( a > b > 0 \))的离心率为 \( \frac{\sqrt{2}}{2} \),长轴长为 4。
(1)求 \( C \) 的方程;
(2)过点 \( (0, -2) \) 的直线 \( l \) 与 \( C \) 交于 \( A, B \) 两点,\( O \) 为坐标原点,若 \( \triangle OAB \) 的面积
是 \( \sqrt{2} \),求 \( |AB| \)。
17. (15 分)
如图,四边形 \( ABCD \) 中,\( AB // CD \),\( \angle DAB = 90^\circ \),\( F \) 为 \( CD \) 的中点,\( E \) 在 \( AB \)
上,\( EF // AD \),\( AB = 3AD \),\( CD = 2AD \)。将四边形 \( EFDA \) 沿 \( EF \) 翻折至四边形 \( EFD'A' \),使得平面
\( EFD'A' \) 与平面 \( EFCB \) 所成的二面角为 \( 60^\circ \)。
(1)证明:\( A'B // \) 平面 \( CD'F \);
(2)求平面 \( BCD' \) 与平面 \( EFD'A' \) 所成二面角的正弦值。
\[\begin{array}{c}
\text{图} \\
\text{图}
\end{array}\]
2.4 描述图片
执行命令:
ollama run deepseek-ocr "/Users/junki/Downloads/math.png\nDescribe this image in detail."
运行结果:
Added image '/Users/junki/Downloads/math.png'
**Text Content (OCR Output):**
```
四、解答题:本题共5小题,共77分。解答应写出文字说明、证明过程或演算步骤。
15. (13分)
已知函数 f(x)=cos(2x+φ)(0≤φ≤π), f(0)=1/2.
(1) 求 φ;
(2) 函数 g(x)=f(x)+f(x-π/6), 求 g(x) 的值域和单调区间.
16. (15分)
椭圆 C: x^2/a^2 + y^2/b^2 = 1 (a>b>0) 的离心率为 sqrt(2)/2, 长轴长为 4.
(1) 求 C 的方程;
(2) 过点 (0,-2) 的直线 l 与 C 交于 A, B 两点, O 为坐标原点, 若 ΔOAB 的面积是 sqrt(2), 求 |AB|.
17. (15分)
如图, 四边形 ABCD 中, AB // CD, ∠DAB = 90°, F 为 CD 的中点, E 在 AB 上, EF // AD, AB = 3AD, CD = 2AD. 将四边形 EFDA 沿
EF 翻折至四边形 EF'D'A', 使得平面 EF'D'A' 与平面 EFCB 所成的二面角为 60°.
(1) 证明: A'B // 平面 CD'F;
(2) 求平面 BCD' 与平面 EF'D'A' 所成二面角的正弦值.
A' B' C' D'
```
**Image Description:**
The document contains three mathematical problems labeled as 15, 16, and 17 along with corresponding solutions provided
below each problem statement. Each question involves calculus concepts like trigonometric functions, algebraic
equations, geometry involving ellipses, and vector operations related to planes and angles between lines/planes.
The first part focuses on solving an equation using trigonometric identities:
- Problem number 15 asks you to find the value of φ based on given conditions about cosine function properties.
- Problem number 16 requires finding the equation of ellipse C given its properties including semi-major axis length and
eccentricity.
- Problem number 17 presents a geometric transformation problem concerning quadrilateral ABCD and its properties
regarding parallelism and angle relationships among different planes and points.
The second section appears to involve proving properties about line segments intersecting at specific points relative to
ellipses and triangles formed through these intersections.
The third segment seems to discuss constructing new planes via reflections over certain planes which might relate back
to earlier discussions around parallelism and angle measures concerning those planes.
2.5 更多示例
官方示例图解:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/README.md#visualizations
2.6 现阶段问题
- 模型对其输入过度敏感,使用官方推荐Prompt才可保证结果可用。
- 模型不稳定,时常陷入无限推理输出的异常情况。
3 体验总结
DeepSeek-OCR 提出的 “光学压缩” 创新极具价值,通过视觉模态高效承载文本信息,有效破解大模型处理超长文本时计算量激增的核心痛点,是该技术方向的一次优秀探索。在实际测试中,其数学图片 OCR 表现精准,不仅能完整提取题目文本,还可结构化关联内容与坐标,自动补全缺失公式符号并梳理逻辑框架。但模型存在明显短板,对输入 Prompt 过度敏感,需严格遵循官方固定指令才能保证效果,且运行时易出现无限推理的异常情况,影响使用稳定性。
4 参考资料
DeepSeek-OCR开源地址:https://github.com/deepseek-ai/DeepSeek-OCR.git
DeepSeek-OCR论文链接:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
Ollama模型介绍页:https://ollama.com/library/deepseek-ocr