受够了DeepSeek-OCR原版的Python依赖地狱?有网友花时间把整个推理栈用Rust重写了一遍。
项目地址:https://github.com/TimmyOVO/deepseek-ocr.rs
为什么需要这个版本
原版DeepSeek-OCR基于Python+Transformers,依赖复杂,用户体验几乎为零。Rust版本解决了这些问题:
- 没有Python,没有conda,只有一个二进制文件
- 完全兼容OpenAI API,可以直接接入现有客户端如Open WebUI
- 内置Hugging Face下载器,自动获取模型文件(约6.3GB)
技术实现
基于Candle框架重新实现了语言模型(DeepSeek-V2),包含KV缓存和可选的FlashAttention。完整复现了SAM+CLIP视觉流水线、图像分块、投影器和分词器对齐。
服务器基于Rocket框架,提供/v1/responses和/v1/chat/completions端点,支持流式响应。还实现了单轮提示压缩,避免多轮对话历史污染OCR结果。
快速开始
不想自己编译?可以直接从GitHub Actions下载预构建的二进制文件(支持macOS+Metal和Windows),运行需要约13GB内存。
喜欢编译的话:
1git clone https://github.com/TimmyOVO/deepseek-ocr.rs
2cargo fetch
CLI使用:
1cargo run -p deepseek-ocr-cli -- --prompt"![]() ..."--image mydoc.png
..."--image mydoc.png
启动服务器:
1cargo run -p deepseek-ocr-server -- --host0.0.0.0 --port8000
macOS用户可以使用Metal加速:
1cargo run --features metal -- --device metal --dtype f16
使用场景
- 批量文档转换(收据转Markdown,合同转摘要等)
- 接入Open WebUI,获得ChatGPT式体验但使用自己的OCR模型
除此之外,还有网友做了docker版本的,感兴趣也可以试用。
地址:https://github.com/rdumasia303/deepseek_ocr_app
如果你觉得这些项目不错,可以支持一下作者。