Py学习  »  Python

Rust版本的DeepSeek-OCR来了,告别python原版的繁琐配置

新一代智能化应用 • 4 天前 • 226 次点击  



受够了DeepSeek-OCR原版的Python依赖地狱?有网友花时间把整个推理栈用Rust重写了一遍。

项目地址:https://github.com/TimmyOVO/deepseek-ocr.rs

为什么需要这个版本

原版DeepSeek-OCR基于Python+Transformers,依赖复杂,用户体验几乎为零。Rust版本解决了这些问题:

  • 没有Python,没有conda,只有一个二进制文件
  • 完全离线运行,文档处理保持私密
  • 完全兼容OpenAI API,可以直接接入现有客户端如Open WebUI
  • 支持苹果芯片的Metal加速(FP16)
  • 内置Hugging Face下载器,自动获取模型文件(约6.3GB)

技术实现

基于Candle框架重新实现了语言模型(DeepSeek-V2),包含KV缓存和可选的FlashAttention。完整复现了SAM+CLIP视觉流水线、图像分块、投影器和分词器对齐。

服务器基于Rocket框架,提供/v1/responses/v1/chat/completions端点,支持流式响应。还实现了单轮提示压缩,避免多轮对话历史污染OCR结果。

快速开始

不想自己编译?可以直接从GitHub Actions下载预构建的二进制文件(支持macOS+Metal和Windows),运行需要约13GB内存。

喜欢编译的话:

1git clone https://github.com/TimmyOVO/deepseek-ocr.rs


2cargo fetch

CLI使用:

1cargo run -p deepseek-ocr-cli -- --prompt"..."--image mydoc.png

启动服务器:

1cargo run -p deepseek-ocr-server -- --host0.0.0.0 --port8000

macOS用户可以使用Metal加速:

1cargo run --features metal -- --device metal --dtype f16

使用场景

  • 批量文档转换(收据转Markdown,合同转摘要等)
  • 接入Open WebUI,获得ChatGPT式体验但使用自己的OCR模型
  • 构建需要精确文本提取的文档问答机器人


除此之外,还有网友做了docker版本的,感兴趣也可以试用。

地址:https://github.com/rdumasia303/deepseek_ocr_app

如果你觉得这些项目不错,可以支持一下作者。 

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/188374