社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

#老乡鸡菜谱开源了##我在GitHub学做老乡鸡#老乡鸡菜谱在G-20250919105055

一天Vibe个工具，看真实用户吐槽ChatGPT、豆包、Kimi...

Nature重磅！超越传统:深度学习赋予基因组学“透视未来”的魔力，改写生命分析规则

朝鲜黑客组织Kimsuky利用ChatGPT伪造军人证件实施新型攻击

【Freqtrade】9 大核心功能 + 3 步上手：这款 Python 量化机器人让加密交易自动化

人工智能（AIGC）素质素养岗位能力业务培训班开启报名

2025 年顶级编程语言排行榜：Python 第一毫无悬念

搞定 Nginx 生产部署：避坑指南 + 最佳实践

在 Docker 里跑 Windows？有点离谱，但真能跑～

oLLM 为大上下文离线推理打造了轻量级 Python 库，支持-20250924134945

关注

Py学习 » Python

oLLM 为大上下文离线推理打造了轻量级 Python 库，支持-20250924134945

爱可可-爱生活 • 昨天 • 65 次点击

2025-09-24 13:49
本条微博链接

oLLM 为大上下文离线推理打造了轻量级 Python 库，支持超长上下文（10万+ tokens）且无需量化，仅用 fp16/bf16 精度，搭配 ~$200 消费级 8GB 显卡即可运行主流大模型。

• 支持模型：gpt-oss-20B、qwen3-next-80B（160GB，业内最快 1tok/2s）、Llama-3.1-8B-Instruct 等
• 极致显存优化：基于Flash ...

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/187123

65 次点击

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)