社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

oLLM 为大上下文离线推理打造了轻量级 Python 库,支持-20250924134945

爱可可-爱生活 • 昨天 • 65 次点击  

2025-09-24 13:49

oLLM 为大上下文离线推理打造了轻量级 Python 库,支持超长上下文(10万+ tokens)且无需量化,仅用 fp16/bf16 精度,搭配 ~$200 消费级 8GB 显卡即可运行主流大模型。

• 支持模型:gpt-oss-20B、qwen3-next-80B(160GB,业内最快 1tok/2s)、Llama-3.1-8B-Instruct 等
• 极致显存优化:基于Flash ...
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/187123
 
65 次点击