oLLM 为大上下文离线推理打造了轻量级 Python 库,支持超长上下文(10万+ tokens)且无需量化,仅用 fp16/bf16 精度,搭配 ~$200 消费级 8GB 显卡即可运行主流大模型。• 支持模型:gpt-oss-20B、qwen3-next-80B(160GB,业内最快 1tok/2s)、Llama-3.1-8B-Instruct 等 • 极致显存优化:基于Flash ...