【MLC-LLM引擎：通用大型语言模型部署引擎，支持机器学习编译-20240608090211

2024-06-08 09:02
本条微博链接

【MLC-LLM引擎：通用大型语言模型部署引擎，支持机器学习编译，实现云端和本地环境的高效部署】
- 当前LLM部署存在云端和本地环境的区分，MLC-LLM试图实现一个通用的部署引擎。它使用机器学习编译技术自动生成可移植的GPU代码，支持多种硬件和平台。
- MLCEngine提供了OpenAI风格的API，包括Python、Swift、Kotlin等语言绑定，实现了从云服务器到移动设备的无缝迁移。
- 支持连续批处理、预测解码、公共前缀缓存等技术，使其在云端具有高吞吐量和低延迟。同时保证在移动端的高性能。
- JSON模式下可生成结构化输出，遵循通用JSON格式或自定义schema。这可大大提升LLM的可控性和实用性。
- 已在Steam Deck、Orange Pi等平台验证，充分利用Vulkan和WebGPU使LLM部署更广泛。编译优化可减少工程量。
- 云端和本地共享同一代码库和优化技术，互相促进。未来可支持更多模型，做更多系统优化，使LLM部署更高效通用。
- MLC-LLM是一个开源项目，与社区共同推进，目标是让基础模型更普及开放。它为LLM在任何环境的部署提供了一个统一高效的解决方案。
'MLC-LLM: Universal LLM Deployment Engine with ML Compilation'

网页链接 #大型语言模型# #云端部署# #本地部署#