Py学习  »  机器学习算法

【#苹果发布视觉语言模型#】#苹果为智能眼镜铺路# 苹果机器学习-20250513145549

新浪科技 • 2 月前 • 84 次点击  

2025-05-13 14:55

#苹果发布视觉语言模型##苹果为智能眼镜铺路# 苹果机器学习团队上周在 GitHub 发布并开源了一款视觉语言模型 ——FastVLM,提供 0.5B、1.5B、7B 三个版本。

据介绍,该模型基于苹果自研 MLX 框架开发并借助 LLaVA 代码库进行训练,专为 Apple Silicon 设备的端侧 AI 运算进行优化。

技术文档显示,FastVLM 在保持精度的前提下,实现了高分辨率图像处理的近实时响应,同时所需的计算量比同类模型要少得多。

其核心是一个名为 FastViTHD 的混合视觉编码器。苹果团队表示,该编码器“专为在高分辨率图像上实现高效的 VLM 性能而设计”,其处理速度较同类模型提升 3.2 倍,体积却仅有 3.6 分之一。

苹果技术团队指出:“基于对图像分辨率、视觉延迟、词元数量与 LLM 大小的综合效率分析,我们开发出 FastVLM—— 该模型在延迟、模型大小和准确性之间实现了最优权衡。”

该技术的应用场景指向苹果正在研发的智能眼镜类穿戴设备。多方信息显示,苹果计划于 2027 年推出对标 Meta Ray-Bans 的 AI 眼镜,同期或将发布搭载摄像头的 AirPods 设备。(IT之家)
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182102
 
84 次点击