#苹果官宣ChatGPT集成于全系统生态##苹果接入ChatGP-20240611120317

2024-06-11 12:03
本条微博链接

#苹果官宣ChatGPT集成于全系统生态##苹果接入ChatGPT#
苹果今天在WWDC24演示的Siri，其背后可能用到了一个多模式视觉语言模型，Ferret-UI，可以理解 iOS 手机屏幕上的图标、小部件和文本，并推断它们的空间关系和功能含义。

你可以向 Ferret-UI 询问的示例问题：
- 提供此截图的摘要；
- 对于交互元素 [bbox]，提供最能描述其功能的短语；
- 预测UI元素[bbox]是否可点击。

凭借强大的屏幕理解能力，向模型添加动作输出并使其成为成熟的设备助手。

这些在苹果之前的一篇论文里：arxiv.org/abs/2404.05719，
底层的MLM已经开源：github.com/apple/ml-ferret

论文：Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs，基于多模态大语言模型 (LLM) 的移动 UI 理解

论文摘要：
多模态大型语言模型 (MLLM) 的最新进展值得关注，然而，这些通用领域的 MLLM 往往在理解和有效与用户界面 (UI) 屏幕交互的能力方面存在不足。

在本文中，我们介绍了 Ferret-UI，这是一种专为增强对移动 UI 屏幕的理解而量身定制的新型 MLLM，具有引用、基础和推理功能。鉴于 UI 屏幕通常表现出比自然图像更长的纵横比，并且包含较小的感兴趣对象（例如图标、文本），我们在 Ferret 之上加入了“任何分辨率”来放大细节并利用增强的视觉特征。具体而言，每个屏幕根据原始纵横比分为 2 个子图像（即，纵向屏幕的水平划分和横向屏幕的垂直划分）。这两个子图像在发送到 LLM 之前分别进行编码。

我们从广泛的基本 UI 任务中精心收集训练样本，例如图标识别、查找文本和小部件列表。这些样本被格式化为指令跟随，并带有区域注释，以方便精确引用和基础。为了增强模型的推理能力，我们进一步编制了高级任务的数据集，包括详细描述、感知/交互对话和功能推理。在对精选数据集进行训练后，Ferret-UI 表现出对 UI 屏幕的出色理解和执行开放式指令的能力。

对于模型评估，我们建立了一个涵盖所有上述任务的综合基准。Ferret-UI 不仅超越了大多数开源 UI MLLM，而且在所有基本 UI 任务上也超越了 GPT-4V。

ChatGPT