Py学习  »  chatgpt

#苹果官宣ChatGPT集成于全系统生态##苹果接入ChatGP-20240611120317

黄建同学 • 1 月前 • 48 次点击  

2024-06-11 12:03

#苹果官宣ChatGPT集成于全系统生态##苹果接入ChatGPT#
苹果今天在WWDC24演示的Siri,其背后可能用到了一个多模式视觉语言模型,Ferret-UI,可以理解 iOS 手机屏幕上的图标、小部件和文本,并推断它们的空间关系和功能含义。

你可以向 Ferret-UI 询问的示例问题:
- 提供此截图的摘要;
- 对于交互元素 [bbox],提供最能描述其功能的短语;
- 预测UI元素[bbox]是否可点击。

凭借强大的屏幕理解能力,向模型添加动作输出并使其成为成熟的设备助手。

这些在苹果之前的一篇论文里:arxiv.org/abs/2404.05719,
底层的MLM已经开源:github.com/apple/ml-ferret

论文:Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs,基于多模态大语言模型 (LLM) 的移动 UI 理解

论文摘要:
多模态大型语言模型 (MLLM) 的最新进展值得关注,然而,这些通用领域的 MLLM 往往在理解和有效与用户界面 (UI) 屏幕交互的能力方面存在不足。

在本文中,我们介绍了 Ferret-UI,这是一种专为增强对移动 UI 屏幕的理解而量身定制的新型 MLLM,具有引用、基础和推理功能。鉴于 UI 屏幕通常表现出比自然图像更长的纵横比,并且包含较小的感兴趣对象(例如图标、文本),我们在 Ferret 之上加入了“任何分辨率”来放大细节并利用增强的视觉特征。具体而言,每个屏幕根据原始纵横比分为 2 个子图像(即,纵向屏幕的水平划分和横向屏幕的垂直划分)。这两个子图像在发送到 LLM 之前分别进行编码。

我们从广泛的基本 UI 任务中精心收集训练样本,例如图标识别、查找文本和小部件列表。这些样本被格式化为指令跟随,并带有区域注释,以方便精确引用和基础。为了增强模型的推理能力,我们进一步编制了高级任务的数据集,包括详细描述、感知/交互对话和功能推理。在对精选数据集进行训练后,Ferret-UI 表现出对 UI 屏幕的出色理解和执行开放式指令的能力。

对于模型评估,我们建立了一个涵盖所有上述任务的综合基准。Ferret-UI 不仅超越了大多数开源 UI MLLM,而且在所有基本 UI 任务上也超越了 GPT-4V。

ChatGPT
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/171110
 
48 次点击