社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

#苹果官宣ChatGPT集成于全系统生态##苹果接入ChatGP-20240611120317

黄建同学 • 9 月前 • 483 次点击  

2024-06-11 12:03

#苹果官宣ChatGPT集成于全系统生态##苹果接入ChatGPT#
苹果今天在WWDC24演示的Siri,其背后可能用到了一个多模式视觉语言模型,Ferret-UI,可以理解 iOS 手机屏幕上的图标、小部件和文本,并推断它们的空间关系和功能含义。

你可以向 Ferret-UI 询问的示例问题:
- 提供此截图的摘要;
- 对于交互元素 [bbox],提供最能描述其功能的短语;
- 预测UI元素[bbox]是否可点击。

凭借强大的屏幕理解能力,向模型添加动作输出并使其成为成熟的设备助手。

这些在苹果之前的一篇论文里:arxiv.org/abs/2404.05719,
底层的MLM已经开源:github.com/apple/ml-ferret

论文:Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs,基于多模态大语言模型 (LLM) 的移动 UI 理解

论文摘要:
多模态大型语言模型 (MLLM) 的最新进展值得关注,然而,这些通用领域的 MLLM 往往在理解和有效与用户界面 (UI) 屏幕交互的能力方面存在不足。

在本文中,我们介绍了 Ferret-UI,这是一种专为增强对移动 UI 屏幕的理解而量身定制的新型 MLLM,具有引用、基础和推理功能。鉴于 UI 屏幕通常表现出比自然图像更长的纵横比,并且包含较小的感兴趣对象(例如图标、文本),我们在 Ferret 之上加入了“任何分辨率”来放大细节并利用增强的视觉特征。具体而言,每个屏幕根据原始纵横比分为 2 个子图像(即,纵向屏幕的水平划分和横向屏幕的垂直划分)。这两个子图像在发送到 LLM 之前分别进行编码。

我们从广泛的基本 UI 任务中精心收集训练样本,例如图标识别、查找文本和小部件列表。这些样本被格式化为指令跟随,并带有区域注释,以方便精确引用和基础。为了增强模型的推理能力,我们进一步编制了高级任务的数据集,包括详细描述、感知/交互对话和功能推理。在对精选数据集进行训练后,Ferret-UI 表现出对 UI 屏幕的出色理解和执行开放式指令的能力。

对于模型评估,我们建立了一个涵盖所有上述任务的综合基准。Ferret-UI 不仅超越了大多数开源 UI MLLM,而且在所有基本 UI 任务上也超越了 GPT-4V。

ChatGPT
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/171110
 
483 次点击