爆火AutoGPT获1200万美元融资，GitHub已有151k星

关注“FightingCV”公众号

回复“AI”即可获得超100G人工智能的教程

点击进入→ FightingCV交流群

今年爆火的智能体项目AutoGPT，现获得了1200万美元融资。

如今，AutoGPT在GitHub主页上已经有151k星。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

Auto-GPT是如何工作的？

不得不说，Auto-GPT在AI领域掀起了巨大的波澜，它就像是赋予了GPT-4记忆和实体一样，让它能够独立应对任务，甚至从经验中学习，不断提高自己的性能。

为了便于Auto-GPT是如何工作的，让我们可以用一些简单的比喻来分解它。

首先，想象Auto-GPT是一个足智多谋的机器人。

我们每分配一个任务，Auto-GPT都会给出一个相应的解决计划。比如，需要浏览互联网或使用新数据，它便会调整其策略，直到任务完成。

这就像拥有一个能处理各种任务的私人助手，如市场分析、客户服务、市场营销、财务等。

具体来说，想让Auto-GPT运行起来，就需要依靠以下4个组件：

架构：

Auto-GPT是使用强大的GPT-4和GPT-3.5语言模型构建的，它们充当机器人的大脑，帮助它思考和推理。

自主迭代：

这就像机器人从错误中学习的能力。Auto-GPT 可以回顾它的工作，在以前的努力的基础上再接再厉，并利用它的历史来产生更准确的结果。

内存管理：

与矢量数据库（一种内存存储解决方案）集成，使Auto-GPT能够保留上下文并做出更好的决策。这就像给机器人配备了长时记忆，可以记住过去的经历。

多功能性：

Auto-GPT的文件操作、网页浏览和数据检索等功能使其用途广泛。这就像赋予机器人多种技能来处理更广泛的任务。

然而，这些诱人的前景可能尚未转化为Auto-GPT真正可以实现的能力。

智能体机制的诞生

Auto-GPT引入了一个非常有趣的概念，允许生成智能体来委托任务。

虽然，这种机制还处于初级阶段，其潜力尚未被充分挖掘。不过，有多种方法可以增强和扩展当前的智能体系统，为更高效、更具动态性的互动提供新的可能性。

使用异步智能体可以显着提高效率

一个潜在的改进是引入异步智能体。通过结合异步等待模式，智能体可以并发操作而不会阻塞彼此，从而显著提高系统的整体效率和响应速度。这个概念受到了现代编程范式的启发，这些范式已经采用了异步方法来同时管理多个任务。

另一个有前景的方向是实现智能体之间的相互通信。通过允许智能体进行通信和协作，它们可以更有效地共同解决复杂问题。

这种方法类似于编程中的IPC概念，其中多个线程/进程可以共享信息和资源以实现共同目标。

生成式智能体是未来的方向

随着GPT驱动的智能体不断发展，这种创新方法的未来似乎十分光明。

新的研究，如「Generative Agents: Interactive Simulacra of Human Behavior」，强调了基于智能体的系统在模拟可信的人类行为方面的潜力。

论文中提出的生成式智能体，可以以复杂且引人入胜的方式互动，形成观点，发起对话，甚至自主计划和参加活动。这项工作进一步支持了智能体机制在AI发展中具有前景的论点。

通过拥抱面向异步编程的范式转变并促进智能体间通信，Auto-GPT可以为更高效和动态的问题解决能力开辟新可能。

将《生成式智能体》论文中引入的架构和交互模式融入其中，可以实现大型语言模型与计算、交互式智能体的融合。

这种组合有可能彻底改变在AI框架内分配和执行任务的方式，并实现更为逼真的人类行为模拟。

智能体系统的开发和探索可极大地促进AI应用的发展，为复杂问题提供更强大且动态的解决方案。

参考资料：

https://twitter.com/Auto_GPT/status/1713009267194974333

新智元

往期回顾

基础知识

【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇

【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇（超多图警告）

【CV知识点汇总与解析】| 技术发展篇 (超详细！！！)

ECCV2022 Oral | 微软提出UNICORN，统一文本生成与边框预测任务

NeurIPS 2022 | VideoMAE：南大&腾讯联合提出第一个视频版MAE框架，遮盖率达到90%

NeurIPS 2022 | 清华大学提出OrdinalCLIP，基于序数提示学习的语言引导有序回归

SlowFast Network：用于计算机视觉视频理解的双模CNN

WACV2022 | 一张图片只值五句话吗？UAB提出图像-文本匹配语义的新视角！

CVPR2022 | Attention机制是为了找最相关的item？中科大团队反其道而行之！

ECCV2022 Oral | SeqTR：一个简单而通用的 Visual Grounding网络

如何训练用于图像检索的Vision Transformer？Facebook研究员解决了这个问题！

ICLR22 Workshop | 用两个模型解决一个任务，意大利学者提出维基百科上的高效检索模型

See Finer, See More！腾讯&上交提出IVT，越看越精细，进行精细全面的跨模态对比！

MM2022｜兼具低级和高级表征，百度提出利用显式高级语义增强视频文本检索

MM2022 | 用StyleGAN进行数据增强，真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022｜只能11%的参数就能优于Swin，微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍！人大提出交互协同的双流视觉语言预训练模型COTS，又快又好！

CVPR2022 Oral｜通过多尺度token聚合分流自注意力，代码已开源

CVPR Oral | 谷歌&斯坦福（李飞飞组）提出TIRG，用组合的文本和图像来进行图像检索