今日最热门AI论文Top5：高效微调、图生3D、AI Agent、大模型ChatGPT、图学习

夕小瑶科技说原创
作者 | 赛博马良

本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。

论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台（saibomaliang.com）上的智能体「AI论文解读达人」提供。

如需查看其他热门论文，欢迎移步 saibomaliang.com ^_^

TOP1

DrNet: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning

标题：内存利用率翻倍！伯克利提出DrNet，重塑高效微调新范式

标签： Berkeley、CV、ML

作者： Chen Zhao，Shuming Liu1，Karttikeya Mangalam，Guocheng Qian，Fatimah Zohra1，Abdulmohsen Alghannam， Jitendra Malik2 Bernard Ghanem

推荐理由：这篇论文的标题“DrNet: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning”表明它涉及到模型效率提升，这是当前AI领域关注的热点之一。此外，论文的作者之一是Jitendra Malik，他是计算机视觉领域的知名学者，而且论文来自于伯克利大学，这是一个顶尖的研究机构。这些因素结合起来，使得这篇论文有很高的关注潜力。

论文简介：

在现代计算机视觉任务中，大型预训练模型变得越来越关键。这些模型通常通过端到端微调（end-to-end finetuning）用于下游任务，但对于处理高分辨率数据的任务（例如视频理解、小物体检测和点云分析）来说，这种方法非常耗费内存。在本文中，我们提出了一种新型网络架构家族——动态可逆双残差网络（Dynamic Reversible Dual-Residual Networks，简称DrNet），作为替代网络对预训练模型进行微调，大幅度减少了内存消耗。

DrNet包含两种类型的残差连接，一种保持预训练模型中的残差结构，另一种使网络可逆。由于其可逆性，可以从输出重构的中间激活在训练期间会被清除出内存。我们分别在两种残差连接上使用两个系数，并引入了一种动态训练策略，使预训练模型无缝过渡到具有更高数值精度的可逆网络。我们在各种预训练模型和不同任务上评估了DrNet，并展示了它能够达到与传统微调相当的性能，但内存使用量显著减少。

论文解读链接：

https://www.saibomaliang.com/generate?session_id=aa510721-081d-4a18-9aab-a0da080003ee

TOP2

AGG: Amortized Generative 3D Gaussians for Single Image to 3D

标题：从单张图片到3D立体，Nvidia新突破！AGG模型实现即时高效3D生成

标签： Nvidia、CV

作者： Dejia Xu, Ye Yuan, Morteza Mardani, Sifei Liu, Jiaming Song, Zhangyang Wang, Arash Vahdat

推荐理由：“AGG: Amortized Generative 3D Gaussians for Single Image to 3D”这篇论文来自Nvidia，这是一个在AI领域有很高影响力的大公司。论文的主题是3D生成模型，这是一个多模态学习的热门话题，具有高度的创新性和实用性。此外，论文提供了项目页面，这表明研究可能有具体的实现和可视化结果，这对于吸引读者和传播有帮助。

论文简介：

随着自动化3D内容创建流程的日益需求，各种3D表示方法已被研究用于从单一图像生成3D对象。由于其卓越的渲染效率，基于3D高斯喷溅的模型最近在3D重建和生成方面表现出色。用于图像到3D生成的3D高斯喷溅方法通常是基于优化的，需要许多计算成本高昂的得分提炼步骤。

为了克服这些挑战，我们引入了一个摊销生成式3D高斯框架（AGG），它可以立即从单一图像产生3D高斯，消除了每个实例优化的需要。AGG利用一个中间混合表示，将3D高斯位置和其他外观属性的生成分解为联合优化。

此外，我们提出了一个级联流程，首先生成3D数据的粗略表示，然后用3D高斯超分辨率模块对其进行上采样。我们的方法与现有基于优化的3D高斯框架和利用其他3D表示的基于采样的流程进行了比较，AGG在质量和数量上展示了竞争性的生成能力，同时速度快了几个数量级。

论文解读链接：

https://www.saibomaliang.com/generate?session_id=18fd24cd-7d02-4fe5-a82e-05288d84dcb9

TOP3

SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems

标题：多模态交锋，复旦大学打造SpeechAgents：25个AI智能体模拟人类情感沟通，开源代码引领音频小说新潮流

标签： 复旦、NLP

作者： Dong Zhang, Zhaowei Li, Pengyu Wang, Xin Zhang, Yaqian Zhou, Xipeng Qiu

推荐理由：

“SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems”这篇论文来自复旦大学，这是一个在中国有很高声誉的研究机构。论文的主题是多模态学习和多智能体系统，这是AI领域的前沿话题。此外，论文的标题暗示了它可能涉及到人机交互和通信，这是一个具有广泛社会影响和应用前景的研究领域。

论文简介：

人类交流是一个复杂多样的过程，它不仅涉及语言、常识和文化背景等多个因素，还需要多模态信息的参与，例如语音。基于大型语言模型（LLM）的多智能体系统在模拟人类社会方面展现出了有希望的性能。我们能利用基于LLM的多智能体系统来模拟人类交流吗？然而，目前基于LLM的多智能体系统主要依赖文本作为主要媒介。

在本文中，我们提出了SpeechAgents，这是一个为模拟人类交流而设计的多模态LLM基础的多智能体系统。SpeechAgents利用多模态LLM作为个体智能体的控制中心，并采用多模态信号作为智能体之间交换信息的媒介。此外，我们提出了多智能体调整方法，以增强LLM的多智能体能力，而不损害其通用能力。为了加强和评估人类交流模拟的有效性，我们构建了人类交流模拟基准测试。

实验结果表明，SpeechAgents能够模拟具有一致内容、真实节奏和丰富情感的人类交流对话，并且即使在多达25个智能体的情况下也展现出了出色的可扩展性，这可以应用于剧本创作和音频小说生成等任务。

论文解读链接：

https://www.saibomaliang.com/generate?session_id=c54820c9-9f89-487c-8704-75cad38eb71f

TOP4

Advancing Spatial Reasoning in Large Language Models: An In-Depth Evaluation and Enhancement Using the StepGame Benchmark

标题：突破空间推理难题，AAAI 2024见证大语言模型新晋级：优化StepGame基准测试，ChatGPT表现大幅提升

标签： NLP、ML、AAAI 2024

作者： Fangjun Li, David C. Hogg, Anthony G. Cohn

推荐理由：

这篇论文被接受在AAAI 2024上发表，AAAI是一个顶级会议，符合发表会议的级别规律。论文的主题是“Spatial Reasoning in Large Language Models”，这涉及到大型语言模型的研究，是当前AI领域的一个热点话题。此外，论文的标题暗示了对现有基准的深入评估和增强，这可能具有较高的实用性和应用前景。

论文简介：

人工智能（AI）在各个领域取得了显著进展，像ChatGPT这样的大型语言模型因其类似人类的文本生成能力而受到了极大关注。尽管取得了这些成就，空间推理仍然是这些模型的一个重大挑战。像StepGame这样的基准测试用于评估AI的空间推理能力，其中ChatGPT的表现不尽人意。然而，基准测试中模板错误的存在影响了评估结果。因此，如果解决这些模板错误，ChatGPT有潜力表现得更好，从而更准确地评估其空间推理能力。

在本研究中，我们对StepGame基准进行了改进，提供了一个更准确的数据集用于模型评估。我们分析了GPT在修正后的基准上的空间推理性能，发现它在将自然语言文本映射到空间关系方面有所长，但在多跳推理方面存在局限。我们通过结合模板到关系的映射和基于逻辑的推理，提供了一个无瑕疵的解决方案来应对基准测试。这种结合展示了在StepGame上进行定性推理的熟练能力，且没有遇到任何错误。然后，我们解决了GPT模型在空间推理方面的局限性。

我们部署了连锁思维（Chain-of-thought）和树状思维（Tree-of-thoughts）提示策略，提供了对GPT“认知过程”的洞察，并在准确性上取得了显著提高。我们的调查不仅揭示了模型的不足，还提出了增强措施，为具有更强大空间推理能力的AI的进步做出了贡献。

论文解读链接：

https://www.saibomaliang.com/generate?session_id=d24d546a-fae7-4a39-8b28-54980d9c9f57

TOP5

A Primer on Temporal Graph Learning

标题：掌握时间的力量：牛津大学深度解析时序图学习新篇章

标签： Oxford、NLP、ML

作者： Aniq Ur Rahman, Justin P. Coon

推荐理由：“A Primer on Temporal Graph Learning”这篇论文来自牛津大学，这是一个世界级的顶尖研究机构。论文的主题是时序图学习，这是一个新兴的研究领域，具有创新性和潜在的实用性。由于牛津大学的品牌效应和论文的前沿话题，这篇论文可能会吸引较高的关注。

论文简介：

本文旨在通过概念优先的方法使读者熟悉时态图学习（TGL）。我们系统地介绍了理解TGL框架运作所必需的关键概念。除了定性解释之外，我们还在适用的情况下纳入了数学公式，增强了文本的清晰度。由于TGL涉及时态和空间学习，我们介绍了从循环神经网络和卷积神经网络到变换器和图神经网络的相关学习架构。我们还讨论了经典的时间序列预测方法，以激发对TGL的可解释学习解决方案。

论文解读链接：

https://www.saibomaliang.com/generate?session_id=b780b93f-2d88-4507-a3e6-5328cf4b22ac

本文论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台（saibomaliang.com）上的智能体「AI论文解读达人」提供。

如需查看其他最热论文，欢迎移步 saibomaliang.com ^_^