社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

本周大模型新动向:自主机器学习、状态机推理、上下文压缩

AI TIME 论道 • 2 天前 • 10 次点击  

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


01

Sentinel: Attention Probing of Proxy Models for LLM Context Compression with an Understanding Perspective

检索增强型生成(RAG)通过外部上下文增强了大型语言模型(LLMs),但检索到的段落通常冗长、嘈杂或超出输入限制。现有的压缩方法通常需要训练专门的压缩模型,这增加了成本并降低了可移植性。本文提出了Sentinel,这是一个轻量级的句子级压缩框架,将上下文过滤重新定义为基于注意力的理解任务。Sentinel不是训练一个压缩模型,而是通过一个轻量级分类器探测一个现成的0.5B代理LLM的解码器注意力,以识别句子的相关性。实证研究表明,查询-上下文相关性估计在不同模型规模之间是一致的,0.5B代理与更大模型的行为非常接近。在LongBench基准测试中,Sentinel实现了高达5倍的压缩,同时匹配了7B规模压缩系统的问答性能。结果表明,探测原生注意力信号可以实现快速、有效的、问题感知的上下文压缩。






文章链接:

https://arxiv.org/pdf/2505.23277


02

R-KV: Redundancy-aware KV Cache Compression for Training-Free Reasoning Models Acceleration

推理模型在自我反思和思维链推理方面表现出令人印象深刻的性能。然而,它们通常会产生过长的输出,导致在推理过程中 key-value(KV)缓存过大。尽管思维链推理显著提高了复杂推理任务的性能,但当使用现有的 KV 缓存压缩方法部署时,也可能导致推理失败。为了解决这一问题,本文提出了针对推理模型的冗余感知 KV 缓存压缩方法(R-KV),这是一种专门针对推理模型中冗余标记的新方法。该方法仅使用 10% 的 KV 缓存就能保留接近 100% 的完整 KV 缓存性能,显著优于现有的 KV 缓存基线,后者仅能达到 60% 的性能。值得注意的是,R-KV 甚至在使用 16% 的 KV 缓存时就能达到完整 KV 缓存性能的 105%。这种 KV 缓存的减少还带来了 90% 的内存节省和比标准思维链推理推理快 6.6 倍的吞吐量。实验结果表明,R-KV 在两个数学推理数据集上始终优于现有的 KV 缓存压缩基线。







文章链接:

https://arxiv.org/pdf/2505.24133


03

Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time

由于偏好反馈固有的多面性,将大型语言模型与人类对齐是一项挑战。虽然现有的方法通常将其视为多目标优化问题,但它们往往忽略了人类实际上是如何做出决策的。对有限理性的研究表明,人类的决策遵循满意策略,即优化主要目标,同时确保其他目标满足可接受的阈值。为了弥合这一差距,并操作化的概念,满意的对齐,我们提出 SITALIGN:推理时间框架,解决对齐的多方面性质,最大限度地提高主要目标,同时满足基于阈值的约束二级标准。我们提供了理论上的见解,我们的满意度为基础的推理对齐方法派生的次优界。我们经验验证SITAlign的性能,通过广泛的实验多个基准。例如,在PKU-SafeRLHF数据集上,主要目标是最大化帮助,同时确保无害阈值,SITAlignGPT-4获胜率方面优于最先进的多目标解码策略22.3%,同时坚持无害阈值。




文章链接:

https://arxiv.org/pdf/2505.23729


04

Active Layer-Contrastive Decoding Reduces Hallucination in Large Language Model Generation

最近的解码方法通过改进在生成过程中选择下一个标记的方式,提高了大型语言模型(LLMs)的事实性。这些方法通常在标记级别操作,利用内部表示来抑制表面模式。然而,LLMs仍然容易出现幻觉,特别是在较长的上下文中。本文提出了一种新颖的解码策略——主动层对比解码(ActLCD),它主动决定在生成过程中何时应用对比层。通过将解码视为一个序贯决策问题,ActLCD采用由奖励感知分类器引导的强化学习策略,优化事实性,超越了标记级别。实验表明,ActLCD在五个基准测试中超越了最先进的方法,展示了其在多种生成场景中减少幻觉的有效性。





文章链接:

https://arxiv.org/pdf/2505.23657

05

ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering

大型语言模型(LLM)基础代理的出现显著推动了自主机器学习(ML)工程的发展。然而,大多数现有方法严重依赖手动提示工程,无法根据多样化的实验经验进行适应和优化。针对这一问题,本文首次探索了基于学习的代理机器学习范式,其中LLM代理通过在线强化学习(RL)在机器学习任务上进行交互式实验以学习。为此,本文提出了一种新颖的代理机器学习训练框架,包含三个关键组件:(1)探索增强的微调,使LLM代理能够生成多样化的动作以增强RL探索;(2)逐步强化学习,使训练能够在单个动作步骤上进行,加速经验收集并提高训练效率;(3)针对代理机器学习的特定奖励模块,将多种机器学习反馈信号统一为一致的奖励以优化RL。利用该框架,我们训练了ML-Agent,这是一个由7B规模的Qwen-2.5 LLM驱动的自主ML代理。值得注意的是,尽管仅在9个机器学习任务上进行训练,但我们的7B规模的ML-Agent在性能上超越了671B规模的DeepSeek-R1代理。此外,它还实现了持续的性能改进,并展现出卓越的跨任务泛化能力。







文章链接:

https://arxiv.org/pdf/2505.23723


06

GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning

本文提出了一种名为GAM-Agent的博弈论多智能体框架,用于增强视觉语言推理能力。与以往的单智能体或单一模型方法不同,GAM-Agent将推理过程建模为基线智能体(每个智能体专注于视觉感知子任务)和关键智能体(验证逻辑一致性和事实正确性)之间的非零和博弈。智能体通过结构化的声明、证据和不确定性估计进行通信。该框架引入了一个不确定性感知控制器,用于动态调整智能体协作,在检测到分歧或模糊性时触发多轮辩论,从而得出更稳健、更具可解释性的预测结果。在MMMU、MMBench、MVBench和V*Bench四个具有挑战性的基准测试中,实验结果表明,GAM-Agent显著提升了各种视觉语言模型(VLM)骨干的性能。特别是对于中小规模模型(例如Qwen2.5-VL-7B、InternVL3-14B),其准确率提高了5% - 6%,而对于强大的模型如GPT-4o,准确率最高可提升2% - 3%。该方法具有模块化、可扩展性和通用性,为可靠且可解释的多智能体多模态推理提供了一种路径。






文章链接:

https://arxiv.org/pdf/2505.23399

07

From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval

链式推理(CoT)提示使大型语言模型(LLMs)能够进行复杂推理,包括在信息检索(IR)中的应用。然而,它常常导致过度思考,即模型产生过长且语义冗余的推理痕迹,几乎没有或根本没有好处。本文识别出信息检索中的两个关键挑战:重复轨迹,即反复访问类似状态;以及误导性推理,即偏离用户意图的推理。为了解决这些问题,本文提出了一种基于状态转换的推理框架——状态机推理(SMR),该框架由离散动作(REFINE、RERANK、STOP)组成,支持提前停止和细粒度控制。在BEIR和BRIGHT基准测试上的实验表明,SMR在提高检索性能(nDCG@10)方面提高了3.4%,同时减少了74.4%的令牌使用量。它可以在不需要针对特定任务进行调整的情况下,广泛应用于各种LLMs和检索器,为传统的CoT推理提供了一种实用的替代方案。






文章链接:

https://arxiv.org/pdf/2505.23059



本期文章由陈研整理


近期活动分享



ICML 2025一作讲者招募中,欢迎新老朋友来预讲会相聚!


 关于AI TIME 


AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾800场活动,超1000万人次观看。

我知道你 

在看


提出观点,表达想法,欢迎 

留言


点击 阅读原文 查看更多!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/183288
 
10 次点击