机器学习+arXiv每日人工精选-2026年6月最新论文17篇

由于微信公众号开始试行乱序推送，为了让您在第一时间获取AI新文，请将"AI新文"设为星标。

稳定性边缘的冲突偏置：规范正则化对尖锐度正则化的比较

原标题：Conflicting Biases at the Edge of Stability: Norm versus Sharpness Regularization

作者：Maria Matveev; Vit Fojtik; Hung-Hsu Chou; Gitta Kutyniok; Johannes Maly

期刊：arXiv每日人工精选

出版时间：2026/06/05

摘要：过参数化网络的显著泛化特性通常归因于隐式偏差，例如小学习率下的范数最小化以及在稳定性边缘制度下的低尖锐度。在这项工作中，我们认为全面理解梯度下降的泛化性能需要分析这些不同形式的隐式正则化之间的相互作用。我们实证证明了学习率在训练模型的低参数范数和低尖锐度之间进行插值。我们进一步证明，隐偏见本身并不能最小化对角线性网络在简单回归任务上训练时的泛化误差。这些发现表明，专注于单一的隐偏是不足以解释良好的泛化能力的，并且它们促使人们采取一种更广泛的观点来看待隐式正则化，这种观点捕捉到了由于非可忽略的学习率所引起的范数和尖锐度之间的动态权衡。

原文链接

隐式推理的最小参数预算：语言模型的数据复杂性驱动的缩放定律

原标题：Finding the Minimal Parameter Budget for Implicit Reasoning: A Data Complexity Driven Scaling Law for Language Models

作者：Xinyi Wang; Shawn Tan; Shenbo Xu; Mingyu Jin; William Yang Wang; Rameswar Panda; Yikang Shen

期刊：arXiv每日人工精选

出版时间：2026/06/05

摘要：推理是语言模型（LMs）的核心能力，然而在预训练过程中支持推理所需的能力大小仍然不清楚。在这项工作中，我们研究了隐式推理所需的最小参数预算，定义为在没有显式的思维链监督的情况下从学习到的知识中推断出新事实的能力。为了孤立这一现象，我们从头开始在一种模拟了现实世界知识图结构和分布的受控合成环境中预训练语言模型，并通过多跳推理评估它们完成缺失边的能力。从理论和经验的角度来看，我们确定了一个比例定律，该定律将这一最优参数预算与图搜索熵度量联系起来。在广泛的不同模型大小、训练步骤和图复杂度范围内，我们表明一个最优规模的语言模型最多可以可靠地处理每参数大约0.008比特的信息。我们的结果描述了预训练期间隐式推理所需的最小充分容量。我们的研究结果为匹配模型大小与数据复杂度提供了原则性指导，并对大型语言模型中的推理扩展行为提供了新的见解。

原文链接

快速且稳健的TD(0)收敛速率，线性函数逼近、通用学习步长和独立同分布样本

原标题：Fast and Robust Convergence Rate for TD(0) with Linear Function Approximation, Universal Learning Steps and I.I.D. Samples

作者：Ziad Kobeissi; Éloïse Berthier

期刊：arXiv每日人工精选

出版时间：2026/06/05

摘要：在本文中，我们研究了具有线性函数逼近（LFA）的TD(0)时间差分方法的有限时间行为。我们考虑在策略独立同分布(i.i.d.)样本，一个常数学习步长，以及Polyak-Juditsky平均方法。我们建立了一个新的收敛速度，对于近似函数的均方误差（MSE），它是(i) 快速的，在迭代次数k的数量级上具有最优依赖性（即，为1/k的量级），(ii) 对于病态条件稳健：它仅取决于初始误差和模型无关常数，并且(iii) 在小于11的乘法常数内是精确的。特别是，它并不依赖于线性参数化未中心协方差矩阵的最小特征值，这与TD(0)文献中所有现有的O(1/k)速率不同。我们还介绍了PCTD(0)，这是TD(0)的一个变体，在马尔可夫链具有强混合的附加假设下，它具有更好的收敛性。

原文链接

可学习的图核密度估计及其在图级异常检测中的应用

原标题：Learnable Kernel Density Estimation for Graphs and Its Application to Graph-Level Anomaly Detection

作者：Xudong Wang; Ziheng Sun; Chris Ding; Jicong Fan

期刊：arXiv每日人工精选

出版时间：2026/06/05

摘要：本工作提出了一种框架LGKDE，用于学习图的核密度估计。图密度估计的关键挑战在于有效捕捉结构模式和语义变化的同时保持理论保证。结合图核和核密度估计(KDE)是图密度估计的标准方法，但由于核的特征是手工设计且固定的，因此性能不令人满意。我们的方法LGKDE利用图神经网络将每个图表示为一个离散分布，并使用最大均值差异来学习多尺度核密度估计的图度量，在此过程中通过最大化相对于其精心设计的扰动版本的图密度来学习所有参数。扰动同时在节点特征和图谱上进行，这有助于更好地刻画正常密度区域的边界。理论上，我们为LGKDE建立了包括均方误差积分界、鲁棒性和泛化能力在内的一致性和收敛性保证。我们通过展示LGKDE在恢复合成图分布的潜在密度方面的有效性以及将其应用于各种基准数据集上的图异常检测来验证其效果。广泛的实证评估表明，LGKDE 在大多数基准数据集上展示了优于最新基准的方法的性能。

原文链接

DyCon：通过演化难度建模的动态推理控制

原标题：DyCon: Dynamic Reasoning Control via Evolving Difficulty Modeling

作者：Tengyao Tu; Yulin Li; Hui-Ling Zhen; Libo Qin; Zhoujun Wei; Jinghua Piao; Zhuotao Tian; Yong Li; Min Zhang

期刊：arXiv每日人工精选

出版时间：2026/06/05

摘要：最近在大型推理模型（LRMs）方面取得的进展通过迭代地反映、探索和执行复杂任务展示了显著的性能改进，但仍因冗余推理而遭受效率低下的问题，这种现象被称为“过度思考”。现有的方法要么依赖静态难度估计，要么需要特定任务的训练，因此无法适应推理过程中的动态复杂性。在这项工作中，我们实证表明问题难度在整个推理过程中动态演变，并在线性地编码在LRM的步级嵌入中。基于这一洞察，我们提出了DyCon，一个无需训练的框架，该框架利用潜在的步骤级表示来明确建模任务难度的变化，从而实现动态控制推理深度以缓解过度思考的问题。广泛的实验在四个从4B到32B的模型上进行，并且跨越了数学推理、通用问答和编码任务的十二个基准测试，证明DyCon通过减少冗余步骤显著提高了推理效率，而不会牺牲准确性或泛化能力。项目页面和代码可在https://github.com/yu-lin-li/DyCon获得。

原文链接

通过反编译转换器到RASP发现可解释的算法

原标题：Discovering Interpretable Algorithms by Decompiling Transformers to RASP

作者：Xinting Huang; Aleksandra Bakalova; Satwik Bhattamishra; William Merrill; Michael Hahn

期刊：arXiv每日人工精选

出版时间：2026/06/05

摘要：最近的研究表明，Transformer 的计算可以在 RASP 编程语言家族中模拟。这些发现使人们对变压器的表达能力和泛化能力有了更深入的理解。特别是，Transformers 被认为能够在具有简单 RASP 程序的问题上精确地泛化长度。然而，训练出的模型实际上是否实现了简单的可解释程序仍是一个开放性问题。本文中，我们提出了一种从训练好的Transformers中提取此类程序的一般方法。想法是忠实于将一个Transformer重新参数化为RASP程序，然后应用因果干预来发现一个小的充分子程序。在对小型Transformers进行的实验中，这些Transformers训练于算法和形式语言任务上，我们展示了我们的方法经常从长度泛化的transformer中恢复出简单且可解释的RASP程序。我们的结果提供了迄今为止最直接的证据表明，Transformers 内部实现了简单的 RASP 程序。

原文链接

在线KL正则化强化学习（带函数逼近）下的规格偏差

原标题：Online KL-Regularized Reinforcement Learning with Function Approximation under Misspecification

作者：Haoyang Hong; Zichen Wang; Quanquan Gu; Huazheng Wang

期刊：arXiv每日人工精选

出版时间：2026/06/04

摘要：我们研究了在一般函数近似且模型规范错误的情况下，KL正则化的上下文多臂赌博机和时序差分强化学习(RL)。现有的保证依赖于可实现性，因此不适用于模型设定错误的情况，在这种情况下，经典的遗憾界可能失效。本工作介绍了上下文多臂强盗问题和有界回合强化学习中的KL错配公式，并分析了基于回归的算法以及吉布斯策略更新。建立了具有明确规范偏差项的高概率KL遗憾保证，作为特殊情况恢复了标准实现KL正则化设置

原文链接

变形测试中的拉霍蒙集：机器学习中的解释忠实度

原标题：Metamorphic Testing with the Rashomon Set: Explanation Faithfulness in Machine Learning

作者：Helge Spieker; Jørn Eirik Betten; Arnaud Gotlieb

期刊：arXiv每日人工精选

出版时间：2026/06/04

摘要：多个机器学习模型可以在同一任务上实现近似等效的预测性能，但仍提供不同的基于特征的解释。这被称为可解释机器学习的罗生门效应，并且它提出了一个问题，即哪些解释（如果有的话）是可信的。我们提出了一种基于变异测试的框架，通过探索事后解释方法中的属性特征重要性来评估解释的真实性，而无需地面真实标签（ground-truth labels）。五个变质关系形式化了模型行为和特征归因之间的预期一致性属性。我们将这一通用框架应用于两个表格回归数据集以及两种事后解释工具(SHAP and LIME)以展示该方法。该框架提供了一种实用的、模型无关的选择准确模型的工具，这些模型具有可靠且值得信赖的解释。

原文链接

MDP-GRPO：具有多约束指令跟随功能的稳定组相对策略优化

原标题：MDP-GRPO: Stabilized Group Relative Policy Optimization for Multi-Constraint Instruction Following

作者：Mohammad Mahdi Salmani-Zarchi; Zahra Rahimi; Heshaam Faili; Mohammad Javad Dousti

期刊：arXiv每日人工精选

出版时间：2026/06/04

摘要：具有可验证奖励的强化学习非常适合多约束指令跟随，然而标准组相对策略优化（GRPO）在离散、低分散奖励下变得不稳定，其中组内的奖励分布经常是同质的。我们在此情况下识别并形式化了z分数组归一化的三种病理：低方差放大，均值中心盲点和零方差崩溃。为了解决这些问题，我们提出了MDP-GRPO，它通过(1)多温度采样来增加奖励的分散度，(2)双锚优势来恢复同质组中的梯度，并阻止均值中心盲点，(3)基于Kahneman和Tversky理论的前景理论塑形来限制更新并根据违反情况施加惩罚，以及(4)非对称KL正则化来稳定学习。在FollowBench、IFEval以及一个精心整理的多约束数据集上进行评估，MDP-GRPO优于标准GRPO，在Llama-3.2-3B上提高了最多5.0％的严格约束满足度。我们的方法还能够在小组规模较小的情况下实现稳定收敛，同时在MMLU和ARC上保持通用能力。

原文链接

修正大型语言模型基准中的提示依赖性：一种嵌入空间聚类的贝叶斯层次模型

原标题：Correcting Prompt Dependence in LLM Benchmarks: A Bayesian Hierarchical Model with Embedding-Space Clustering

作者：Mary Llewellyn; Isobel Thornton; James Bishop; Annie Gray

期刊：arXiv每日人工精选

出版时间：2026/06/04

摘要：大型语言模型基准测试指标经常错误地陈述性能和不确定性，因为它们依赖于两个在实践中通常不成立的假设：(i) 古典推理中有足够的评估数量，以及(ii) 测试提示是独立的。我们提出了一种具有嵌入空间聚类的校正贝叶斯层次模型，在数据有限的情况下提供稳健的性能指标，同时纠正提示依赖性。我们将该方法应用于对抗鲁棒性基准测试，展示了聚类结构的一致恢复，从而产生了更可靠的性能指标，平均绝对误差改进了4-73%，预期对数后验密度提高了40-450个单位。

原文链接

固定预算噪声进化策略中的深度优先于保真度

原标题：Depth over Fidelity in Fixed-Budget Noisy Evolution Strategies

作者：Sichen Wang; Zhipeng Lu

期刊：arXiv每日人工精选

出版时间：2026/06/04

摘要：在固定的评估预算下，嘈杂的进化策略面临深度-保真度权衡：花费评估来减少代内排名中的噪声会降低优化器可以执行的分布更新的数量。我们主张深度胜于保真度，并提出概率精英成员资格（PEM），该方法用条件预期排名权重取代进化策略中的基于硬性等级的权重，从而整合了排名不确定性。PEM 保持条件均值更新的同时减少了条件更新的离散度，即对嘈杂的秩基于步骤进行了Rao-Blackwell化。我们通过具有每代上限开销的残差引导（RB-PEM），辅以自适应探测和切换机制来实现PEM，在低噪声环境中使用。在COCO bbob-noisy套件以及外部任务包括强化学习策略搜索和超参数优化中,RB-PEM 在高误排率和预算受限的设置下实现了持续的改进。

原文链接

有监督学习真的与无监督学习那么不同吗

原标题：Is Supervised Learning Really That Different from Unsupervised?

作者：Oskar Allerbo; Thomas B. Schön

期刊：arXiv每日人工精选

出版时间：2026/06/04

摘要：我们展示了如何将监督学习分解为两阶段过程，在此过程中(1)所有模型参数均以无监督的方式选择，并且(2)输出y被加入到模型中而不改变参数值。这是通过一个新的模型选择标准实现的，该标准-与交叉验证相反-也可以在没有访问y的情况下使用。对于线性岭回归，我们用最优渐近风险来界定了我们方法的渐近出样风险。我们还证明了线性回归和核岭回归、平滑样条、k-最近邻、随机森林以及神经网络的版本，在没有访问y的情况下训练，其表现与标准基于y的对应模型类似。因此，我们的结果表明监督学习和无监督学习之间的差异没有表面上看起来那么根本。

原文链接

人类成人和LLMs作为科学家：谁从主动探索中受益

原标题：Human Adults and LLMs as Scientists: Who Benefits from Active Exploration?

作者：Mandana Samiei; Eunice Yiu; Anthony GX-Chen; Dongyan Lin; Jocelyn Shen; Blake A. Richards; Alison Gopnik; Doina Precup

期刊：arXiv每日人工精选

出版时间：2026/06/04

摘要：因果学习文献中的一个长期发现是，成年人难以识别联合作用的因果规则，在这种规则中，一种效应需要多个原因同时存在，而在析取设置中表现更好。然而，大多数关于这种``联合障碍’’的演示依赖于被动观察范式，其中证据有限，学习者无法控制证据生成。本文探讨了当成人通过主动探索被赋予自主权时，这种偏见是否仍然存在。使用一种修改后的``blicket探测器’’任务，成年参与者自由干预以在连贯性或析取性规则结构下识别因果对象。我们表明主动探索显著改善了成年人的连合因果推理，尽管连合规则仍然需要更多的测试才能推断出比析取规则更多。我们将人类的表现与相同设置下的多种大型语言模型进行了比较。一些最先进的模型在假设推理准确性上接近人类水平表现，但它们经常表现出探索策略效率较低以及类似的连贯-不连贯性能差距。

原文链接

即插即用的离散扩散模型引导方法通过梯度信息对数修正

原标题：Plug-and-Play Guidance for Discrete Diffusion Models via Gradient-Informed Logit Correction

作者：Hongkun Dou; Zike Chen; Fengji Li; Hongjue Li; Yue Deng

期刊：arXiv每日人工精选

出版时间：2026/06/04

摘要：具有离散扩散模型的可控生成通常受到高计算开销或重新训练需求的阻碍。在本文中，我们提出了̶梯度̶̶信息̶̶对数̶̶修正̶̶（ extbf{GILC}），这是一个即插即用框架，通过将预训练的去噪网络重新用于变分代理来高效估计指导信号。为了规避高维离散空间中固有的梯度不稳定性，我们引入了一种无雅可比机制，该机制直接校正干净预测的对数几率，从而促进稳定且有效的引导。我们的方法既适用于可微的也适用于不可微的奖励函数。广泛的实验表明，在DNA、蛋白质序列以及分子生成任务上，GILC在无需额外训练的情况下达到了最先进的性能，经常优于微调方法。

原文链接

具有固定标记预算的LLM测试时间缩放中的树搜索策略对齐

原标题：Aligning Tree-Search Policies with Fixed Token Budgets in Test-Time Scaling of LLMs

作者：Sora Miyamoto; Daisuke Oba; Naoaki Okazaki

期刊：arXiv每日人工精选

出版时间：2026/06/04

摘要：树搜索解码是大型语言模型（LLMs）在运行时缩放的一种有效形式，但在实际部署中通常会对每个查询的令牌预算施加固定限制，该限制因应用场景而异。现有的树搜索策略大多忽视预算问题，仅仅把预算当作终止条件，从而存在后期过度分支或过早终止的风险。我们提出预算引导蒙特卡洛树搜索（BG-MCTS），这是一种树搜索解码算法，其搜索策略与剩余的标记预算保持一致：它从广泛的探索开始，随着剩余预算的减少优先考虑细化和答案完成，并减少浅层节点在后期阶段的分支。BG-MCTS 在数学推理基准和一个额外的物理推理基准上始终优于预算无关的树搜索基线，在推断预算方面使用开放权重LLMs。

原文链接

跳过一层还是循环？大型语言模型中的层程序学习

原标题：Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

作者：Ziyue Li; Yang Li; Tianyi Zhou

期刊：arXiv每日人工精选

出版时间：2026/06/04

摘要：大型语言模型（LLMs）通过按照固定深度和顺序执行所有层的非循环操作来进行推理。我们揭示了无需训练的灵活动态层程序（PoLar）的广泛存在，在这种情况下，预训练的层可以被打包成模块，并跳过或循环使用以形成针对每个输入的自定义程序。对于大多数输入，较短的程序执行可以实现相同或更好的准确性，而原始LLM的不正确预测可以通过具有较少层的替代程序进行纠正这些观察表明，推理允许标准前向传递之外的多个有效的潜在计算。为了在实践中高效地实现PoLar，我们提出了一种轻量级的PoLar预测网络，该网络学习生成能够对每个输入动态跳过或重复预训练层的执行程序。在数学推理基准测试上的实验表明，PoLar 一致地提高了标准推理和先前的动态深度方法的准确性，并且通常在执行较少层的情况下实现这一点，在分布外评估中这些改进仍然存在。我们的结果表明固定深度执行仅捕获了大型语言模型潜在推理能力的一个狭窄子集。

原文链接

主题情绪导致感知意识形态吗？比较政治新闻文章中的人类标注和LLM标注(Comparing Human and LLM Annotations in Political News Articles)

原标题：Does Topic Sentiment Cause Perceived Ideology? Comparing Human and LLM Annotations in Political News Articles

作者：Upasana Chatterjee

期刊：arXiv每日人工精选

出版时间：2026/06/04

摘要：我们询问主题情绪是否对感知到的政治意识形态有因果影响，以及答案是否取决于谁分配意识形态标签。使用来自AllSides的文章，并配以Llama-3.3-70b-versatile共享的情感标注，我们比较了专家人工标注者、GPT-4o-mini（baseline and finetuned）以及Llama-3.3-70B的思想标签。我们将双重机器学习（DML）和社区层面的中介分析应用于所有四种标注范式。人工标注在社区层面没有产生显著的因果效应。微调后的GPT-4o-mini达到了最高的分类准确率(F1=72.48)，并且是唯一能够产生显著的社区层面治疗效果和显著的自然直接效应(NDEs)的标注者范式。我们将此解释为捷径学习的证据：在带有意识形态标签的数据上进行微调使模型内化了一种在人类对此任务的判断中不存在的虚假情感--意识形态耦合。这种耦合在基于F1的评估中是结构不可见的，这对使用LLM标注作为银标准标签以及作为下游因果分析中的人类判断代理具有影响。

原文链接