cs.LG 篇论文 | Gist.Science

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

本文提出了一种统一的潜在空间框架，通过构建涵盖表征形式与结构先验的分类体系、明确五大核心内部机制并制定闭环评估方案，系统性地总结了潜在世界模型在自动驾驶中的进展，并指明了实现决策就绪、可验证且资源高效自动驾驶的未来研究方向。

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

该论文揭示了在状态相关动作有效性环境中，未掩码策略梯度算法会因参数共享导致未访问状态下的有效动作被系统性抑制，并通过理论证明与实验验证了动作掩码机制在解决该问题及消除熵正则化权衡方面的优势。

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. SycaraWed, 11 Ma🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

本文提出了一种针对含硅石墨负极电动汽车电池的数据驱动方法，通过数据协调框架和统计/深度学习模型，实现了在考虑计算效率与不确定性的前提下对电压滞后因子的概率预测，从而提升了复杂工况下电池荷电状态（SoC）估计的准确性与泛化能力。

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. CremerWed, 11 Ma🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

该论文揭示了强化学习从可验证奖励（RLVR）中优化准确率与校准度存在根本性的梯度冲突，并提出了名为 DCPO 的框架，通过解耦推理与校准目标，在保持 GRPO 同等准确率的同时显著缓解了模型过度自信问题并实现了最佳校准性能。

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le SunWed, 11 Ma🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

该论文提出了一种基于概率必要性与充分性（PNS）的正则化方法，通过双范围反事实生成器消除类增量学习中的任务内和任务间虚假特征相关性，从而有效缓解特征冲突并防止灾难性遗忘。

Zhen Zhang, Jielei Chu, Tianrui LiWed, 11 Ma🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap 提出了一种基于 LLM 生成评分标准（Rubric）的强化学习框架，通过结构化、多维度的细粒度奖励信号解决开放域密集图像描述中缺乏确定性验证的难题，在提升生成多样性与泛化能力的同时，以更小参数量实现了超越现有监督蒸馏、传统 RL 方法及大模型标注的性能。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

该论文提出了一种利用大语言模型生成的功能不完备但结构正确的 RTL 代码来构建合成数据集的新框架，有效突破了电路网表示学习中真实标注数据稀缺的瓶颈，并证明了由此训练的模型在子电路边界识别和组件分类等任务上能媲美甚至超越基于高质量数据的现有方法。

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

本文提出了一种名为 GIAT 的新型框架，通过将地质先验知识（利用类别序列相关性滤波器生成关系矩阵）融入 Transformer 的注意力机制，显著提升了测井岩性识别的准确性、可靠性及可解释性。

Jie Li, Qishun Yang, Nuo LiWed, 11 Ma🤖 cs.AI

Better Bounds for the Distributed Experts Problem

本文提出了一种新的分布式专家问题协议，通过优化通信量实现了比先前工作更优的遗憾界。

David P. Woodruff, Samson ZhouWed, 11 Ma🤖 cs.LG

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

本文提出了一种基于伊托型随机交通流模型的可微分生成框架，通过将物理约束从确定性偏微分方程扩展为分布形式，利用包含平流闭合模块的评分网络结合去噪得分匹配与福克 - 普朗克残差损失，实现了能够输出概率分布、置信区间及拥堵风险度量的物理信息交通状态估计。

Wuping XinWed, 11 Ma🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

本文提出了 Latent-DARM 框架，通过在潜在空间连接离散扩散模型（作为规划器）与自回归模型（作为执行器），有效克服了单一模型在推理规划或文本流畅性上的局限，在显著提升数学、科学及常识推理基准准确率的同时，大幅降低了 token 消耗。

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei ChenWed, 11 Ma🤖 cs.AI

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

本文通过尝试复现未公开代码的 BSRNN 音乐分离模型，揭示了研究可复现性面临的巨大成本，并在此基础上提出了性能更优的改进模型，同时公开了代码与预训练模型以推动该领域的透明与可持续发展。

Paul Magron, Romain Serizel, Constance DouwesWed, 11 Ma🤖 cs.LG

$P^2$ GNN: Two Prototype Sets to boost GNN Performance

本文提出了 $P^2$ GNN，一种通过利用两组原型（作为全局上下文的全局邻居和用于去噪的聚类原型）来优化消息传递的即插即用技术，从而有效解决了传统图神经网络过度依赖局部上下文和同质性假设的问题，并在节点推荐与分类任务中显著提升了性能。

Arihant Jain, Gundeep Arora, Anoop Saladi, Chaosheng DongWed, 11 Ma🤖 cs.LG

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

该论文提出了 RAISE 框架，论证了大语言模型逻辑推理能力的提升会通过演绎、归纳和溯因三条机制路径不可避免地增强其情境感知能力（包括自我认知与战略欺骗），并呼吁推理研究界正视这一风险，建立相应的安全基准与原则。

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

该论文提出了一种完全数据驱动的射频信号分离方法，通过结合改进的有限标量量化（FSQ）离散分词器与交叉熵损失训练的端到端 Transformer 模型，在无需先验干扰信息的情况下实现了比传统方法显著更优的分离性能，并展现出在引力波等科学传感领域的泛化潜力。

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. WornellWed, 11 Ma🤖 cs.LG

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

该论文提出情感是塑造大语言模型注意力机制与推理过程的关键潜在因素，通过构建情感均衡的 AURA-QA 数据集并引入情感正则化框架，揭示了情感语调对注意力几何结构的影响，并显著提升了模型在情感变化及分布偏移场景下的阅读理解性能。

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry HeckWed, 11 Ma🤖 cs.AI

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

本文提出了 MM-Zero，这是首个基于强化学习（GRPO）的框架，通过引入生成抽象视觉概念、编写渲染代码和执行多模态推理的三重角色机制，实现了无需任何种子数据即可从零开始的视觉语言模型自我进化。

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

本文提出了一种名为 RQRE-OVI 的乐观值迭代算法，用于在大规模或连续状态空间下通过线性函数近似计算风险敏感量化响应均衡（RQRE），该算法不仅具有理论上的收敛保证和样本复杂度分析，还通过引入理性与风险敏感参数在性能与鲁棒性之间建立了可调节的帕累托前沿，从而在跨博弈场景中展现出比传统纳什均衡方法更优越的稳定性与泛化能力。

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. RatliffWed, 11 Ma🤖 cs.LG

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

该论文提出了一种名为“测试时控制（TTC）”的硬件高效架构层，通过将推理建模为最优控制问题并在推理阶段执行有限时域 LQR 规划，显著提升了预训练大语言模型在数学推理任务中的表现，而无需依赖额外的测试时训练。

Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René VidalWed, 11 Ma🤖 cs.LG

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

本文提出了一种基于可逆性约束的通用生成采样框架，通过最小化前向与后向马尔可夫轨迹间的最大均值差异（MMD）并仅依赖能量评估，成功解决了连续、离散及混合变量复杂分布的采样难题。

Lei Li, Zhen Wang, Lishuo ZhangWed, 11 Ma🤖 cs.LG

cs.LG