cs.LG 篇论文 | Gist.Science

Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

该论文提出了名为“质量优于数量”（QoQ）的系统化方法，通过利用影响函数量化训练样本对验证演示的损失降低贡献，并结合最大影响选取与轨迹聚合策略，自动筛选高质量演示数据，从而在模拟和真实环境中显著提升机器人策略性能。

Haeone Lee, Taywon Min, Junsu Kim, Sinjae Kang, Fangchen Liu, Lerrel Pinto, Kimin Lee2026-03-11🤖 cs.LG

Adaptive Active Learning for Online Reliability Prediction of Satellite Electronics

本文提出了一种融合改进维纳过程退化模型与两阶段自适应主动学习采样策略的在线可靠性预测框架，有效解决了卫星电子系统因数据稀缺、工况多变及个体差异导致的预测难题，显著提升了预测精度并降低了数据需求。

Shixiang Li, Yubin Tian, Dianpeng Wang, Piao Chen, Mengying Ren2026-03-11🤖 cs.LG

Dynamic Multi-period Experts for Online Time Series Forecasting

该论文提出了一种名为 DynaME 的新型混合框架，通过将概念漂移重新定义为“周期性重现”和“新兴”两类，并分别采用动态历史模式专家委员会与高不确定性下的通用专家策略，有效解决了在线时间序列预测中模型难以同时适应这两种漂移的问题。

Seungha Hong, Sukang Chae, Suyeon Kim, Sanghwan Jang, Hwanjo Yu2026-03-11🤖 cs.LG

Learning Adaptive LLM Decoding

该论文提出了一种基于强化学习的自适应 LLM 解码方法，通过训练轻量级适配器在序列级和 token 级动态选择采样策略，从而在固定计算预算下显著提升了数学和编程任务的准确率。

Chloe H. Su, Zhe Ye, Samuel Tenka, Aidan Yang, Soonho Kong, Udaya Ghai2026-03-11🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

该论文通过康特 - 阿什比好调节器定理，验证了因果不变超图基底中的持久观察者具备内部模型，进而推导出自然梯度下降作为唯一学习规则，并建立了沃尔夫拉姆超图物理与万丘林神经宇宙学之间的联系，同时指出了其关于收敛参数预测的模型依赖性。

Max Zhuravlev2026-03-11🤖 cs.LG

Exclusive Self Attention

该论文提出了一种名为“排他性自注意力”（XSA）的简单改进机制，通过限制注意力仅关注与自身向量正交的信息来排除位置自信息，从而在语言建模任务中实现了随模型规模和序列长度增加而显著提升的性能。

Shuangfei Zhai2026-03-11🤖 cs.LG

PPO-Based Hybrid Optimization for RIS-Assisted Semantic Vehicular Edge Computing

本文提出了一种基于近端策略优化（PPO）的混合优化框架，通过结合可重构智能表面（RIS）与语义通信，并联合优化卸载比例、语义符号数量及 RIS 相位偏移，显著降低了动态车联网环境下的端到端时延。

Wei Feng, Jingbo Zhang, Qiong Wu, Pingyi Fan, Qiang Fan2026-03-11🤖 cs.LG

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

该研究通过融合基于微调 Qwen3 模型生成的中英文新闻情感数据与传统宏观指标，证实了在铝价高波动时期，情感增强的 LSTM 模型能显著提升预测精度与交易策略的经济效用（夏普比率从 0.23 提升至 1.04），并揭示了不同新闻来源、主题及事件类型对铝价预测的差异化影响。

Alvaro Paredes Amorin, Andre Python, Christoph Weisser2026-03-11🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

本文提出了一种统一的潜在空间框架，通过构建涵盖表征形式与结构先验的分类体系、明确五大核心内部机制并制定闭环评估方案，系统性地总结了潜在世界模型在自动驾驶中的进展，并指明了实现决策就绪、可验证且资源高效自动驾驶的未来研究方向。

Rongxiang Zeng, Yongqi Dong2026-03-11🤖 cs.AI

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

该论文揭示了在状态相关动作有效性环境中，未掩码策略梯度算法会因参数共享导致未访问状态下的有效动作被系统性抑制，并通过理论证明与实验验证了动作掩码机制在解决该问题及消除熵正则化权衡方面的优势。

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

本文提出了一种针对含硅石墨负极电动汽车电池的数据驱动方法，通过数据协调框架和统计/深度学习模型，实现了在考虑计算效率与不确定性的前提下对电压滞后因子的概率预测，从而提升了复杂工况下电池荷电状态（SoC）估计的准确性与泛化能力。

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

该论文揭示了强化学习从可验证奖励（RLVR）中优化准确率与校准度存在根本性的梯度冲突，并提出了名为 DCPO 的框架，通过解耦推理与校准目标，在保持 GRPO 同等准确率的同时显著缓解了模型过度自信问题并实现了最佳校准性能。

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

该论文提出了一种基于概率必要性与充分性（PNS）的正则化方法，通过双范围反事实生成器消除类增量学习中的任务内和任务间虚假特征相关性，从而有效缓解特征冲突并防止灾难性遗忘。

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap 提出了一种基于 LLM 生成评分标准（Rubric）的强化学习框架，通过结构化、多维度的细粒度奖励信号解决开放域密集图像描述中缺乏确定性验证的难题，在提升生成多样性与泛化能力的同时，以更小参数量实现了超越现有监督蒸馏、传统 RL 方法及大模型标注的性能。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

该论文提出了一种利用大语言模型生成的功能不完备但结构正确的 RTL 代码来构建合成数据集的新框架，有效突破了电路网表示学习中真实标注数据稀缺的瓶颈，并证明了由此训练的模型在子电路边界识别和组件分类等任务上能媲美甚至超越基于高质量数据的现有方法。

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

本文提出了一种名为 GIAT 的新型框架，通过将地质先验知识（利用类别序列相关性滤波器生成关系矩阵）融入 Transformer 的注意力机制，显著提升了测井岩性识别的准确性、可靠性及可解释性。

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

Better Bounds for the Distributed Experts Problem

本文提出了一种新的分布式专家问题协议，通过优化通信量实现了比先前工作更优的遗憾界。

David P. Woodruff, Samson Zhou2026-03-11🤖 cs.LG

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

本文提出了一种基于伊托型随机交通流模型的可微分生成框架，通过将物理约束从确定性偏微分方程扩展为分布形式，利用包含平流闭合模块的评分网络结合去噪得分匹配与福克 - 普朗克残差损失，实现了能够输出概率分布、置信区间及拥堵风险度量的物理信息交通状态估计。

Wuping Xin2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

本文提出了 Latent-DARM 框架，通过在潜在空间连接离散扩散模型（作为规划器）与自回归模型（作为执行器），有效克服了单一模型在推理规划或文本流畅性上的局限，在显著提升数学、科学及常识推理基准准确率的同时，大幅降低了 token 消耗。

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

本文通过尝试复现未公开代码的 BSRNN 音乐分离模型，揭示了研究可复现性面临的巨大成本，并在此基础上提出了性能更优的改进模型，同时公开了代码与预训练模型以推动该领域的透明与可持续发展。

Paul Magron, Romain Serizel, Constance Douwes2026-03-11🤖 cs.LG