Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

该论文提出了名为“质量优于数量”(QoQ)的系统化方法,通过利用影响函数量化训练样本对验证演示的损失降低贡献,并结合最大影响选取与轨迹聚合策略,自动筛选高质量演示数据,从而在模拟和真实环境中显著提升机器人策略性能。

Haeone Lee, Taywon Min, Junsu Kim, Sinjae Kang, Fangchen Liu, Lerrel Pinto, Kimin Lee2026-03-11🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

该论文通过康特 - 阿什比好调节器定理,验证了因果不变超图基底中的持久观察者具备内部模型,进而推导出自然梯度下降作为唯一学习规则,并建立了沃尔夫拉姆超图物理与万丘林神经宇宙学之间的联系,同时指出了其关于收敛参数预测的模型依赖性。

Max Zhuravlev2026-03-11🤖 cs.LG

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

该研究通过融合基于微调 Qwen3 模型生成的中英文新闻情感数据与传统宏观指标,证实了在铝价高波动时期,情感增强的 LSTM 模型能显著提升预测精度与交易策略的经济效用(夏普比率从 0.23 提升至 1.04),并揭示了不同新闻来源、主题及事件类型对铝价预测的差异化影响。

Alvaro Paredes Amorin, Andre Python, Christoph Weisser2026-03-11🤖 cs.AI

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

本文提出了一种针对含硅石墨负极电动汽车电池的数据驱动方法,通过数据协调框架和统计/深度学习模型,实现了在考虑计算效率与不确定性的前提下对电压滞后因子的概率预测,从而提升了复杂工况下电池荷电状态(SoC)估计的准确性与泛化能力。

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

该论文揭示了强化学习从可验证奖励(RLVR)中优化准确率与校准度存在根本性的梯度冲突,并提出了名为 DCPO 的框架,通过解耦推理与校准目标,在保持 GRPO 同等准确率的同时显著缓解了模型过度自信问题并实现了最佳校准性能。

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap 提出了一种基于 LLM 生成评分标准(Rubric)的强化学习框架,通过结构化、多维度的细粒度奖励信号解决开放域密集图像描述中缺乏确定性验证的难题,在提升生成多样性与泛化能力的同时,以更小参数量实现了超越现有监督蒸馏、传统 RL 方法及大模型标注的性能。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

该论文提出了一种利用大语言模型生成的功能不完备但结构正确的 RTL 代码来构建合成数据集的新框架,有效突破了电路网表示学习中真实标注数据稀缺的瓶颈,并证明了由此训练的模型在子电路边界识别和组件分类等任务上能媲美甚至超越基于高质量数据的现有方法。

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

本文提出了 Latent-DARM 框架,通过在潜在空间连接离散扩散模型(作为规划器)与自回归模型(作为执行器),有效克服了单一模型在推理规划或文本流畅性上的局限,在显著提升数学、科学及常识推理基准准确率的同时,大幅降低了 token 消耗。

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI