Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

本文提出了一种针对含硅石墨负极电动汽车电池的数据驱动方法,通过数据协调框架和统计/深度学习模型,实现了在考虑计算效率与不确定性的前提下对电压滞后因子的概率预测,从而提升了复杂工况下电池荷电状态(SoC)估计的准确性与泛化能力。

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. CremerWed, 11 Ma🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

该论文揭示了强化学习从可验证奖励(RLVR)中优化准确率与校准度存在根本性的梯度冲突,并提出了名为 DCPO 的框架,通过解耦推理与校准目标,在保持 GRPO 同等准确率的同时显著缓解了模型过度自信问题并实现了最佳校准性能。

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le SunWed, 11 Ma🤖 cs.LG

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap 提出了一种基于 LLM 生成评分标准(Rubric)的强化学习框架,通过结构化、多维度的细粒度奖励信号解决开放域密集图像描述中缺乏确定性验证的难题,在提升生成多样性与泛化能力的同时,以更小参数量实现了超越现有监督蒸馏、传统 RL 方法及大模型标注的性能。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

该论文提出了一种利用大语言模型生成的功能不完备但结构正确的 RTL 代码来构建合成数据集的新框架,有效突破了电路网表示学习中真实标注数据稀缺的瓶颈,并证明了由此训练的模型在子电路边界识别和组件分类等任务上能媲美甚至超越基于高质量数据的现有方法。

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

本文提出了 Latent-DARM 框架,通过在潜在空间连接离散扩散模型(作为规划器)与自回归模型(作为执行器),有效克服了单一模型在推理规划或文本流畅性上的局限,在显著提升数学、科学及常识推理基准准确率的同时,大幅降低了 token 消耗。

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei ChenWed, 11 Ma🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

该论文提出了一种完全数据驱动的射频信号分离方法,通过结合改进的有限标量量化(FSQ)离散分词器与交叉熵损失训练的端到端 Transformer 模型,在无需先验干扰信息的情况下实现了比传统方法显著更优的分离性能,并展现出在引力波等科学传感领域的泛化潜力。

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. WornellWed, 11 Ma🤖 cs.LG

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

本文提出了一种名为 RQRE-OVI 的乐观值迭代算法,用于在大规模或连续状态空间下通过线性函数近似计算风险敏感量化响应均衡(RQRE),该算法不仅具有理论上的收敛保证和样本复杂度分析,还通过引入理性与风险敏感参数在性能与鲁棒性之间建立了可调节的帕累托前沿,从而在跨博弈场景中展现出比传统纳什均衡方法更优越的稳定性与泛化能力。

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. RatliffWed, 11 Ma🤖 cs.LG

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

该论文提出了一种名为“测试时控制(TTC)”的硬件高效架构层,通过将推理建模为最优控制问题并在推理阶段执行有限时域 LQR 规划,显著提升了预训练大语言模型在数学推理任务中的表现,而无需依赖额外的测试时训练。

Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René VidalWed, 11 Ma🤖 cs.LG