cs.LG 篇论文 | Gist.Science

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

本文提出了一种结合深度强化学习与有界极值搜索的混合控制方法，利用前者处理多参数系统的高效学习能力与后者应对时变不确定性的鲁棒性，显著提升了非线性时变系统的控制性能。

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander ScheinkerWed, 11 Ma🤖 cs.LG

Latent Speech-Text Transformer

该论文提出了潜语音 - 文本 Transformer（LST），通过将离散语音令牌聚合为更高阶的潜语音补丁，解决了语音与文本模态间的序列长度不平衡问题，从而在提升计算效率的同时显著增强了跨模态对齐能力，并在语音理解、生成及下游任务中实现了性能与效率的双重优化。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

本文介绍了 AlphaApollo 系统，该系统通过多轮智能体推理、多轮智能体学习（结合工具使用强化学习）以及多轮智能体进化（提出 - 判断 - 更新循环）三大核心组件，有效解决了基础模型在复杂长程推理中的能力瓶颈及测试时演进的不可靠问题，并在多个数学基准测试中显著提升了不同规模模型的性能。

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

该论文针对 LiDAR 语义分割中标签噪声与域泛化双重挑战，首次建立了相关基准并提出了名为 DuNe 的双视图一致性框架，在多个数据集的含噪标签域泛化任务中取得了最先进性能。

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

该论文提出了名为 RECODE 的代理框架，通过将结构化视觉逆向工程为可执行代码并进行迭代验证与优化，显著提升了多模态大语言模型在图表和几何等视觉推理任务中的精确性与可验证性。

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

该论文提出了一种名为 REAP 的基于路由器门控值与专家激活范数的剪枝方法，证明在生成式任务中，相较于专家合并，剪枝策略能避免路由控制丢失带来的不可约误差，从而在大规模稀疏混合专家（SMoE）模型压缩中实现更优甚至无损的性能。

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan ThangarasaWed, 11 Ma🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

本文提出了名为 RL-100 的实世界机器人强化学习框架，该框架基于扩散视觉运动策略，通过统一模仿学习与强化学习并结合一致性蒸馏技术，在八个多样化的真实机器人任务中实现了 100% 的成功率，展现出卓越的零样本泛化能力、抗扰动鲁棒性及与人类专家相当甚至更优的操作效率。

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

该论文针对将思维链推理引入基于人类偏好的生成式建模时面临的优化挑战，提出了一种名为 Bradley-Terry 策略优化（BTPO）的新方法，通过推导一致的蒙特卡洛梯度估计器，实现了在不可验证任务中稳定且高效的模型训练，并在多个基准测试中优于现有启发式方法。

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal FaruquiWed, 11 Ma🤖 cs.LG

Personalized Collaborative Learning with Affinity-Based Variance Reduction

该论文提出了一种名为 AffPCL 的新型个性化协同学习框架，通过精心设计的偏差校正与重要性校正机制，在无需预先知晓系统异质性水平的情况下，实现了从同质环境下的线性加速到异质环境下的独立学习基线之间的自适应平滑过渡，并揭示了即使在高度异质条件下协作仍能获得线性加速的新见解。

Chenyu Zhang, Navid AzizanWed, 11 Ma🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

本文提出了名为 FALCON 的新范式，通过利用空间基础模型从 RGB 图像中提取丰富的 3D 几何先验并注入动作头，有效弥补了现有视觉 - 语言 - 动作模型在空间推理上的不足，从而在仿真和真实世界任务中实现了超越基线的状态-of-the-art 性能。

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

本文提出了 GraphKeeper，一种通过知识解耦与保留机制解决图领域增量学习中嵌入偏移和决策边界偏差问题的新方法，在实现 negligible 遗忘的同时显著提升了现有图基础模型在多领域场景下的性能。

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin LiWed, 11 Ma🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

该论文提出了一种基于结构化正则化、鲁棒预处理和高效优化的多类校准方法，通过扩展逻辑回归参数化重校准函数，有效解决了复杂模型在有限校准数据下的过拟合问题，从而显著提升了校准性能并提供了开源实现。

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis BachWed, 11 Ma🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

本文提出了 LTSV 方法，通过结合上下文微调与时间块聚合技术，在时间序列基础模型上实现了兼具高效性、准确性及时间依赖捕捉能力的数据估值。

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong NgWed, 11 Ma🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

本文提出了一种基于时间序列基础模型（TSFM）的上下文学习方法，通过无需微调或训练传统分类模型即可利用振动数据中的频域参考信号来评估伺服冲压机轴承的健康状态，从而展示了其在不同工况下的有效性并推动了向模型即服务（MaaS）或软件即服务（SaaS）模式的智能运维系统发展。

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng FengWed, 11 Ma🤖 cs.AI

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

该论文提出了一种名为“周期性异步”的框架，通过将推理与训练解耦为异步流水线并引入统一三模型架构，在保持严格在线策略正确性的同时，显著提升了大语言模型强化学习的端到端训练吞吐量。

Jian LuWed, 11 Ma🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

本文提出了一种名为 Decoder-DeepONet (DDON) 的新型可解释算子学习模型，通过实现函数到函数的映射，在电光效应（EFISH）信号反演中显著提升了非平衡等离子体放电电场轮廓的重建精度、泛化能力及对不完整数据的适应性，并利用积分梯度法优化了数据采集窗口。

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon ChngWed, 11 Ma🤖 cs.LG

cs.LG

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Latent Speech-Text Transformer

AlphaApollo: A System for Deep Agentic Reasoning

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

RECODE: Reasoning Through Code Generation for Visual Question Answering

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Bradley-Terry Policy Optimization for Generative Preference Modeling

Personalized Collaborative Learning with Affinity-Based Variance Reduction

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Structured Matrix Scaling for Multi-Class Calibration

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

TSFM in-context learning for time-series classification of bearing-health status

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

SA $^{2}$ GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Directional Textual Inversion for Personalized Text-to-Image Generation

cs.LG

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Latent Speech-Text Transformer

AlphaApollo: A System for Deep Agentic Reasoning

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

RECODE: Reasoning Through Code Generation for Visual Question Answering

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Bradley-Terry Policy Optimization for Generative Preference Modeling

Personalized Collaborative Learning with Affinity-Based Variance Reduction

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Structured Matrix Scaling for Multi-Class Calibration

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

TSFM in-context learning for time-series classification of bearing-health status

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

SA2^{2}2GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Directional Textual Inversion for Personalized Text-to-Image Generation

SA $^{2}$ GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation