Latent Speech-Text Transformer

该论文提出了潜语音 - 文本 Transformer(LST),通过将离散语音令牌聚合为更高阶的潜语音补丁,解决了语音与文本模态间的序列长度不平衡问题,从而在提升计算效率的同时显著增强了跨模态对齐能力,并在语音理解、生成及下游任务中实现了性能与效率的双重优化。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

本文介绍了 AlphaApollo 系统,该系统通过多轮智能体推理、多轮智能体学习(结合工具使用强化学习)以及多轮智能体进化(提出 - 判断 - 更新循环)三大核心组件,有效解决了基础模型在复杂长程推理中的能力瓶颈及测试时演进的不可靠问题,并在多个数学基准测试中显著提升了不同规模模型的性能。

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

本文提出了名为 RL-100 的实世界机器人强化学习框架,该框架基于扩散视觉运动策略,通过统一模仿学习与强化学习并结合一致性蒸馏技术,在八个多样化的真实机器人任务中实现了 100% 的成功率,展现出卓越的零样本泛化能力、抗扰动鲁棒性及与人类专家相当甚至更优的操作效率。

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

该论文针对将思维链推理引入基于人类偏好的生成式建模时面临的优化挑战,提出了一种名为 Bradley-Terry 策略优化(BTPO)的新方法,通过推导一致的蒙特卡洛梯度估计器,实现了在不可验证任务中稳定且高效的模型训练,并在多个基准测试中优于现有启发式方法。

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal FaruquiWed, 11 Ma🤖 cs.LG

Personalized Collaborative Learning with Affinity-Based Variance Reduction

该论文提出了一种名为 AffPCL 的新型个性化协同学习框架,通过精心设计的偏差校正与重要性校正机制,在无需预先知晓系统异质性水平的情况下,实现了从同质环境下的线性加速到异质环境下的独立学习基线之间的自适应平滑过渡,并揭示了即使在高度异质条件下协作仍能获得线性加速的新见解。

Chenyu Zhang, Navid AzizanWed, 11 Ma🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

本文提出了名为 FALCON 的新范式,通过利用空间基础模型从 RGB 图像中提取丰富的 3D 几何先验并注入动作头,有效弥补了现有视觉 - 语言 - 动作模型在空间推理上的不足,从而在仿真和真实世界任务中实现了超越基线的状态-of-the-art 性能。

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

本文提出了一种基于时间序列基础模型(TSFM)的上下文学习方法,通过无需微调或训练传统分类模型即可利用振动数据中的频域参考信号来评估伺服冲压机轴承的健康状态,从而展示了其在不同工况下的有效性并推动了向模型即服务(MaaS)或软件即服务(SaaS)模式的智能运维系统发展。

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng FengWed, 11 Ma🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

本文提出了一种名为 Decoder-DeepONet (DDON) 的新型可解释算子学习模型,通过实现函数到函数的映射,在电光效应(EFISH)信号反演中显著提升了非平衡等离子体放电电场轮廓的重建精度、泛化能力及对不完整数据的适应性,并利用积分梯度法优化了数据采集窗口。

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon ChngWed, 11 Ma🤖 cs.LG

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

该论文提出了 ADHint 方法,通过引入样本难度先验来动态调整提示比例,并结合一致性梯度调制与基于难度的优势估计,有效解决了现有基于提示的强化学习方法中探索与模仿失衡及训练不稳定的问题,从而显著提升了模型的推理能力与泛化性能。

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG