cs.AI 篇论文 | Gist.Science

Structured Kolmogorov-Arnold Neural ODEs for Interpretable Learning and Symbolic Discovery of Nonlinear Dynamics

本文提出了一种名为 SKANODE 的框架，通过结合结构化状态空间建模与 Kolmogorov-Arnold 网络，在神经微分方程架构中实现了从观测数据到可解释物理潜变量的虚拟感知及非线性动力学控制方程的符号发现，并在多个基准和真实案例中展现出优于传统方法的预测精度与可解释性。

Wei Liu, Kiran Bacsa, Loon Ching Tang + 1 more2026-03-06🔬 physics

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

本文从数据视角出发，通过引入拼图任务并分析学习动态，揭示了强化微调（RFT）相较于监督微调（SFT）在适应新任务时能更好地保留先验知识，其核心原因在于 RFT 通过强化与基座模型概率分布自然对齐的样本，减小了对先验知识的干扰，而基于 RFT 模拟轨迹的数据分布优化也能显著提升 SFT 的知识保留能力。

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

本文提出了 MuRating 框架，通过将英语高质量数据评分信号迁移至 17 种目标语言，构建了一个可扩展的多语言数据选择方法，显著提升了多语言大语言模型在英语及多语言基准测试（尤其是知识密集型任务）上的表现。

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Design and Experimental Validation of Sensorless 4-Channel Bilateral Teleoperation for Low-Cost Manipulators

本文提出并验证了一种适用于低成本无力觉传感器的四通道双边遥操作框架，通过结合非线性动力学补偿与基于扰动观测器的状态估计，实现了高速接触场景下的稳定力反馈控制，并显著提升了模仿学习演示数据的成功率。

Koki Yamane, Yunhan Li, Masashi Konosu + 4 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

本文提出了用于评估视觉定位推理能力的诊断基准 TreeBench 以及结合强化学习的 Traceable Evidence Enhanced Visual Grounded Reasoning (TreeVGR) 训练范式，通过引入可追溯证据和联合监督机制，显著提升了模型在复杂场景下的定位精度与推理可解释性。

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

本文提出了名为 Overtone 的统一解决方案，通过引入 CSM 和 CKM 模块在推理阶段动态循环调制补丁大小，有效缓解了基于 Transformer 的 PDE 代理模型中固定补丁导致的谐波误差累积问题，并实现了计算成本与精度的灵活权衡。

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

本文首次系统研究了针对大语言模型微调过程中出现的“涌现性不对齐”现象的防御机制，通过评估四种训练正则化干预措施，发现利用对齐与不对齐模型之间的困惑度差距来筛选并混入通用指令微调数据，是防止模型在特定领域微调后产生广泛有害行为且保持任务性能的最佳方案。

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

本文提出了 Vevo2，一个统一的语音与歌声生成框架，通过引入两种新型音频分词器及多阶段建模策略，有效解决了标注数据稀缺问题，实现了对文本、韵律、风格及音色的灵活可控生成，并在多种合成、转换与编辑任务中展现出卓越的泛化能力。

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

本文提出了 LHM-Humanoid 框架，通过强化学习教师策略蒸馏与 DAgger 算法，训练出一个统一的端到端策略及视觉 - 语言 - 动作模型，使类人机器人能够在无需环境重置的复杂杂乱场景中，实现跨场景泛化的长程全身移动操作任务。

Haozhuo Zhang, Jingkai Sun, Michele Caprio + 4 more2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

本文从几何视角出发，利用图里奇曲率揭示了基于图神经网络的 SAT 求解器在难解实例上性能下降的根本原因在于负曲率导致的过度挤压效应，并证实了曲率可作为预测问题复杂度与泛化误差的有效指标。

Geri Skenderi2026-03-06🔬 physics

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

本文提出了一种名为 TSPC 的两阶段音素中心架构，通过以扩展越南语音素集为中间表示的混合语言建模方法，在低计算资源下显著提升了越南语 - 英语代码转换语音识别的准确率。

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

本文提出了一种利用可微分仿真、时间到达图特权信息及偏航对齐损失函数的强化学习方法，使四旋翼无人机能够在包含大型障碍物的复杂环境中高效导航，并在真实户外场景中实现了无碰撞飞行。

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

本文提出了一种结合生成式建模与能量一致阻抗控制的“基于扩散的阻抗学习”框架，通过 Transformer 扩散模型重构零力轨迹并在线调节阻抗参数，使机器人在仅用少量样本训练后，能在实时力控下实现接触丰富任务的高精度操作与泛化。

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

该研究通过 DRES 评估框架揭示，尽管微调能提升性能，但作为 SpeechLLM 骨干的 LLM 在处理口语自发不流利现象时存在结构性鲁棒性缺陷，特别是推理模型倾向于过度删除流畅内容以追求语义抽象，且微调往往损害了模型的泛化能力。

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

本文提出了一种名为 CR-PPO 的强化学习算法，通过引入结合香农熵与不平衡度的自调节复杂度项替代传统熵正则化，在保持策略有益随机性的同时降低了对超参数调整的依赖，从而显著提升了 PPO 算法的鲁棒性。

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

本文提出了 BridgeDrive，一种基于锚点引导的扩散桥策略，通过建立前向与反向过程理论一致的轨迹规划框架，在保持实时性的同时显著提升了自动驾驶闭环场景下的规划性能。

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

该论文通过受控实验与机制分析揭示，语言模型在硬蒸馏中发生的“潜意识学习”（即隐藏偏见转移）并非源于全局令牌纠缠，而是由少数关键的分歧令牌驱动，且这种转移主要依赖于早期网络层，同时对提示词等微小变化极为脆弱。

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

本文提出了 BeyondBench 框架，通过算法化动态生成数学上可验证的难题来消除训练数据污染，对 101 个语言模型进行了涵盖不同难度与规模的抗污染推理能力评估，揭示了当前模型在复杂算法问题上的显著推理缺陷。

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

该论文提出了一种结合随机哈达玛变换、二维量化、随机舍入及选择性高精度层的 NVFP4 训练方法，成功在 10 万亿 token 上预训练了 120 亿参数模型，实现了与 FP8 基线相当的性能，为大规模语言模型的低精度高效训练开辟了新路径。

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

本文提出了 PrefDisco 评估框架与 PrefAlign 指标，旨在解决大语言模型在缺乏用户历史数据时难以进行个性化推理的问题，并通过实验证明个性化推理需要专门开发而非自然涌现。

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs