cs.LG 篇论文 | Gist.Science

Lindbladian Learning with Neural Differential Equations

该论文提出了一种结合最大似然估计与神经微分方程的“林德布拉德学习”方法，通过在多个瞬态时间点利用泡利测量数据，成功从含噪实验数据中鲁棒地推断出开放量子系统的耗散动力学生成器。

Timothy Heightman, Roman Aseguinolaza Gallo, Edward Jiang, JRM Saavedra, Antonio Acín, Marcin Płodzien2026-03-10⚛️ quant-ph

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

该论文提出了包含自动难度过滤的四阶段数据处理框架，构建了强调新颖性与挑战性的 MicroCoder 数据集，并通过强化学习验证了其在提升代码生成模型解决高难度问题能力方面的显著优势。

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

ProgAgent:A Continual RL Agent with Progress-Aware Rewards

ProgAgent 提出了一种结合进度感知奖励学习与 JAX 原生高吞吐架构的持续强化学习智能体，通过从无人标注专家视频中提取密集奖励、引入对抗性正则化以应对分布偏移，并融合 PPO 与核心集回放等机制，有效解决了机器人终身学习中的灾难性遗忘与奖励指定难题，在多个基准测试及真实机器人任务中显著超越了现有基线。

Jinzhou Tan, Gabriel Adineera, Jinoh Kim2026-03-10🤖 cs.LG

Vision Transformers that Never Stop Learning

本文针对视觉 Transformer（ViT）在持续学习中出现的可塑性丧失问题，揭示了注意力模块的不稳定性与 MLP 模块的退化机制，并提出了基于在线曲率估计的几何感知优化器 ARROW，通过自适应调整梯度方向有效恢复并维持模型对新任务的学习能力。

Caihao Sun, Mingqi Yuan, Shiyuan Wang, Jiayu Chen2026-03-10🤖 cs.LG

Toward Global Intent Inference for Human Motion by Inverse Reinforcement Learning

该论文利用最小观测逆强化学习（MO-IRL）算法，通过引入时变权重证明了单一且通用的代价函数能够高精度地预测人类到达运动轨迹，从而支持了支配此类运动的统一最优性原理的存在。

Sarmad Mehrdad, Maxime Sabbah, Vincent Bonnet, Ludovic Righetti2026-03-10🤖 cs.LG

Neural Precoding in Complex Projective Spaces

该论文提出了一种基于复射影空间参数化的深度学习框架，通过消除无线信道与预编码向量中的全局相位冗余，显著提升了多用户 MISO 系统预编码的频谱效率与泛化能力。

Zaid Abdullah, Merouane Debbah, Symeon Chatzinotas, Bjorn Ottersten2026-03-10🤖 cs.LG

Learning embeddings of non-linear PDEs: the Burgers' equation

本文提出了一种将物理信息神经网络推广至非线性偏微分方程的方法，通过多头架构和正交约束构建鲁棒的解空间嵌入，并利用主成分分析成功提取了粘滞 Burgers 方程中由少量潜在模式主导的物理特征。

Pedro Tarancón-Álvarez, Leonid Sarieddine, Pavlos Protopapas, Raul Jimenez2026-03-10🤖 cs.LG

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

该研究通过在 CSIRO 牧场生物量基准上的系统评估揭示了“融合复杂度反转”现象，即在数据稀缺的农业场景下，简单的双层门控深度卷积模块优于复杂的跨视图注意力或 SSM 架构，且骨干网络的预训练规模对性能的影响远超融合机制的选择。

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

该论文提出了一种基于双层优化的可迁移优化网络框架，通过分两步训练通用特征提取器和特定任务域适配器，有效利用跨域多样化数据解决图像重建中训练数据稀缺的难题，并在磁共振成像等任务中实现了高质量的重建效果。

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

Gradient Iterated Temporal-Difference Learning

本文提出了一种名为“梯度迭代时序差分学习”的新算法，通过计算移动目标的梯度来改进迭代 TD 学习，使其在保持梯度 TD 方法稳定性的同时，在 Atari 等多个基准测试中展现出与半梯度方法相媲美的学习速度。

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo2026-03-10🤖 cs.LG

Guess & Guide: Gradient-Free Zero-Shot Diffusion Guidance

该论文提出了一种名为"Guess & Guide"的轻量级零样本扩散引导方法，通过消除反向传播计算需求，在显著降低推理成本的同时实现了多种贝叶斯逆问题上的最优性能。

Abduragim Shtanchaev, Albina Ilina, Yazid Janati, Arip Asadulaev, Martin Takác, Eric Moulines2026-03-10🤖 cs.LG

An Interpretable Generative Framework for Anomaly Detection in High-Dimensional Financial Time Series

本文提出了 ReGEN-TAD 框架，这是一种融合现代机器学习与计量经济学诊断的可解释生成式模型，旨在通过结合联合预测与重构机制，在无标签数据下有效检测高维金融时间序列中的结构不稳定性和异常，并提供经济上可解释的因子级归因。

Waldyn G Martinez2026-03-10🤖 cs.LG

Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations

该论文提出了一种面向移动腿式机械臂的视点无关抓取流程，通过结合视觉语言模型、深度补偿与点云补全技术，在遮挡和局部观测的复杂环境中实现了高达 90% 的语言引导抓取成功率。

Dilermando Almeida, Juliano Negri, Guilherme Lazzarini, Thiago H. Segreto, Ranulfo Bezerra, Ricardo V. Godoy, Marcelo Becker2026-03-10🤖 cs.LG

Slumbering to Precision: Enhancing Artificial Neural Network Calibration Through Sleep-like Processes

该论文受生物睡眠机制启发，提出了一种名为“睡眠回放巩固”（SRC）的后训练校准方法，通过选择性回放内部表征来更新网络权重，从而在不依赖监督重训练的情况下显著提升人工神经网络的置信度校准能力。

Jean Erik Delanois, Aditya Ahuja, Giri P. Krishnan, Maxim Bazhenov2026-03-10🤖 cs.LG

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

该论文针对现有视觉语言模型在酒店决策领域信息实用性评估的不足，提出了“信息性”评估框架并构建了专用数据集，研究发现模型需经过适度的领域微调才能有效利用视觉信号进行决策导向的信息推理。

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

Toward Unified Multimodal Representation Learning for Autonomous Driving

该论文提出了一种对比张量预训练（CTP）框架，通过将传统的成对余弦相似度扩展为多模态相似性张量并引入张量损失，实现了视觉、文本和点云等多模态数据在统一嵌入空间中的联合对齐，从而显著提升了自动驾驶场景下的端到端性能。

Ximeng Tao, Dimitar Filev, Gaurav Pandey2026-03-10🤖 cs.LG

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

本文通过粒子滤波（如序贯蒙特卡洛）的视角，为语言模型推理中的并行采样方法建立了理论框架，揭示了采样误差与奖励评估次数之间的非渐近关系，并指出了该方法在理论保证与最终准确率之间的根本局限。

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

本文提出了 VLM-SubtleBench 基准，旨在通过涵盖工业、医疗和航拍等多领域及十种细微差异类型的配对图像与问题，评估视觉语言模型在细微对比推理方面与人类水平的差距，并揭示了现有模型在复杂场景下的系统性不足。

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

该论文提出了一种基于决策理论的框架，通过融合人工智能天气预测模型与动态农民期望统计模型，成功开发了更精准的印度季风预报系统，并于 2025 年向 3800 万印度农民提供了有效的季节性降雨 onset 预报以辅助农业决策。

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

SMGI: A Structural Theory of General Artificial Intelligence

该论文提出了名为 SMGI 的结构化通用人工智能理论，通过形式化一个包含动态组件的元模型，将学习问题重新定义为学习接口本身的受控演化，并证明了经典机器学习范式均为该理论的结构受限特例。

Aomar Osmani2026-03-10🤖 cs.LG