cs.LG 篇论文 | Gist.Science

Service Placement in Small Cell Networks Using Distributed Best Arm Identification in Linear Bandits

本文针对小基站网络中边缘服务放置问题，提出了一种基于线性多臂赌博机模型的分布式自适应多智能体最优臂识别算法，通过基站协作在有限置信度下高效确定能最小化用户延迟的最优服务，并实现了随基站数量增加而线性加速的学习效率。

Mariam Yahya, Aydin Sezgin, Setareh Maghsudi2026-03-11🤖 cs.LG

Convergence Rate for the Last Iterate of Stochastic Gradient Descent Schemes

该论文在目标函数梯度满足全局 $\gamma$ -Hölder 连续性的参数化设定下，仅利用离散 Gronwall 不等式而非 Robbins-Siegmund 定理，推导并恢复了随机梯度下降（SGD）和随机重球法（SHB）在凸或非凸情形下最后迭代点的收敛速率，并证明了在特定条件下 SHB 能以高概率达到 $O(t^{\max(p-1,-2p+1)} \log^2 \frac{t}{\delta})$ 的收敛界。

Marcel Hudiani2026-03-11🤖 cs.LG

Operator Learning for Consolidation: An Architectural Comparison for DeepONet Variants

该研究系统评估了多种 DeepONet 架构在土力学固结问题中的应用，提出并验证了一种引入傅里叶特征的改进模型（Model 4），该模型在三维场景中实现了高达 1000 倍的速度提升，有效加速了不确定性量化并推动了科学机器学习在岩土工程中的集成应用。

Yongjin Choi, Chenying Liu, Jorge Macedo2026-03-11🤖 cs.LG

Langevin Flows for Modeling Neural Latent Dynamics

本文提出了名为 LangevinFlow 的序列变分自编码器，通过在下潜空间引入包含惯性、阻尼及局部耦合振荡器参数化势函数的欠阻尼朗之万动力学，有效建模了神经群体的内在动力学与外部未观测影响，并在合成数据、神经潜变量基准测试及行为解码任务中展现出优于现有最先进方法的性能。

Yue Song, T. Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

该论文提出了一种名为“潜在策略引导”（LPS）的方法，通过利用光流作为跨具身无关的动作表示来预训练世界模型，并结合目标具身的小规模演示数据进行微调与价值函数学习，从而在低数据场景下显著提升了机器人视觉运动策略的性能。

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies

该论文提出了一种名为 MLES 的新方法，通过结合多模态大语言模型与进化搜索，利用视觉反馈驱动行为分析来自动生成透明、可验证且性能媲美传统强化学习算法的程序化控制策略。

Qinglong Hu, Xialiang Tong, Mingxuan Yuan, Fei Liu, Zhichao Lu, Qingfu Zhang2026-03-11🤖 cs.LG

CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets

本文提出了一种名为 CTRL 的元学习方法，通过结合跨域残差学习与自适应聚类技术，有效解决了多源小样本场景下的分布偏移与样本量差异问题，在提升整体预测精度的同时保留了各数据源间的异质性，并在包括瑞士庇护项目在内的多个数据集上显著优于现有基准。

Gauri Jain, Dominik Rothenhäusler, Kirk Bansak, Elisabeth Paulson2026-03-11🤖 cs.LG

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

该论文提出了一种利用开源工具 HeyGem 将课程大纲转化为虚拟化身演唱歌曲的创新方法，旨在通过更具吸引力的视听形式提升学生对课程信息的关注度、情感连接及记忆效果。

Xinxing Wu2026-03-11🤖 cs.AI

MuFlex: A Scalable, Physics-based Platform for Multi-Building Flexibility Analysis and Coordination

本文提出了名为 MuFlex 的可扩展开源平台，该平台通过结合 EnergyPlus 和 Modelica 等详细物理模型与 OpenAI Gym 接口，解决了现有测试床在模拟多建筑灵活性协调时的局限性，并验证了其在利用强化学习算法降低聚合峰值需求方面的有效性。

Ziyan Wu, Ivan Korolija, Rui Tang2026-03-11⚡ eess

RF-Informed Graph Neural Networks for Accurate and Data-Efficient Circuit Performance Prediction

该论文提出了一种轻量级且数据高效的图神经网络框架，通过融合射频集成电路领域知识的特征索引与器件终端图抽象，实现了跨拓扑结构的主动射频电路性能高精度预测，其平均相对误差仅为 3.45%，显著优于现有最先进方法。

Anahita Asadi, Leonid Popryho, Inna Partin-Vaisband2026-03-11🤖 cs.LG

Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks

该论文提出了一种通过迭代示例选择策略来增强大语言模型系统泛化能力的上下文学习方法，并在代数任务中验证了该方法结合显式推理指令能有效提升模型表现，且发现使用比测试分布更简单的示例往往能带来更好的泛化效果。

Stefano Fioravanti, Matteo Zavatteri, Roberto Confalonieri, Kamyar Zeinalipour, Paolo Frazzetto, Alessandro Sperduti, Nicolò Navarin2026-03-11🤖 cs.LG

A Surrogate model for High Temperature Superconducting Magnets to Predict Current Distribution with Neural Network

本文提出了一种基于全连接残差神经网络的代理模型，通过训练有限元模拟数据，实现了对高温超导磁体电流分布的快速准确预测，从而显著提升了大型 REBCO 螺线管磁体的智能设计效率。

Mianjun Xiao, Peng Song, Yulong Liu, Cedric Korte, Ziyang Xu, Jiale Gao, Jiaqi Lu, Haoyang Nie, Qiantong Deng, Timing Qu2026-03-11🤖 cs.LG

Repulsive Monte Carlo on the sphere for the sliced Wasserstein distance

本文提出并评估了多种基于排斥性节点（如行列式点过程和排斥过程）的蒙特卡洛积分方法以计算高维球面上的切片 Wasserstein 距离，并通过方差分析揭示了 UnifOrtho 估计量在大维数下的优势，最终建议在小维数场景使用随机拟蒙特卡洛法，而在大维数场景使用 UnifOrtho 方法。

Vladimir Petrovic, Rémi Bardenet, Agnès Desolneux2026-03-11🤖 cs.LG

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

本文介绍了机器人控制堆栈（RCS），这是一个专为支持大规模通用策略（如 VLA）研究而设计的轻量级生态系统，它通过模块化分层架构统一了仿真与物理机器人接口，有效解决了传统框架在机器人学习工作流中的瓶颈问题，并验证了其在提升策略性能及促进虚实迁移方面的有效性。

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian Walter2026-03-11🤖 cs.LG

Kuramoto Orientation Diffusion Models

该论文提出了一种名为“Kuramoto 取向扩散模型”的生成方法，通过利用生物启发的 Kuramoto 同步动力学在周期性域上构建分数模型，有效解决了指纹和纹理等富含方向性信息的图像生成难题，显著提升了此类数据的生成质量。

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Reinforced Generation of Combinatorial Structures: Hardness of Approximation

该论文展示了利用 AlphaEvolve（一种大语言模型代码变异代理）在复杂性理论中取得的新进展，包括改进随机正则图上的认证算法界限、发现新的归约装置以提升 MAX-CUT 和 TSP 等组合优化问题的不可近似性下界，并通过 AI 辅助优化验证过程来克服构造验证的计算成本。

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

VLCE: A Knowledge-Enhanced Framework for Image Description in Disaster Assessment

本文提出了 VLCE 框架，通过融合 ConceptNet 和 WordNet 等外部语义知识来增强视觉语言模型，显著提升了其在灾后卫星和无人机图像描述中的专业词汇准确性、信息丰富度及事实一致性。

Md. Mahfuzur Rahman, Kishor Datta Gupta, Marufa Kamal + 5 more2026-03-11🤖 cs.LG

ZeroSiam: An Efficient Asymmetry for Test-Time Entropy Optimization without Collapse

本文提出了 ZeroSiam，一种基于非对称孪生架构的高效方法，通过非对称散度对齐机制在无需额外开销的情况下有效防止测试时熵最小化过程中的模型坍塌，从而在视觉适应和大语言模型推理任务中实现更稳定且优越的性能。

Guohao Chen, Shuaicheng Niu, Deyu Chen, Jiahao Yang, Zitian Zhang, Mingkui Tan, Pengcheng Wu, Zhiqi Shen2026-03-11🤖 cs.LG

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

该论文提出了一种名为通用策略组合（GPC）的免训练方法，通过凸组合多个预训练扩散或流匹配策略的分布分数，在无需额外模型训练的情况下显著提升了机器人控制性能与适应性。

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. Luo2026-03-11🤖 cs.LG

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

本文提出了一种结合深度强化学习与有界极值搜索的混合控制方法，利用前者处理多参数系统的高效学习能力与后者应对时变不确定性的鲁棒性，显著提升了非线性时变系统的控制性能。

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander Scheinker2026-03-11🤖 cs.LG