Scalable Multi-Task Learning through Spiking Neural Networks with Adaptive Task-Switching Policy for Intelligent Autonomous Agents

本文提出了一种名为 SwitchMT 的新方法,通过结合具有主动树突和决斗结构的深度脉冲 Q 网络以及基于奖励与网络内部动力学的自适应任务切换策略,有效解决了资源受限自主代理在多任务强化学习中的任务干扰问题,实现了无需增加网络复杂度的可扩展高效多任务学习。

Rachmad Vidya Wicaksana Putra, Avaneesh Devkota, Muhammad Shafique2026-03-12🤖 cs.AI

LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models

该论文通过对 2022 年至 2025 年初的 25,000 篇论文进行数据驱动的半自动审查,系统梳理了大语言模型局限性(LLLMs)的研究趋势,发现相关研究占比显著增长,其中推理能力仍是核心关注点,而 arXiv 数据集的研究热点正逐渐向安全风险、对齐、幻觉、知识编辑及多模态方向转移。

Aida Kostikova, Zhipin Wang, Deidamea Bajri, Ole Pütz, Benjamin Paaßen, Steffen Eger2026-03-12💬 cs.CL

Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments

该论文提出了一种基于一致性的测试时溯因推理框架,通过逻辑编程将多个预训练模型的预测及其错误检测规则编码,利用整数规划或启发式搜索算法在满足逻辑一致性约束的前提下最大化预测覆盖率,从而在分布偏移的新环境中有效缓解单一模型性能下降并提升整体精度与召回率。

Mario Leiva, Noel Ngu, Joshua Shay Kricheli, Aditya Taparia, Ransalu Senanayake, Paulo Shakarian, Nathaniel Bastian, John Corcoran, Gerardo Simari2026-03-12🤖 cs.AI

Comparative Analysis of Modern Machine Learning Models for Retail Sales Forecasting

该研究通过对比统计基线、树集成与深度学习模型在具有间歇性需求和数据缺失的零售销售数据上的表现,发现基于树的集成方法(如 XGBoost)在预测精度上优于复杂的深度学习架构,表明在特定约束下应优先考虑模型与问题特征的匹配度而非架构的复杂性。

Luka Hobor, Mario Brcic, Lidija Polutnik, Ante Kapetanovic2026-03-12🤖 cs.LG

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

该论文提出了 ReLIFT 方法,通过交替进行强化学习与在线监督微调,利用高质量演示数据弥补纯强化学习在获取新知识方面的不足,从而显著提升大语言模型在解决高难度问题上的推理能力。

Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Yanhao Li, Bin Cui, Wentao Zhang2026-03-12🤖 cs.AI

The Yokai Learning Environment: Tracking Beliefs Over Space and Time

本文针对零样本协调(ZSC)任务中现有基准 Hanabi 因算法表现趋近完美而难以区分进展的局限,提出了一个要求智能体在模糊线索下动态跟踪信念并推断共享知识的开源多智能体基准“妖怪学习环境”(YLE),并证明在该环境中主流 ZSC 方法存在显著的跨种子性能差距,表明单一基准的评估结果可能无法泛化。

Constantin Ruhdorfer, Matteo Bortoletto, Johannes Forkel, Jakob Foerster, Andreas Bulling2026-03-12🤖 cs.AI

Order Optimal Regret Bounds for Sharpe Ratio Optimization under Thompson Sampling

本文针对高斯奖励下的随机多臂老虎机环境,提出了基于汤普森采样(TS)的夏普比率优化算法 SRTS,通过构建新颖的遗憾分解理论,证明了该算法在分布依赖下具有对数级遗憾上界且与下界匹配,从而确立了其阶最优性,并通过实验验证了其显著优于现有算法的性能。

Mohammad Taha Shah, Sabrina Khurshid, Gourab Ghatak2026-03-12🤖 cs.LG

Universal Dynamics with Globally Controlled Analog Quantum Simulators

该论文建立了全局脉冲控制下模拟量子模拟器实现通用量子计算的充要条件,提出了结合硬件约束的“直接量子最优控制”框架,并在里德堡原子阵列上成功实验验证了该框架在合成多体相互作用及实现拓扑动力学方面的可行性。

Hong-Ye Hu, Abigail McClain Gomez, Liyuan Chen, Aaron Trowbridge, Andy J. Goldschmidt, Zachary Manchester, Frederic T. Chong, Arthur Jaffe, Susanne F. Yelin2026-03-12⚛️ quant-ph

Global Minimizers of Sigmoid Contrastive Loss

该论文从理论层面解释了 SigLIP 模型中可训练逆温度与偏置项的优势,通过引入(m,brel)(\mathsf{m}, \mathsf{b}_{\mathsf{rel}})-星座这一新型组合对象刻画了损失函数为零的全局最优解,从而阐明了其在检索任务中的成功、模态间隙的成因及高质量表示所需的维度,并提出了一种改进的训练重参数化方法。

Kiril Bangachev, Guy Bresler, Iliyas Noman, Yury Polyanskiy2026-03-12🤖 cs.LG