cs.AI 篇论文 | Gist.Science

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

本文提出了一种名为 FuzzingRL 的强化模糊测试方法，通过结合视觉与语言模糊变换及对抗性强化微调，自动生成旨在诱导视觉语言模型（VLM）产生错误回答的多样化问题，从而有效揭示并降低目标模型的性能。

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

该论文揭示了数据重复性具有尺度依赖性，即随着模型能力提升，语义重复文档的梯度对齐度增加且语义碰撞加剧，导致大模型在有限独特语料上训练时出现性能退化并偏离预期扩展规律，进而提出了相应的扩展定律以修正预测。

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

该论文通过构建一系列逐步增加复杂度的多智能体干扰博弈任务，利用大规模 SUMO 生成数据集系统解耦并评估了 C-V2X 网络中多智能体深度强化学习资源分配面临的关键挑战，发现策略在多样化车辆拓扑下的鲁棒性与泛化能力是主要瓶颈，并开源了代码与基准测试套件以推动该领域的可复现研究。

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

该论文提出了名为“双桥地图套件（Two-Bridge Map Suite）”的开源基准，旨在通过移除经济机制并聚焦于长距离导航与微操战斗，填补《星际争霸 II》全游戏与微型游戏之间的复杂度空白，从而为在有限算力下进行强化学习研究提供可访问的中间环境。

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

该论文指出，在缺乏外部验证的领域，通过增加推理计算量（如多数投票或集成策略）无法提升大语言模型的真实性，因为模型间的错误高度相关且自我置信度不可靠，导致聚合结果往往只是强化了共同的误解而非验证真理。

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

本文提出了一种名为 OptiRoulette 的随机元优化器，它通过在训练过程中动态选择更新规则，在多个图像分类基准测试中显著提升了收敛速度和最终准确率，并实现了比单一 AdamW 基线更可靠的训练目标达成率。

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

该论文提出了一种名为“退火协同生成”（ACG）的框架，通过将高维联合建模解耦为低维成对建模，并利用三阶段退火过程耦合共享变量，从而在无需额外训练的情况下实现了高效且一致的多元科学数据协同生成。

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

本文提出了 RACER 方法，通过将大语言模型路由问题建模为 $\alpha$ -VOR 问题并利用有限样本浓度界限进行校准，实现了在无需分布假设的情况下对误路由风险的控制，从而在降低成本的同時显著提升了下游任务的准确性。

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

本文提出了名为 Evo 的新型大语言模型，该模型通过构建连续潜变量轨迹，将自回归与扩散生成范式统一为自适应平衡的语义演化框架，在保持高效推理速度的同时，于多项基准测试中实现了卓越的语言理解、推理及代码生成性能。

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

该论文提出了一种拓扑感知框架，通过结合领域基础模型、拓扑感知图分词器及知识蒸馏策略，有效解决了多路生物网络中结构序列信息整合困难及未见实体零-shot 交互预测的挑战，并显著提升了预测性能。

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

本文提出了 NAT（Not All Tokens Are Needed）框架，通过基于 Horvitz-Thompson 重加权的无偏部分 Token 策略梯度估计器，仅利用生成 Token 的子集进行强化学习更新，在保持数学推理等基准任务性能与全 Token 训练相当的同时，显著降低了长思维链场景下的计算成本与显存占用。

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

本文提出了 GraphSkill，这是一种文档引导的层次化检索增强编码框架，通过利用文档层级结构进行检索以及引入自调试智能体来修复逻辑错误，从而显著提升了大语言模型在复杂图推理任务中的代码生成质量与效率。

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang Wang2026-03-10🤖 cs.LG

From ARIMA to Attention: Power Load Forecasting Using Temporal Deep Learning

本文利用 PJM 小时能耗数据，通过对比 ARIMA、LSTM、BiLSTM 和 Transformer 四种模型，证实了基于自注意力机制的 Transformer 模型在 24 小时短期电力负荷预测中凭借 3.8% 的 MAPE 取得了最优的精度与鲁棒性。

Suhasnadh Reddy Veluru, Sai Teja Erukude, Viswa Chaitanya Marella2026-03-10🤖 cs.LG

Exploration Space Theory: Formal Foundations for Prerequisite-Aware Location-Based Recommendation

本文提出了探索空间理论（EST），通过将知识空间理论形式化地移植到基于位置的推荐系统中，利用格论和形式概念分析建立了兴趣点间先决依赖关系的数学基础，并据此构建了具备线性时间复杂度、推荐有效性保证及可解释性等结构优势的探索空间推荐系统（ESRS）。

Madjid Sadallah2026-03-10🤖 cs.LG

Pavement Missing Condition Data Imputation through Collective Learning-Based Graph Neural Networks

该论文提出了一种基于集体学习的图卷积网络方法，通过整合相邻路段特征与观测路段间的依赖关系，有效解决了路面状况数据中系统性缺失值的插补问题。

Ke Yu, Lu Gao2026-03-10🤖 cs.LG

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

该论文提出了 Grouter 框架，通过从已训练好的 MoE 模型中蒸馏高质量路由结构并将其作为固定路由器，成功将路由优化与权重更新解耦，从而显著加速了 MoE 模型的收敛速度并提升了训练吞吐量。

Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan2026-03-10🤖 cs.LG

Photons = Tokens: The Physics of AI and the Economics of Knowledge

该论文通过将大语言模型的“令牌”定义为具有可测量热力学成本的物理量，结合信息论、热力学及经济学原理构建了全球令牌供需模型，旨在量化人类向 AI 系统提出有意义问题的物理与经济上限，并指出在算力约束下，决定性的挑战并非能回答多少问题，而是如何确定哪些值得提问。

Alec Litowitz, Nick Polson, Vadim Sokolov2026-03-10🔬 physics

SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts

本文提出了首个面向大语言模型的智能家居基准数据集 SmartBench，涵盖正常与异常设备状态及行为上下文，评估结果显示当前主流模型在检测和处理智能家居异常状态方面仍存在显著不足。

Qingsong Zou, Zhi Yan, Zhiyao Xu, Kuofeng Gao, Jingyu Xiao, Yong Jiang2026-03-10🤖 cs.LG

HEARTS: Benchmarking LLM Reasoning on Health Time Series

该论文提出了名为 HEARTS 的统一基准，旨在通过整合 16 个真实数据集和 110 项任务来评估大语言模型在健康时间序列上的分层推理能力，研究发现当前模型在复杂时序推理上表现不佳且单纯扩大规模无法解决这一问题，从而为开发下一代医疗推理智能体提供了标准化测试平台。

Sirui Li, Shuhan Xiao, Mihir Joshi, Ahmed Metwally, Daniel McDuff, Wei Wang, Yuzhe Yang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

本文提出了 RECAP 方法，这是一种结合未训练储层动力学与自组织赫布原型读出机制的生物启发式图像分类策略，通过局部突触可塑性规则实现无需反向传播的鲁棒识别，并在未见过的图像噪声下展现出优异的泛化能力。

Heng Zhang2026-03-10🤖 cs.LG