cs.AI 篇论文 | Gist.Science

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

本文提出了名为 v-HUB 的视频幽默理解基准，通过包含非语言短视频及环境声音标注的多样化评估任务，揭示了当前多模态大模型在纯视觉幽默理解上的局限性，并证实了引入音频模态能显著提升模型对复杂视频幽默的感知能力。

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

Latent Speech-Text Transformer

该论文提出了潜语音 - 文本 Transformer（LST），通过将离散语音令牌聚合为更高阶的潜语音补丁，解决了语音与文本模态间的序列长度不平衡问题，从而在提升计算效率的同时显著增强了跨模态对齐能力，并在语音理解、生成及下游任务中实现了性能与效率的双重优化。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

本文介绍了 AlphaApollo 系统，该系统通过多轮智能体推理、多轮智能体学习（结合工具使用强化学习）以及多轮智能体进化（提出 - 判断 - 更新循环）三大核心组件，有效解决了基础模型在复杂长程推理中的能力瓶颈及测试时演进的不可靠问题，并在多个数学基准测试中显著提升了不同规模模型的性能。

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对，并通过该基准对 22 种现有模型进行了全面评估，同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

RECODE: Reasoning Through Code Generation for Visual Question Answering

该论文提出了名为 RECODE 的代理框架，通过将结构化视觉逆向工程为可执行代码并进行迭代验证与优化，显著提升了多模态大语言模型在图表和几何等视觉推理任务中的精确性与可验证性。

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

该论文提出了一种名为 REAP 的基于路由器门控值与专家激活范数的剪枝方法，证明在生成式任务中，相较于专家合并，剪枝策略能避免路由控制丢失带来的不可约误差，从而在大规模稀疏混合专家（SMoE）模型压缩中实现更优甚至无损的性能。

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan Thangarasa2026-03-11🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

本文提出了名为 RL-100 的实世界机器人强化学习框架，该框架基于扩散视觉运动策略，通过统一模仿学习与强化学习并结合一致性蒸馏技术，在八个多样化的真实机器人任务中实现了 100% 的成功率，展现出卓越的零样本泛化能力、抗扰动鲁棒性及与人类专家相当甚至更优的操作效率。

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu2026-03-11🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

本文提出了名为 FALCON 的新范式，通过利用空间基础模型从 RGB 图像中提取丰富的 3D 几何先验并注入动作头，有效弥补了现有视觉 - 语言 - 动作模型在空间推理上的不足，从而在仿真和真实世界任务中实现了超越基线的状态-of-the-art 性能。

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

本文提出了名为 SynHLMA 的新框架，利用离散的人机交互表示和语言模型，实现了根据自然语言指令生成可变形关节物体的手部操作序列，并在生成、预测及插值任务中展现出优于现有技术的性能，同时支持机器人模仿学习抓取应用。

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

本文提出了 GraphKeeper，一种通过知识解耦与保留机制解决图领域增量学习中嵌入偏移和决策边界偏差问题的新方法，在实现 negligible 遗忘的同时显著提升了现有图基础模型在多领域场景下的性能。

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li2026-03-11🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

该论文提出了一种基于结构化正则化、鲁棒预处理和高效优化的多类校准方法，通过扩展逻辑回归参数化重校准函数，有效解决了复杂模型在有限校准数据下的过拟合问题，从而显著提升了校准性能并提供了开源实现。

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis Bach2026-03-11🤖 cs.AI

Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

该论文提出了名为“信息容量”的新指标，通过结合文本压缩性能与计算复杂度（特别是纳入常被忽视的分词器效率），对大语言模型的推理效率进行了统一评估，揭示了不同规模模型间信息容量的稳定性及主流模型的语言偏差，并为预测模型性能与指导未来扩展提供了有效依据。

Cheng Yuan, Jiawei Shao, Xuelong Li2026-03-11💬 cs.CL

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

本文提出了 LTSV 方法，通过结合上下文微调与时间块聚合技术，在时间序列基础模型上实现了兼具高效性、准确性及时间依赖捕捉能力的数据估值。

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong Ng2026-03-11🤖 cs.AI

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

本文针对医学图像中多轮推理分割的新任务，构建了大规模数据集 MR-MedSeg 并提出了具备纠错机制的 MediRound 模型，有效解决了传统方法无法支持多轮实体级推理的问题。

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming Lu2026-03-11🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

本文提出了一种基于时间序列基础模型（TSFM）的上下文学习方法，通过无需微调或训练传统分类模型即可利用振动数据中的频域参考信号来评估伺服冲压机轴承的健康状态，从而展示了其在不同工况下的有效性并推动了向模型即服务（MaaS）或软件即服务（SaaS）模式的智能运维系统发展。

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng Feng2026-03-11🤖 cs.AI

Research and Prototyping Study of an LLM-Based Chatbot for Electromagnetic Simulations

该研究提出了一种基于 Google Gemini 2.0 Flash 大语言模型的聊天机器人，通过 Python 自动化协调 Gmsh 和 GetDP 工具，实现了二维涡流电磁仿真模型的自动生成、求解及后处理，从而显著缩短了仿真建模时间。

Albert Piwonski, Mirsad Hadžiefendic2026-03-11🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

本文提出了一种名为自适应多样性缓存（ADC）的免训练、即插即用模块，通过构建类别特定缓存并动态分配容量以增强稀有类别特征，有效缓解了基于视觉语言模型的人机交互检测中的长尾偏差问题。

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

该论文提出了一种名为“周期性异步”的框架，通过将推理与训练解耦为异步流水线并引入统一三模型架构，在保持严格在线策略正确性的同时，显著提升了大语言模型强化学习的端到端训练吞吐量。

Jian Lu2026-03-11🤖 cs.AI

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

该论文针对视觉 - 语言 - 动作（VLA）模型在未知架构和跨模型场景下缺乏通用对抗攻击的问题，提出了名为 UPA-RFAS 的统一框架，通过结合特征空间优化、鲁棒性增强训练及特定于 VLA 的注意力劫持与语义错位损失，成功生成了能够跨模型、跨任务及跨视角物理转移的通用对抗补丁。

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI

Multi-Agent Reinforcement Learning with Communication-Constrained Priors

该论文提出了一种基于通信约束先验的通用多智能体强化学习框架，通过解耦丢包与无损消息的影响并将其量化至全局奖励，有效解决了复杂动态环境下多智能体协作通信受限的挑战。

Guang Yang, Tianpei Yang, Jingwen Qiao, Yanqing Wu, Jing Huo, Xingguo Chen, Yang Gao2026-03-11🤖 cs.AI