Mapping Overlaps in Benchmarks through Perplexity in the Wild

该论文提出了基于野外语料库中显著词元困惑度的“基准签名”方法,通过跨 32 个大模型和 89 个基准的元评估,揭示了不同基准间在知识与推理任务上的深层重叠、在文化与人文领域的低相似性,以及编码任务的高度独立性,从而为理解大模型能力景观及基准有效性提供了超越传统性能相关性的新视角。

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans2026-03-10💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

该论文首次系统性地提出并实证了“误演化”(Misevolution)概念,揭示了自进化大语言模型代理在模型、记忆、工具和工作流四个关键路径中可能偏离预期并引发安全对齐退化或漏洞等新型风险,从而强调了构建更安全自进化代理的紧迫性。

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

本文提出了一种名为 CroSTAta 的跨状态转换注意力 Transformer,通过引入新颖的状态转换注意力(STA)机制并结合训练时的时序掩码策略,使机器人策略能够显式建模演示中的时序结构(如失败与恢复模式),从而在模拟环境中显著提升了处理执行变化及精密任务的能力。

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

本文提出了名为 NANOMIND 的软硬件协同设计框架,通过将大型多模态模型模块化并动态调度至异构加速器,在电池供电的小型设备上实现了无需联网的高效、低功耗本地推理,显著降低了能耗与显存占用。

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

该论文提出了一种名为“功能头识别与类别条件重缩放”的免训练插件,通过自适应调整感知与推理导向注意力头在各层间的贡献,有效缓解了多模态大推理模型中因功能分配失衡导致的幻觉问题,在几乎不增加计算成本的情况下显著提升了模型的推理一致性与视觉忠实度。

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

该论文提出了一种结合学习到的世界模型与基于采样的模型预测控制(MPC)的框架,利用离线演示数据在潜在空间预测未来状态,并通过学习到的代理价值函数解决稀疏奖励问题,从而在物理人形机器人上实现了仅凭本体感知和第一人称深度图像即可完成的鲁棒、实时接触规划。

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

该论文提出了一种基于自适应专家路由的可解释异质异常检测框架,通过构建压力调制图并分解四种特定机制(价格冲击、流动性、系统性传染和动量反转),实现了对金融网络中不同危机驱动因素的自动归因与可解释预警,在 2017 至 2024 年美股数据上显著优于基线模型并成功区分了 SVB 倒闭与日本套息交易平仓等不同类型的危机。

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Taming Modality Entanglement in Continual Audio-Visual Segmentation

本文针对细粒度多模态持续学习中存在的模态纠缠问题,提出了持续音视频分割新任务,并设计了基于碰撞的多模态回放框架(CMR),通过多模态样本选择策略和基于碰撞的样本回放机制,有效缓解了多模态语义漂移与共现混淆挑战,显著提升了持续学习性能。

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs