cs.AI 篇论文 | Gist.Science

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

本文提出了 SkillsBench 基准，通过 86 个跨领域任务评估发现，精心策划的 Agent 技能能显著提升大语言模型的平均通过率（+16.2%），且小模型借助技能可媲美无技能的大模型，但模型自主生成的技能往往无效，且技能效果在不同领域间存在显著差异。

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

A Geometric Taxonomy of Hallucinations in LLMs

该论文提出了一种基于嵌入空间几何特征的大语言模型幻觉分类法，将幻觉划分为不忠实、虚构和事实错误三类，并据此开发了相应的检测指标，同时揭示了现有基准测试中因标注风格混淆而导致的事实错误检测理论局限。

Javier Marín2026-03-10💬 cs.CL

TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

TrasMuon 通过结合全局均方根校准与基于能量的信任区域截断，在保留 Muon 优化器近等距几何特性的同时有效稳定了更新幅度，从而在无需预热阶段的情况下实现了比基线更快的收敛速度和更强的鲁棒性。

Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang, Boxing Chen, Ming Jian, Wen Tong2026-03-10🤖 cs.LG

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

该论文提出并验证了一个针对最新大语言模型优化的轻量级自动化 AI 流水线，证明其能够生成并解决包括国际数学竞赛级及未发表研究级在内的复杂数学问题，且部分成果已通过团队验证并开源。

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

本文提出了一种名为均值流策略（MVP）的新型生成策略，通过引入瞬时速度约束（IVC）作为关键边界条件，在确保高表达性的同时实现了单步动作生成，并在多个机器人操作任务中取得了优于现有流基策略的采样速度与成功率。

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Pawsterior: Variational Flow Matching for Structured Simulation-Based Inference

本文提出了 Pawsterior，一种基于变分流匹配的模拟推理框架，通过引入端点诱导的仿射几何约束和变分参数化，有效解决了传统方法在处理有界物理参数及离散 - 连续混合变量等结构化后验分布时的效率与兼容性问题。

Jorge Carrasco-Pollo, Floor Eijkelboom, Jan-Willem van de Meent2026-03-10🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

该论文提出了可解释的 Token 级噪声过滤框架 XTF，通过将数据贡献分解为推理重要性、知识新颖性和任务相关性三个属性来识别并掩蔽噪声 Token 的梯度，从而在多个下游任务中显著提升了大语言模型微调后的性能。

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui Ren2026-03-10💬 cs.CL

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

本文提出了 LongAudio-RAG 框架，通过将多小时长音频转换为结构化事件记录并利用 SQL 数据库进行检索，使大语言模型能够基于精确的时间定位证据回答自然语言问题，从而在混合边缘 - 云架构下有效解决了长音频问答中的上下文限制与幻觉问题。

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

CogitoRAG 是一种受人类情景记忆启发的检索增强生成框架，通过构建多维知识图谱、提取语义主旨、执行实体扩散检索及引入 CogniRank 重排序算法，有效解决了传统方法中的语义完整性丢失问题，在复杂知识整合与推理任务中显著优于现有方法。

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

该论文提出了首个针对条件性生物医学问答的基准 CondMedQA 以及一种名为条件门控推理（CGR）的新框架，通过构建条件感知知识图谱并基于查询条件动态激活或剪枝推理路径，有效解决了现有系统忽视患者特异性因素（如并发症和禁忌症）导致推理不准确的问题。

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Conformal Tradeoffs: Guarantees Beyond Coverage

该论文针对部署中的共形预测器，提出了超越边际覆盖率保障的运营认证与规划框架，通过小样本 Beta 修正、独立审计集校准及几何特征分析，在有限时间窗口内为系统的承诺频率、推迟决策及错误暴露等关键运营指标提供明确的有限样本保证与帕累托权衡分析。

Petrus H. Zwart2026-03-10🤖 cs.LG

ABD: Default Exception Abduction in Finite First Order Worlds

本文介绍了 ABD 基准，旨在评估前沿大语言模型在有限一阶世界中通过稀疏异常假设恢复可满足性的默认 - 异常归因能力，揭示了模型在有效性上的高表现与稀疏性差距及跨场景泛化失败模式。

Serafim Batzoglou2026-03-10✓ Author reviewed ⓘ💻 cs

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

本文介绍了名为 INDUCTION 的基准测试，旨在评估大语言模型在有限结构中进行一阶逻辑概念合成的能力，通过精确模型检查验证公式正确性，并揭示了不同模型在任务难度、公式简洁性及泛化策略上的显著差异。

Serafim Batzoglou2026-03-10💻 cs

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

该论文利用 CityLearn 环境构建了一个涵盖多关键性能指标（KPI）的基准测试，通过对比不同训练架构和神经网络的 MARL 算法，发现去中心化训练在平均表现、最坏情况性能及电池寿命等实际挑战上优于集中式训练，并揭示了策略在应对资源移除时的鲁棒性。

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

本文介绍了基于 ModernBERT 架构、支持 35 种语言及代码的 MrBERT 模型系列，该系列通过词汇、领域和维度适配（含 Matryoshka 表示学习）在加泰罗尼亚语、西班牙语及生物医学、法律等专业领域实现了最先进的性能，同时显著降低了推理与存储成本。

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

本文提出了 ARLArena 框架以系统分析智能体强化学习（ARL）的稳定性问题，并基于此设计了能显著缓解训练不稳定的 SAMPO 方法，为构建稳定且可复现的 LLM 智能体训练流程提供了统一视角与实践指导。

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

CryoNet.Refine 是一种基于单步扩散模型的深度学习框架，它通过整合密度感知损失函数与立体化学约束，实现了比传统方法更快速、自动化且高质量的冷冻电镜结构模型优化。

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

本文提出“氛围研究”（vibe researching）概念，通过构建认知任务框架界定 AI 智能体在社会科学研究中的能力边界，论证其虽能大幅加速研究流程并辅助方法实施，但在理论原创性与隐性知识方面仍无法替代人类学者，进而警示了该变革带来的职业分层风险与教学危机。

Yongjun Zhang2026-03-10💻 cs

A Mathematical Theory of Agency and Intelligence

该论文提出了衡量系统交互有效性的“双预测性”（bipredictability）这一核心指标，证明了其在经典与量子系统中的理论界限，指出当前 AI 仅具备行动能力而缺乏自我监控与适应的“智能”，并据此提出了一种受生物机制启发的实时反馈架构以构建具备真正智能的自适应系统。

Wael Hafez, Chenan Wei, Rodrigo Pena, Amir Nazeri, Cameron Reid2026-03-10🔢 math

Autoregressive Visual Decoding from EEG Signals

本文提出了名为 AVDE 的轻量级框架，通过结合对比学习对齐 EEG 与图像表征，并利用基于“多尺度预测”策略的自回归生成模型，实现了高效、低参数量且符合人类视觉感知层级特性的脑电视觉解码。

Sicheng Dai, Hongwang Xiao, Shan Yu, Qiwei Ye2026-03-10🤖 cs.LG