cs.AI 篇论文 | Gist.Science

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

该论文提出了可解释的 Token 级噪声过滤框架 XTF，通过将数据贡献分解为推理重要性、知识新颖性和任务相关性三个属性来识别并掩蔽噪声 Token 的梯度，从而在多个下游任务中显著提升了大语言模型微调后的性能。

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui Ren2026-03-10💬 cs.CL

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

本文提出了 LongAudio-RAG 框架，通过将多小时长音频转换为结构化事件记录并利用 SQL 数据库进行检索，使大语言模型能够基于精确的时间定位证据回答自然语言问题，从而在混合边缘 - 云架构下有效解决了长音频问答中的上下文限制与幻觉问题。

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

CogitoRAG 是一种受人类情景记忆启发的检索增强生成框架，通过构建多维知识图谱、提取语义主旨、执行实体扩散检索及引入 CogniRank 重排序算法，有效解决了传统方法中的语义完整性丢失问题，在复杂知识整合与推理任务中显著优于现有方法。

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

该论文提出了首个针对条件性生物医学问答的基准 CondMedQA 以及一种名为条件门控推理（CGR）的新框架，通过构建条件感知知识图谱并基于查询条件动态激活或剪枝推理路径，有效解决了现有系统忽视患者特异性因素（如并发症和禁忌症）导致推理不准确的问题。

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Conformal Tradeoffs: Guarantees Beyond Coverage

该论文针对部署中的共形预测器，提出了超越边际覆盖率保障的运营认证与规划框架，通过小样本 Beta 修正、独立审计集校准及几何特征分析，在有限时间窗口内为系统的承诺频率、推迟决策及错误暴露等关键运营指标提供明确的有限样本保证与帕累托权衡分析。

Petrus H. Zwart2026-03-10🤖 cs.LG

ABD: Default Exception Abduction in Finite First Order Worlds

本文介绍了 ABD 基准，旨在评估前沿大语言模型在有限一阶世界中通过稀疏异常假设恢复可满足性的默认 - 异常归因能力，揭示了模型在有效性上的高表现与稀疏性差距及跨场景泛化失败模式。

Serafim Batzoglou2026-03-10✓ Author reviewed ⓘ💻 cs

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

本文介绍了名为 INDUCTION 的基准测试，旨在评估大语言模型在有限结构中进行一阶逻辑概念合成的能力，通过精确模型检查验证公式正确性，并揭示了不同模型在任务难度、公式简洁性及泛化策略上的显著差异。

Serafim Batzoglou2026-03-10💻 cs

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

该论文利用 CityLearn 环境构建了一个涵盖多关键性能指标（KPI）的基准测试，通过对比不同训练架构和神经网络的 MARL 算法，发现去中心化训练在平均表现、最坏情况性能及电池寿命等实际挑战上优于集中式训练，并揭示了策略在应对资源移除时的鲁棒性。

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

本文介绍了基于 ModernBERT 架构、支持 35 种语言及代码的 MrBERT 模型系列，该系列通过词汇、领域和维度适配（含 Matryoshka 表示学习）在加泰罗尼亚语、西班牙语及生物医学、法律等专业领域实现了最先进的性能，同时显著降低了推理与存储成本。

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

本文提出了 ARLArena 框架以系统分析智能体强化学习（ARL）的稳定性问题，并基于此设计了能显著缓解训练不稳定的 SAMPO 方法，为构建稳定且可复现的 LLM 智能体训练流程提供了统一视角与实践指导。

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

CryoNet.Refine 是一种基于单步扩散模型的深度学习框架，它通过整合密度感知损失函数与立体化学约束，实现了比传统方法更快速、自动化且高质量的冷冻电镜结构模型优化。

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

本文提出“氛围研究”（vibe researching）概念，通过构建认知任务框架界定 AI 智能体在社会科学研究中的能力边界，论证其虽能大幅加速研究流程并辅助方法实施，但在理论原创性与隐性知识方面仍无法替代人类学者，进而警示了该变革带来的职业分层风险与教学危机。

Yongjun Zhang2026-03-10💻 cs

A Mathematical Theory of Agency and Intelligence

该论文提出了衡量系统交互有效性的“双预测性”（bipredictability）这一核心指标，证明了其在经典与量子系统中的理论界限，指出当前 AI 仅具备行动能力而缺乏自我监控与适应的“智能”，并据此提出了一种受生物机制启发的实时反馈架构以构建具备真正智能的自适应系统。

Wael Hafez, Chenan Wei, Rodrigo Pena, Amir Nazeri, Cameron Reid2026-03-10🔢 math

Autoregressive Visual Decoding from EEG Signals

本文提出了名为 AVDE 的轻量级框架，通过结合对比学习对齐 EEG 与图像表征，并利用基于“多尺度预测”策略的自回归生成模型，实现了高效、低参数量且符合人类视觉感知层级特性的脑电视觉解码。

Sicheng Dai, Hongwang Xiao, Shan Yu, Qiwei Ye2026-03-10🤖 cs.LG

Decomposing Physician Disagreement in HealthBench

该研究通过分解 HealthBench 数据集中的医师分歧发现，尽管大部分分歧源于病例本身的结构性特征且难以通过常规元数据消除，但区分“可消除的不确定性”（如信息缺失）与“不可消除的不确定性”（如固有医学模糊性）为优化评估设计提供了关键方向，即通过填补信息缺口可在不增加固有模糊性的情况下降低分歧。

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

CeRA: Breaking the Linear Ceiling of Low-Rank Adaptation via Manifold Expansion

本文提出了 CeRA（容量增强型秩适应）方法，通过引入 SiLU 门控和结构式丢弃在权重层面实现流形扩展，从而突破低秩适应（LoRA）在复杂推理任务中因线性约束导致的性能瓶颈，以显著更低的秩实现了超越高秩 LoRA 的谱效率与推理能力。

Hung-Hsuan Chen2026-03-10🤖 cs.LG

On Sample-Efficient Generalized Planning via Learned Transition Models

本文提出了一种基于学习显式转移模型的广义规划方法，通过让神经网络自回归预测中间世界状态而非直接预测动作序列，在多个领域中以更少的训练样本和更小的模型实现了比直接动作预测更强的分布外泛化能力。

Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava2026-03-10💻 cs

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

该论文通过利用经过优化的微调大语言模型生成数百万条文本相关性标签，有效解决了专家标注稀缺的难题，并在 App Store 搜索排序中实现了行为相关性与文本相关性的同步提升，最终在全球 A/B 测试中显著提高了转化率，尤其在长尾查询场景下效果最为突出。

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

Attn-QAT: 4-Bit Attention With Quantization-Aware Training

本文提出了 Attn-QAT，一种针对 4 比特注意力机制的量化感知训练方法，通过解决反向传播中的精度失配问题，在无需显式异常值抑制的情况下实现了稳定的 FP4 训练与推理，并在 RTX 5090 上带来了高达 1.5 倍的加速。

Peiyuan Zhang, Matthew Noto, Wenxuan Tan, Chengquan Jiang, Will Lin, Wei Zhou, Hao Zhang2026-03-10🤖 cs.LG

PEPA: a Persistently Autonomous Embodied Agent with Personalities

本文提出了 PEPA，一种通过三层认知架构利用人格特质作为内在组织原则，使具身智能体能够在无需外部任务指令的情况下自主生成目标并实现持久自主运行的机器人系统。

Kaige Liu, Yang Li, Lijun Zhu, Weinan Zhang2026-03-10💻 cs