Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

该研究提出利用基于大语言模型的全自动 AI 分析师在大规模、低成本地复现人类多分析师研究中的分析多样性,揭示了不同 AI 代理对同一数据集的分析结果存在显著差异且可被引导,从而论证了 AI 自动化实证科学中证据易受选择性报告影响的挑战,并呼吁建立包含“多元宇宙”式报告及提示词完全披露的新透明度规范。

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

本文提出了无需修改架构且推理零开销的“对齐感知掩码学习”(AML)策略,通过量化区域对齐度并过滤低质量像素,有效解决了 referring image segmentation 训练中的误导梯度问题,从而在 RefCOCO 系列数据集上实现了最先进的性能并提升了模型鲁棒性。

Tongfei Chen, Shuo Yang, Yuguang Yang, Linlin Yang, Runtang Guo, Changbai Li, He Long, Chunyu Xie, Dawei Leng, Baochang Zhang2026-03-12🤖 cs.AI

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

该论文揭示了大型语言模型在网络安全领域存在“防御性拒绝偏见”,即过度依赖语义相似性而非意图判断,导致模型频繁拒绝甚至因用户声明授权而更频繁地拒绝合法的防御性任务(如系统加固和恶意软件分析),从而阻碍了网络安全防御工作。

David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q Knight2026-03-12🤖 cs.AI

SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing

本文提出了 SEED-SET 框架,这是一种基于贝叶斯实验设计的系统级伦理测试方法,它通过结合领域客观评估与利益相关者的主观价值判断,利用分层高斯过程建模和新型采集策略,有效解决了自主系统在高风险场景中伦理对齐评估的难题,并在测试候选生成效率与高维空间覆盖度上显著优于基线方法。

Anjali Parashar, Yingke Li, Eric Yang Yu, Fei Chen, James Neidhoefer, Devesh Upadhyay, Chuchu Fan2026-03-12📊 stat

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

该论文首次系统评估了代码分析领域的多任务参数高效微调(PEFT),发现共享 PEFT 模块不仅能以极低的计算和存储成本实现媲美单任务微调的精度,且显著优于通用大模型的直接提示,同时揭示了任务稳定性、互补性及数据质量等关键因素对多任务协同微调效果的决定性影响。

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

该论文提出了一种将机制可解释性与自然语言解释相结合的管道,通过激活修补识别 GPT-2 Small 中因果关键的注意力头并生成解释,实验表明基于电路的解释虽具备 100% 的充分性但仅 22% 的完备性,且 LLM 生成的解释质量显著优于模板基线,同时揭示了模型置信度与解释忠实度之间无相关性。

Ajay Pravin Mahale2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

本文介绍了受系统可用性量表启发的“系统幻觉量表”(SHS),这是一种轻量级、以人为本的评估工具,旨在从用户视角快速、可解释地衡量大语言模型在真实交互中表现出的幻觉相关行为,并通过实证研究验证了其良好的信效度与实用性。

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL