cs.AI 篇论文 | Gist.Science

Arbiter: Detecting Interference in LLM Agent System Prompts

本文提出了名为 Arbiter 的框架，通过结合形式化评估规则与多模型扫描技术，成功检测出 Claude Code、Codex CLI 和 Gemini CLI 等主流 LLM 编码代理系统提示词中的干扰模式，并揭示了提示架构与故障类别的关联性及多模型评估在发现独特漏洞方面的优势。

Tony Mason2026-03-11🤖 cs.AI

Security Considerations for Multi-agent Systems

该研究系统性地刻画了多智能体系统（MAS）的独特威胁景观，通过评估 16 个现有 AI 安全框架发现它们均未能覆盖任何单一风险类别，其中非确定性和数据泄露问题最为突出，而 OWASP 代理安全倡议在整体覆盖率和设计阶段表现最佳。

Tam Nguyen, Moses Ndebugre, Dheeraj Arremsetty2026-03-11🤖 cs.AI

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

本文利用 ASVspoof 5 数据集对音频深度伪造检测模型进行了性别公平性分析，发现仅依赖传统指标（如 EER）会掩盖性别间的误差分布差异，而引入公平性指标能更准确地揭示模型在特定人口群体中的失效模式，从而强调构建公平、鲁棒检测系统的必要性。

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. Avila2026-03-11🤖 cs.AI

Improving through Interaction: Searching Behavioral Representation Spaces with CMA-ES-IG

本文提出了一种名为 CMA-ES-IG 的算法，通过将用户感知体验纳入偏好学习过程，利用感知差异显著且信息量丰富的轨迹来优化机器人行为搜索，从而在提高高维空间扩展性、计算效率及抗噪性的同时，显著提升了非专家用户的满意度与系统采用率。

Nathaniel Dennler, Zhonghao Shi, Yiran Tao, Andreea Bobu, Stefanos Nikolaidis, Maja Mataric2026-03-11🤖 cs.AI

Meissa: Multi-modal Medical Agentic Intelligence

本文提出了轻量级多模态医疗智能体 Meissa，通过统一轨迹建模、分层监督及前瞻性 - 回顾性监督等创新方法，在仅使用 40 万条轨迹训练的情况下，以 40 亿参数实现了离线部署，在多个医疗基准测试中性能媲美甚至超越依赖昂贵 API 的前端大模型，同时显著降低了延迟与隐私风险。

Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan Yuille2026-03-11🤖 cs.AI

AI Phenomenology for Understanding Human-AI Experiences Across Eras

该论文提出“人工智能现象学”作为研究范式，主张超越传统性能指标，通过追溯现象学理论脉络并结合三项实证研究，构建了一套旨在捕捉人机交互中第一人称体验、促进双向对齐的定性研究工具包与设计概念。

Bhada Yun, Evgenia Taranova, Dana Feng, Renn Su, April Yi Wang2026-03-11🤖 cs.AI

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

该论文提出了 MEMO（记忆增强模型上下文优化）框架，通过结合持久化记忆库与基于 TrueSkill 的不确定性感知提示演化，显著提升了多轮多智能体 LLM 游戏评估中的胜率并降低了运行方差，从而解决了长程交互中因早期偏差累积导致的性能不稳定问题。

Yunfei Xie, Kevin Wang, Bobby Cheng, Jianzhu Yao, Zhizhou Sha, Alexander Duffy, Yihan Xi, Hongyuan Mei, Cheston Tan, Chen Wei, Pramod Viswanath, Zhangyang Wang2026-03-11🤖 cs.AI

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

本文提出了名为 Pichay 的 LLM 上下文窗口按需分页系统，通过将计算机存储层级理论（如虚拟内存和缺页中断）引入大语言模型，实现了对上下文内容的透明驱逐与按需加载，从而在保持极低故障率的同时将生产环境中的上下文消耗降低了高达 93%。

Tony Mason2026-03-11🤖 cs.AI

Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software

本文提出了一种自动化管道，利用大语言模型（LLM）和余弦相似度技术，成功将量子软件中的易失性测试数据集扩展了 54%（新增 25 个案例），并验证了 Google Gemini 等模型在检测易失性测试及分析其根本原因方面的高精度表现。

Janakan Sivaloganathan, Ainaz Jamshidi, Andriy Miranskyy, Lei Zhang2026-03-11🤖 cs.AI

PlayWorld: Learning Robot World Models from Autonomous Play

该论文提出了 PlayWorld，一种完全自主的管道，通过无监督的机器人自博弈学习高保真视频世界模型，从而在物理一致性、失败预测及现实世界策略性能上显著超越了依赖人类演示的传统方法。

Tenny Yin, Zhiting Mei, Zhonghe Zheng, Miyu Yamane, David Wang, Jade Sceats, Samuel M. Bateman, Lihan Zha, Apurva Badithela, Ola Shorinwa, Anirudha Majumdar2026-03-11🤖 cs.AI

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

本文提出了 WS-Net，一种结合状态空间建模与弱信号注意力融合的深度学习框架，通过多分辨率小波编码、Mamba 长程依赖捕捉及自适应门控机制，有效解决了高光谱解混中弱信号被主导端元掩盖的问题，并在多种数据集上显著提升了弱端元的丰度估计精度。

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun Zhou2026-03-11🤖 cs.AI

Time, Identity and Consciousness in Language Model Agents

该论文提出了一种基于“堆栈理论”的保守评估工具包，通过区分语言模型代理在评估窗口内的成分式表现与单一决策步骤中的共现性，计算持久性得分以揭示其“谈论自我”与“组织自我”之间的本质差异。

Elija Perrier, Michael Timothy Bennett2026-03-11🤖 cs.AI

EPOCH: An Agentic Protocol for Multi-Round System Optimization

本文介绍了 EPOCH，一种用于异构环境中多轮系统优化的工程协议，它通过划分基线构建与迭代自改进阶段、采用角色约束流程及标准化接口，实现了跨提示、代码和模型配置的协调优化，同时确保了生产级自主工作流的稳定性、可复现性与可追溯性。

Zhanlin Liu, Yitao Li, Munirathnam Srikanth2026-03-11🤖 cs.AI

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

该研究介绍了一种名为 Sentinel 的自主 AI 代理，它利用模型上下文协议（MCP）对远程患者监测数据进行多步推理和情境化分诊，在紧急敏感性等关键指标上超越了人类临床医生，同时以极低的成本实现了可扩展的自动化监测，从而解决了以往远程患者监测试验因数据过载而失败的核心难题。

cs.AI