Arbiter: Detecting Interference in LLM Agent System Prompts
本文提出了名为 Arbiter 的框架,通过结合形式化评估规则与多模型扫描技术,成功检测出 Claude Code、Codex CLI 和 Gemini CLI 等主流 LLM 编码代理系统提示词中的干扰模式,并揭示了提示架构与故障类别的关联性及多模型评估在发现独特漏洞方面的优势。
2392 篇论文
本文提出了名为 Arbiter 的框架,通过结合形式化评估规则与多模型扫描技术,成功检测出 Claude Code、Codex CLI 和 Gemini CLI 等主流 LLM 编码代理系统提示词中的干扰模式,并揭示了提示架构与故障类别的关联性及多模型评估在发现独特漏洞方面的优势。
该研究系统性地刻画了多智能体系统(MAS)的独特威胁景观,通过评估 16 个现有 AI 安全框架发现它们均未能覆盖任何单一风险类别,其中非确定性和数据泄露问题最为突出,而 OWASP 代理安全倡议在整体覆盖率和设计阶段表现最佳。
本文利用 ASVspoof 5 数据集对音频深度伪造检测模型进行了性别公平性分析,发现仅依赖传统指标(如 EER)会掩盖性别间的误差分布差异,而引入公平性指标能更准确地揭示模型在特定人口群体中的失效模式,从而强调构建公平、鲁棒检测系统的必要性。
本文提出了一种名为 CMA-ES-IG 的算法,通过将用户感知体验纳入偏好学习过程,利用感知差异显著且信息量丰富的轨迹来优化机器人行为搜索,从而在提高高维空间扩展性、计算效率及抗噪性的同时,显著提升了非专家用户的满意度与系统采用率。
本文提出了轻量级多模态医疗智能体 Meissa,通过统一轨迹建模、分层监督及前瞻性 - 回顾性监督等创新方法,在仅使用 40 万条轨迹训练的情况下,以 40 亿参数实现了离线部署,在多个医疗基准测试中性能媲美甚至超越依赖昂贵 API 的前端大模型,同时显著降低了延迟与隐私风险。
该论文提出“人工智能现象学”作为研究范式,主张超越传统性能指标,通过追溯现象学理论脉络并结合三项实证研究,构建了一套旨在捕捉人机交互中第一人称体验、促进双向对齐的定性研究工具包与设计概念。
该论文提出了 MEMO(记忆增强模型上下文优化)框架,通过结合持久化记忆库与基于 TrueSkill 的不确定性感知提示演化,显著提升了多轮多智能体 LLM 游戏评估中的胜率并降低了运行方差,从而解决了长程交互中因早期偏差累积导致的性能不稳定问题。
本文提出了名为 Pichay 的 LLM 上下文窗口按需分页系统,通过将计算机存储层级理论(如虚拟内存和缺页中断)引入大语言模型,实现了对上下文内容的透明驱逐与按需加载,从而在保持极低故障率的同时将生产环境中的上下文消耗降低了高达 93%。
本文提出了一种自动化管道,利用大语言模型(LLM)和余弦相似度技术,成功将量子软件中的易失性测试数据集扩展了 54%(新增 25 个案例),并验证了 Google Gemini 等模型在检测易失性测试及分析其根本原因方面的高精度表现。
该论文提出了 PlayWorld,一种完全自主的管道,通过无监督的机器人自博弈学习高保真视频世界模型,从而在物理一致性、失败预测及现实世界策略性能上显著超越了依赖人类演示的传统方法。
本文提出了 WS-Net,一种结合状态空间建模与弱信号注意力融合的深度学习框架,通过多分辨率小波编码、Mamba 长程依赖捕捉及自适应门控机制,有效解决了高光谱解混中弱信号被主导端元掩盖的问题,并在多种数据集上显著提升了弱端元的丰度估计精度。
该论文提出了一种基于“堆栈理论”的保守评估工具包,通过区分语言模型代理在评估窗口内的成分式表现与单一决策步骤中的共现性,计算持久性得分以揭示其“谈论自我”与“组织自我”之间的本质差异。
本文介绍了 EPOCH,一种用于异构环境中多轮系统优化的工程协议,它通过划分基线构建与迭代自改进阶段、采用角色约束流程及标准化接口,实现了跨提示、代码和模型配置的协调优化,同时确保了生产级自主工作流的稳定性、可复现性与可追溯性。
该研究介绍了一种名为 Sentinel 的自主 AI 代理,它利用模型上下文协议(MCP)对远程患者监测数据进行多步推理和情境化分诊,在紧急敏感性等关键指标上超越了人类临床医生,同时以极低的成本实现了可扩展的自动化监测,从而解决了以往远程患者监测试验因数据过载而失败的核心难题。
本文提出了 Sim2Act 框架,通过引入针对决策关键状态的对抗性校准机制和组相对扰动策略,有效解决了仿真模型在关键区域预测误差导致的策略不稳定问题,从而在供应链等关键领域实现了更鲁棒的仿真到决策学习。
本文介绍了名为 Doki 的文本原生生成式视频创作界面,它通过让用户在单一文档中直接编写文本来定义素材、构建场景和编辑视频,从而将视频创作过程与自然的写作习惯对齐,并通过部署研究验证了其降低专业门槛、提升可访问性的潜力。
本文提出了 GST-VLA 模型,通过引入高斯空间分词器(GST)将视觉观测转化为具有内在几何结构的 3D 高斯原语,并结合 3D 深度感知思维链(DA-CoT)推理机制,显著提升了机器人在 LIBERO 和 SimplerEnv 等基准测试中的 3D 感知与操作精度。
该研究通过融合基于微调 Qwen3 模型生成的中英文新闻情感数据与传统宏观指标,证实了在铝价高波动时期,情感增强的 LSTM 模型能显著提升预测精度与交易策略的经济效用(夏普比率从 0.23 提升至 1.04),并揭示了不同新闻来源、主题及事件类型对铝价预测的差异化影响。
本文提出了一种统一的潜在空间框架,通过构建涵盖表征形式与结构先验的分类体系、明确五大核心内部机制并制定闭环评估方案,系统性地总结了潜在世界模型在自动驾驶中的进展,并指明了实现决策就绪、可验证且资源高效自动驾驶的未来研究方向。
本文提出了一种基于 Transformer 的框架,通过联合对齐全局语义与基于空间注意力掩码的局部判别区域,实现了结合参考图像与文本描述的皮肤病变组成式检索,并在 Derm7pt 数据集上取得了优于现有方法的性能。