cs.AI 篇论文 | Gist.Science

Uncovering a Winning Lottery Ticket with Continuously Relaxed Bernoulli Gates

该论文提出了一种基于连续松弛伯努利门的全微分优化方法，用于在保持网络权重冻结的情况下高效发现强彩票子网络，从而在多种架构上实现了比现有方法更高的稀疏度且几乎无精度损失。

Itamar Tsayag, Ofir LindenbaumWed, 11 Ma🤖 cs.AI

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

该论文通过实证研究揭示，生成式搜索中的引用可见性具有显著的非确定性波动，因此主张摒弃单一测量点估计，转而采用统计框架将引用指标视为分布估计量并报告不确定性区间，以避免对域名表现产生误导性解读。

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

该论文提出了一种利用 Gemma 3 和 Qwen3-VL 等视觉语言基础模型，通过上下文学习从无人机遥感图像中直接生成植物仿真配置（JSON 格式）的新方法，旨在解决功能性结构植物模型在规模化部署中的复杂性瓶颈，并构建了首个针对农业数字孪生三维重建的评估基准。

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

本文介绍了名为"Guardian"的端到端决策支持系统，该系统通过结合可解释的马尔可夫链、强化学习及大语言模型质量验证的三层架构，将非结构化案件数据转化为缺失儿童搜索的时空风险预测与优化方案。

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

本文提出了 PathoScribe 框架，通过统一的检索增强大语言模型技术，将静态的病理报告档案转化为支持自然语言检索、自动队列构建及临床推理的“活体图书馆”，显著提升了病理数据的检索效率与临床决策价值。

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

本文提出了名为 VoxEmo 的综合基准，旨在通过引入分布感知软标签和提示词集成策略，评估语音大语言模型在跨语言、多语料库场景下对情感模糊性的建模能力及其与人类主观分布的契合度。

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem

本文针对当前智能代理受限于传统操作系统架构而导致的交互碎片化与权限管理混乱问题，提出了一种以自然语言为核心、将操作系统重构为实时意图挖掘与知识发现引擎的“代理操作系统（AgentOS）”新范式，并指出其本质是一个涉及序列模式挖掘与动态知识图谱构建的知识发现与数据挖掘（KDD）问题。

Rui Liu, Tao Zhe, Dongjie Wang, Zijun Yao, Kunpeng Liu, Yanjie Fu, Huan Liu, Jian PeiWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

该论文提出了 BiCLIP 框架，通过利用少量锚点样本学习跨域图像特征间的规范几何变换，以极简的参数量实现了多模态特征的对齐，并在多个基准测试中取得了最先进的零样本域适应性能。

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

本文介绍了名为"Guardian"的端到端系统及其多模型流水线，该系统通过结合基于 QLoRA 的微调、任务专用大语言模型以及共识引擎，旨在以可审计的保守方式辅助失踪人员（特别是儿童）调查中的关键信息提取与搜索规划。

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Automated Tensor-Relational Decomposition for Large-Scale Sparse Tensor Computation

本文提出了名为"EinSum"的张量 - 关系计算新范式，通过自动将爱因斯坦求和符号重写为混合形式，实现了在关系系统中高效管理大规模稀疏数据的同时，利用高性能数值内核执行核心数学运算。

Yuxin Tang, Zhiyuan Xin, Zhimin Ding, Xinyu Yao, Daniel Bourgeois, Tirthak Patel, Chris JermaineWed, 11 Ma🤖 cs.AI

The FABRIC Strategy for Verifying Neural Feedback Systems

该论文提出了名为 FABRIC 的新算法，通过结合前向与后向可达性分析技术，有效解决了非线性神经反馈系统验证中后向可达集计算可扩展性不足的问题，并在基准测试中显著优于现有最先进方法。

I. Samuel Akinwande, Sydney M. Katz, Mykel J. Kochenderfer, Clark BarrettWed, 11 Ma🤖 cs.AI

Semantic Level of Detail: Multi-Scale Knowledge Representation via Heat Kernel Diffusion on Hyperbolic Manifolds

该论文提出了“语义细节层次”（SLoD）框架，通过在双曲流形上利用热核扩散构建连续缩放算子，不仅实现了知识表示的多尺度平滑过渡，还能自动检测图谱拉普拉斯谱隙以无监督地发现语义抽象的质变边界。

Edward IzgorodinWed, 11 Ma🤖 cs.AI

Arbiter: Detecting Interference in LLM Agent System Prompts

本文提出了名为 Arbiter 的框架，通过结合形式化评估规则与多模型扫描技术，成功检测出 Claude Code、Codex CLI 和 Gemini CLI 等主流 LLM 编码代理系统提示词中的干扰模式，并揭示了提示架构与故障类别的关联性及多模型评估在发现独特漏洞方面的优势。

Tony MasonWed, 11 Ma🤖 cs.AI

Security Considerations for Multi-agent Systems

该研究系统性地刻画了多智能体系统（MAS）的独特威胁景观，通过评估 16 个现有 AI 安全框架发现它们均未能覆盖任何单一风险类别，其中非确定性和数据泄露问题最为突出，而 OWASP 代理安全倡议在整体覆盖率和设计阶段表现最佳。

Tam Nguyen, Moses Ndebugre, Dheeraj ArremsettyWed, 11 Ma🤖 cs.AI

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

本文利用 ASVspoof 5 数据集对音频深度伪造检测模型进行了性别公平性分析，发现仅依赖传统指标（如 EER）会掩盖性别间的误差分布差异，而引入公平性指标能更准确地揭示模型在特定人口群体中的失效模式，从而强调构建公平、鲁棒检测系统的必要性。

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Improving through Interaction: Searching Behavioral Representation Spaces with CMA-ES-IG

本文提出了一种名为 CMA-ES-IG 的算法，通过将用户感知体验纳入偏好学习过程，利用感知差异显著且信息量丰富的轨迹来优化机器人行为搜索，从而在提高高维空间扩展性、计算效率及抗噪性的同时，显著提升了非专家用户的满意度与系统采用率。

Nathaniel Dennler, Zhonghao Shi, Yiran Tao, Andreea Bobu, Stefanos Nikolaidis, Maja MataricWed, 11 Ma🤖 cs.AI

Meissa: Multi-modal Medical Agentic Intelligence

本文提出了轻量级多模态医疗智能体 Meissa，通过统一轨迹建模、分层监督及前瞻性 - 回顾性监督等创新方法，在仅使用 40 万条轨迹训练的情况下，以 40 亿参数实现了离线部署，在多个医疗基准测试中性能媲美甚至超越依赖昂贵 API 的前端大模型，同时显著降低了延迟与隐私风险。

Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan YuilleWed, 11 Ma🤖 cs.AI

AI Phenomenology for Understanding Human-AI Experiences Across Eras

该论文提出“人工智能现象学”作为研究范式，主张超越传统性能指标，通过追溯现象学理论脉络并结合三项实证研究，构建了一套旨在捕捉人机交互中第一人称体验、促进双向对齐的定性研究工具包与设计概念。

Bhada Yun, Evgenia Taranova, Dana Feng, Renn Su, April Yi WangWed, 11 Ma🤖 cs.AI

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

该论文提出了 MEMO（记忆增强模型上下文优化）框架，通过结合持久化记忆库与基于 TrueSkill 的不确定性感知提示演化，显著提升了多轮多智能体 LLM 游戏评估中的胜率并降低了运行方差，从而解决了长程交互中因早期偏差累积导致的性能不稳定问题。

Yunfei Xie, Kevin Wang, Bobby Cheng, Jianzhu Yao, Zhizhou Sha, Alexander Duffy, Yihan Xi, Hongyuan Mei, Cheston Tan, Chen Wei, Pramod Viswanath, Zhangyang WangWed, 11 Ma🤖 cs.AI

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

本文提出了名为 Pichay 的 LLM 上下文窗口按需分页系统，通过将计算机存储层级理论（如虚拟内存和缺页中断）引入大语言模型，实现了对上下文内容的透明驱逐与按需加载，从而在保持极低故障率的同时将生产环境中的上下文消耗降低了高达 93%。

Tony MasonWed, 11 Ma🤖 cs.AI