cs.AI 篇论文 | Gist.Science

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

该论文提出了一种无需显式噪声掩码的端到端音频 - 视觉语音识别框架，通过基于 Conformer 的瓶颈融合模块利用视觉线索隐式增强含噪音频特征，从而在保留语音语义完整性的同时提升了噪声环境下的识别鲁棒性。

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei Yin2026-03-09🤖 cs.AI

PepEDiff: Zero-Shot Peptide Binder Design via Protein Embedding Diffusion

本文提出 PepEDiff，一种基于预训练蛋白嵌入模型和扩散机制的零-shot 生成框架，无需依赖中间结构预测即可直接生成具有高度多样性的新型肽结合剂，并在 TIGIT 等挑战性靶点上超越了现有最先进方法。

Po-Yu Liang, Tibo Duran, Jun Bai2026-03-09🤖 cs.AI

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

SpatialMem 提出了一种以记忆为核心的系统，利用度量 3D 空间作为可解释的索引支架，从单目 RGB 视频构建分层记忆以支持长程、语言引导的室内场景检索、问答及离线导航任务。

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

Neural Signals Generate Clinical Notes in the Wild

该论文提出了首个临床脑电到语言的基础模型 CELM，利用包含近万份报告的大规模数据集，实现了从长时程、变长脑电记录到多维度临床报告的端到端自动生成，并在标准生成指标上取得了显著性能提升。

Jathurshan Pradeepkumar, Zheng Chen, Jimeng Sun2026-03-09🤖 cs.AI

Localizing and Correcting Errors for LLM-based Planners

该论文提出了一种名为“局部化上下文学习”（L-ICL）的迭代指令增强方法，通过针对规划轨迹中的首个约束违反步骤注入最小修正示例，显著提升了大语言模型在符号经典规划任务中生成有效计划的准确率。

Aditya Kumar, William W. Cohen2026-03-09🤖 cs.AI

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

本文通过展示研究人员利用 Google Gemini 系列模型在理论计算机科学、经济学及物理学等领域成功解决开放问题、证伪猜想及生成新证明的案例，提炼出迭代优化、问题分解等高效人机协作技巧，并探讨了将模型作为对抗性审查者或嵌入神经符号循环等进阶应用，论证了 AI 作为科学发现创造性伙伴的潜力。

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

本文针对大语言模型智能体在复杂交互场景下不确定性量化研究的不足，提出了首个通用理论框架，系统剖析了四大关键技术挑战，并基于真实基准测试展望了该领域的未来发展方向。

Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li2026-03-09🤖 cs.AI

From Features to Actions: Explainability in Traditional and Agentic AI Systems

该论文通过对比静态分类任务中的归因解释与智能体基准测试中的轨迹诊断，揭示了传统特征归因方法无法有效诊断智能体执行失败，从而论证了转向轨迹级可解释性对于评估和诊断自主 AI 行为（特别是状态跟踪不一致问题）的必要性。

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

本文介绍了名为 Aletheia 的自主数学研究智能体，它通过结合先进推理模型、推理时扩展定律及工具使用能力，实现了从奥林匹克竞赛题到生成无人类干预研究论文、证明新定理及解决开放问题等里程碑式的 AI 辅助数学研究突破。

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

MERIT Feedback Elicits Better Bargaining in LLM Negotiators

该论文提出了以效用反馈为核心的框架，通过构建涵盖多种复杂场景的 AgoraBench 基准、引入基于人类偏好的经济评估指标，以及利用人类偏好数据集优化提示与微调流程，显著提升了大语言模型在谈判中的策略深度与对手感知能力。

Jihwan Oh, Murad Aghazada, Yooju Shin, Se-Young Yun, Taehyeon Kim2026-03-09🤖 cs.AI

Why Human Guidance Matters in Collaborative Vibe Coding

这项基于 737 名参与者的研究通过对比实验发现，在“氛围编程”（vibe coding）协作中，人类主导指令而 AI 负责评估的混合模式表现最佳，且人类提供的高层指令能有效避免 AI 主导指令导致的性能崩溃，凸显了人类指导在构建未来人机协作社会中的关键作用。

Haoyu Hu, Raja Marjieh, Katherine M Collins, Chenyi Li, Thomas L. Griffiths, Ilia Sucholutsky, Nori Jacoby2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

该论文提出了名为 DataChef-32B 的强化学习框架，通过端到端自动生成数据食谱来优化大语言模型适应过程，其生成的食谱在多个任务上达到了专家级水平，并成功将 Qwen3-1.7B-Base 在 AIME'25 数学基准上的表现提升至超越官方后训练检查点的 66.7 分。

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

该论文提出了 SWE-MiniSandbox，一种利用内核级机制和轻量级环境预缓存技术实现的无容器强化学习框架，它在保持隔离性的同时显著降低了磁盘占用和环境准备时间，为软件工程智能体的规模化训练提供了高效且可访问的基础。

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

该论文针对多轮对话中提示注入攻击难以在代理层进行有效聚合检测的问题，提出了一种结合单轮峰值风险、持久性比率与类别多样性的“峰值 + 累积”评分公式，在无需调用大语言模型的情况下，于大规模数据集上实现了高召回率与低误报率的攻击检测效果。

J Alex Corll2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

本文通过系统文献综述批判了机器学习中将人类分歧视为噪声的“共识陷阱”谬误，揭示了数据标注中存在的锚定偏差与西方中心主义霸权，并主张将分歧重新定义为构建文化胜任模型的关键信号，从而推动从追求单一“真理”向映射人类经验多样性的标注范式转型。

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

本文提出了 AHSIV 框架，通过整合考虑预测视界退化的指标调整、需求结构分类及多目标优化机制，解决了多 SKU 场景下因预测视界变化导致的模型排序不稳定问题，为异构需求环境下的业务决策提供了自适应且可复现的模型选择方案。

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

cs.AI

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

PepEDiff: Zero-Shot Peptide Binder Design via Protein Embedding Diffusion

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

Neural Signals Generate Clinical Notes in the Wild

Localizing and Correcting Errors for LLM-based Planners

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Towards Autonomous Mathematics Research

MERIT Feedback Elicits Better Bargaining in LLM Negotiators

Why Human Guidance Matters in Collaborative Vibe Coding

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

cs.AI

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

PepEDiff: Zero-Shot Peptide Binder Design via Protein Embedding Diffusion

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

Neural Signals Generate Clinical Notes in the Wild

Localizing and Correcting Errors for LLM-based Planners

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Towards Autonomous Mathematics Research

MERIT Feedback Elicits Better Bargaining in LLM Negotiators

Why Human Guidance Matters in Collaborative Vibe Coding

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR→\rightarrow→LLM Pipelines?

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?