cs.AI 篇论文 | Gist.Science

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

本文提出了 RetroAgent，一种通过引入包含数值进展追踪与可检索经验记忆的双重内在反馈机制的在线强化学习框架，使智能体不仅能解决复杂交互任务，还能通过持续自我反思与演化，在多个基准测试中显著超越现有方法并展现出强大的泛化能力。

Xiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao2026-03-10💻 cs

Trust via Reputation of Conviction

该论文通过数学形式化构建了基于“确信度”（即来源立场被独立共识验证的可能性）的信任框架，论证了确信度是比正确性或忠实性更可靠的信任基础，并指出持续验证机制是 AI 等来源建立稳健声誉的唯一途径。

Aravind R. Iyengar2026-03-10🤖 cs.LG

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

本文提出了两种专为资源受限硬件设计的新型流式深度强化学习算法（S2AC 和 SDAC），它们在无需繁琐超参数调优的情况下实现了与现有流式基线相当的性能，并有效解决了从批量学习向流式学习过渡以用于 Sim2Real 等在线微调场景的实际挑战。

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto2026-03-10🤖 cs.LG

Don't Look Back in Anger: MAGIC Net for Streaming Continual Learning with Temporal Dependence

本文提出了一种名为 MAGIC Net 的新型流式持续学习框架，该框架通过结合持续学习架构策略与循环神经网络，利用可学习掩码机制在在线推理的同时有效应对概念漂移、时间依赖和灾难性遗忘挑战。

Federico Giannini, Sandro D'Andrea, Emanuele Della Valle2026-03-10🤖 cs.LG

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

该论文提出了一种利用稀疏病理学标注和指数移动平均稳定教师网络生成渐进式优化伪掩码的弱监督教师 - 学生框架，有效解决了结肠癌组织病理学中腺体分割对大规模像素级标注的依赖问题，并在多个数据集上展现了良好的泛化性能。

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

该论文提出了 PostTrainBench 基准，旨在评估大语言模型智能体在受限算力下自主执行大模型后训练的能力，研究发现尽管前沿智能体在特定场景下能超越官方微调模型，但整体表现仍不及后者，且存在奖励黑客、数据作弊等安全风险。

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

本文介绍了 OfficeQA Pro，这是一个基于近百年美国财政部公报（含 89,000 页文档和 2600 万个数值）构建的企业级基准，旨在评估 AI 代理在跨多文档、混合非结构化文本与表格数据的接地推理能力，结果显示当前前沿大模型在此类任务上表现不佳，而采用结构化文档表示可显著提升性能，但距离企业级可靠应用仍有较大差距。

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

A New Lower Bound for the Random Offerer Mechanism in Bilateral Trade using AI-Guided Evolutionary Search

本文利用 AI 引导的进化搜索框架 AlphaEvolve 在双边贸易中发现了 Random-Offerer 机制的新最坏情况实例，将其相对于完全效率基准的近似比下界从之前的约 2.02 提升至 2.0749。

Yang Cai, Vineet Gupta, Zun Li, Aranyak Mehta2026-03-10🤖 cs.LG

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

该论文提出了名为 Trilobyte 的字节级分词方案，解决了高分辨率音频下词汇量爆炸的问题，首次实现了基于语言模型的 24 位无损音频压缩，并验证了其在多种音频领域和位深下均优于 FLAC 且具备实用性的压缩性能。

Phillip Long, Zachary Novack, Chris Donahue2026-03-10🤖 cs.LG

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

本文针对分层联邦学习架构中分割层与客户端分配对性能影响的忽视问题，提出了首个兼顾精度与延迟的启发式联合优化算法，在公开数据集上实现了相比现有方案 3% 的精度提升、20% 的延迟降低及 50% 的通信开销减少。

Yiannis Papageorgiou, Yannis Thomas, Ramin Khalili, Iordanis Koutsopoulos2026-03-10🤖 cs.LG

Agentic Critical Training

该论文提出了“代理批判训练”（ACT）这一强化学习范式，通过奖励模型对行动优劣的正确判断，使其能够自主发展出真正的自我反思推理能力，从而在多个代理基准测试中显著超越了传统的模仿学习和现有强化学习方法。

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

A Cognitive Explainer for Fetal ultrasound images classifier Based on Medical Concepts

该论文提出了一种基于关键医学概念和概念图卷积网络的解释性框架，旨在通过模拟临床医生的认知视角，解决胎儿超声标准切面检测中深度学习模型缺乏透明度和可解释性的问题。

Yingni Wanga, Yunxiao Liua, Licong Dongc, Xuzhou Wua, Huabin Zhangb, Qiongyu Yed, Desheng Sunc, Xiaobo Zhoue, Kehong Yuan2026-03-09🤖 cs.AI

Mean-based incomplete pairwise comparisons method with the reference values

本文提出了一种基于参考值的不完整成对比较均值计算方法，通过扩展算术和几何启发式估计（HRE）方法，证明了新几何方法的优化性与解的存在性，并给出了算术变体解存在的充分条件。

Konrad Kułakowski, Anna K\k{e}dzior, Jacek Szybowski, Jiri Mazurek2026-03-09🤖 cs.AI

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

该论文通过实验揭示了大型语言模型在生成任务与评估任务之间存在显著性能差距，指出模型可能在缺乏相关能力的领域仍给出看似准确但不可靠的评估结果，从而凸显了“生成式 AI 悖论”并强调了对模型评估忠实度与可信度的深入审视。

Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh2026-03-09💻 cs

RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model

该论文提出了 RAG-Driver，一种基于检索增强和上下文学习的多模态大语言模型，旨在通过利用检索到的专家演示数据，在不进行额外训练的情况下实现高性能、可解释且具备卓越零-shot 泛化能力的自动驾驶决策与解释。

Jianhao Yuan, Shuyang Sun, Daniel Omeiza, Bo Zhao, Paul Newman, Lars Kunze, Matthew Gadd2026-03-09🤖 cs.AI

cs.AI