Hindsight Credit Assignment for Long-Horizon LLM Agents

本文提出了 HCAPO 框架,通过利用大语言模型进行事后推理以优化步级 Q 值估计并引入多尺度优势机制修正价值基线,有效解决了长程任务中的稀疏奖励与信用分配难题,在 WebShop 和 ALFWorld 等基准测试中显著超越了现有强化学习方法。

Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen, Yuteng Shen, Weihong Luo, Xiku Du, Lan-Zhe Guo, Yu-Feng Li2026-03-11🤖 cs.AI

Large Language Model-Assisted Superconducting Qubit Experiments

该论文提出了一种利用大语言模型通过按需生成工具来自动化超导量子比特控制与测量的框架,成功实现了谐振器自主表征及量子非破坏性测量的复现,为复杂量子硬件的实验部署提供了更灵活、用户友好的范式。

Shiheng Li, Jacob M. Miller, Phoebe J. Lee, Gustav Andersson, Christopher R. Conner, Yash J. Joshi, Bayan Karimi, Amber M. King, Howard L. Malc, Harsh Mishra, Hong Qiao, Minseok Ryu, Xuntao Wu, Siyuan Xing, Haoxiong Yan, Jian Shi, Andrew N. Cleland2026-03-11⚛️ quant-ph

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

该论文提出了测试驱动 AI 代理定义(TDAD)方法,通过将代理提示视为编译产物,利用编码代理将行为规范转化为可执行测试并迭代优化提示,结合可见/隐藏测试分割、语义变异测试及规范演进场景等机制,有效解决了工具型大语言代理在生产部署中因提示微调导致的静默回归、工具滥用及策略违规等难以量化的合规性问题。

Tzafrir Rehan2026-03-11🤖 cs.AI

Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

Scale-Plan 是一个可扩展的框架,它利用大语言模型从自然语言指令中提取紧凑的任务相关表示,通过构建动作图并引导结构化搜索来过滤无关信息,从而有效解决异构多机器人系统在复杂长时程任务规划中的可扩展性与可靠性问题,并在其提出的 MAT2-THOR 基准测试中显著优于现有方法。

Piyush Gupta, Sangjae Bae, Jiachen Li, David Isele2026-03-11🤖 cs.AI

Fish Audio S2 Technical Report

Fish Audio S2 是一款开源的多说话人、多轮次且支持自然语言指令控制的高级文本转语音系统,其通过多阶段训练与数据流水线实现了生产级流式推理(RTF 0.195,首字延迟<100ms),并公开了模型权重、微调代码及基于 SGLang 的推理引擎。

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

Are Expressive Encoders Necessary for Discrete Graph Generation?

该论文提出了名为 GenGNN 的模块化消息传递框架,证明了在离散图生成任务中,无需依赖高表达力的 Transformer 等复杂架构,仅使用 GenGNN 作为扩散模型骨干即可在保持与图 Transformer 相当的有效性(如树和平面图数据集超过 90%、分子生成达 99.49%)的同时,实现 2 至 5 倍的推理速度提升。

Jay Revolinsky, Harry Shomer, Jiliang Tang2026-03-11🤖 cs.AI