Hindsight Credit Assignment for Long-Horizon LLM Agents

本文提出了 HCAPO 框架,通过利用大语言模型进行事后推理以优化步级 Q 值估计并引入多尺度优势机制修正价值基线,有效解决了长程任务中的稀疏奖励与信用分配难题,在 WebShop 和 ALFWorld 等基准测试中显著超越了现有强化学习方法。

Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen, Yuteng Shen, Weihong Luo, Xiku Du, Lan-Zhe Guo, Yu-Feng Li2026-03-11🤖 cs.AI

Are Expressive Encoders Necessary for Discrete Graph Generation?

该论文提出了名为 GenGNN 的模块化消息传递框架,证明了在离散图生成任务中,无需依赖高表达力的 Transformer 等复杂架构,仅使用 GenGNN 作为扩散模型骨干即可在保持与图 Transformer 相当的有效性(如树和平面图数据集超过 90%、分子生成达 99.49%)的同时,实现 2 至 5 倍的推理速度提升。

Jay Revolinsky, Harry Shomer, Jiliang Tang2026-03-11🤖 cs.AI

Why Channel-Centric Models are not Enough to Predict End-to-End Performance in Private 5G: A Measurement Campaign and Case Study

该研究通过在私有 5G 环境中的实测表明,仅依赖信道级指标(如信号强度)的模型会因高估 MIMO 空间层数而系统性地高估端到端吞吐量,而直接基于实测数据学习的高斯过程模型能显著降低预测误差,证明通信感知规划需采用数据驱动方法或精细校准的链路层模型以准确预测系统性能。

Nils Jörgensen2026-03-11🤖 cs.LG

A New Modeling to Feature Selection Based on the Fuzzy Rough Set Theory in Normal and Optimistic States on Hybrid Information Systems

本文针对混合信息系统中模糊粗糙集理论在高维空间下计算效率低及易产生噪声的问题,提出了一种名为 FSbuHD 的新特征选择模型,该模型通过计算对象间综合距离构建模糊等价关系,将特征选择转化为优化问题,并在正常和乐观两种模式下经实验验证了其高效性与优越性。

Mohammad Hossein Safarpour, Seyed Mohammad Alavi, Mohammad Izadikhah, Hossein Dibachi2026-03-11🤖 cs.AI

Optimizing Reinforcement Learning Training over Digital Twin Enabled Multi-fidelity Networks

本文提出了一种基于数字孪生多保真网络的层次化强化学习框架,通过联合优化天线倾角调整策略与物理/虚拟网络数据采集比例,在满足时延约束的同时最大化用户数据速率,并显著降低了物理网络的数据采集延迟。

Hanzhi Yu, Hasan Farooq, Julien Forgeat, Shruti Bothe, Kristijonas Cyras, Md Moin Uddin Chowdhury, Mingzhe Chen2026-03-11🤖 cs.LG