Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

该论文通过构建涵盖多种问题类型和参数规模的自然语言离散优化数据集,评估了包括 Llama-3 系列和 ChatGPT 在内的不同大语言模型及思维链(CoT)方法的性能,发现强模型表现更优但 CoT 并非总是有效,且数据扰动虽能提升简单问题的表现却引入了不稳定性,从而为自动化求解离散优化问题提供了基准评估与实用建议。

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

该论文提出了一种名为 DECADE 的无监督扩散模型,通过引入时间一致性约束,有效解决了铷 -82 动态心脏 PET 成像中因缺乏配对数据和高噪声导致的去噪难题,在提升图像质量的同时保持了血流动力学参数的定量准确性。

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

ProgAgent:A Continual RL Agent with Progress-Aware Rewards

ProgAgent 提出了一种结合进度感知奖励学习与 JAX 原生高吞吐架构的持续强化学习智能体,通过从无人标注专家视频中提取密集奖励、引入对抗性正则化以应对分布偏移,并融合 PPO 与核心集回放等机制,有效解决了机器人终身学习中的灾难性遗忘与奖励指定难题,在多个基准测试及真实机器人任务中显著超越了现有基线。

Jinzhou Tan, Gabriel Adineera, Jinoh Kim2026-03-10🤖 cs.LG

AI Steerability 360: A Toolkit for Steering Large Language Models

本文介绍了 AI Steerability 360,这是一个开源的 Python 工具包,旨在通过统一的管道接口和模块化设计,降低大语言模型在输入、结构、状态和输出四个控制维度上进行可控性调整与评估的门槛。

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

该论文提出了 SynPlanResearch-R1 框架,通过合成鼓励深度探索的工具使用轨迹来优化冷启动监督微调,从而有效解决了强化学习在研究智能体探索行为上的不足,并在多个基准测试中显著提升了基于 Qwen3 模型的研究性能。

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL