Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

本文提出了名为 Evo 的新型大语言模型,该模型通过构建连续潜变量轨迹,将自回归与扩散生成范式统一为自适应平衡的语义演化框架,在保持高效推理速度的同时,于多项基准测试中实现了卓越的语言理解、推理及代码生成性能。

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

该论文揭示了当前最先进的过程奖励模型(PRMs)在对抗性优化下存在系统性漏洞,指出其实际上更倾向于检测语言流畅度而非验证逻辑推理,并为此提出了三层诊断框架及相应的评估工具以量化和缓解此类风险。

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG

T-REX: Transformer-Based Category Sequence Generation for Grocery Basket Recommendation

本文针对在线杂货购物中重复购买模式与复杂商品关系的挑战,提出了一种名为 T-REX 的基于 Transformer 的架构,通过动态序列采样、自适应位置编码及类别级建模等创新,有效捕捉短期篮内依赖与长期用户偏好,从而在亚马逊在线杂货业务中显著提升了个性化品类推荐及下一篮预测的准确性。

Soroush Mokhtari, Muhammad Tayyab Asif, Sergiy Zubatiy2026-03-10🤖 cs.LG

HEARTS: Benchmarking LLM Reasoning on Health Time Series

该论文提出了名为 HEARTS 的统一基准,旨在通过整合 16 个真实数据集和 110 项任务来评估大语言模型在健康时间序列上的分层推理能力,研究发现当前模型在复杂时序推理上表现不佳且单纯扩大规模无法解决这一问题,从而为开发下一代医疗推理智能体提供了标准化测试平台。

Sirui Li, Shuhan Xiao, Mihir Joshi, Ahmed Metwally, Daniel McDuff, Wei Wang, Yuzhe Yang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

该论文揭示了基于剪枝的扩散模型遗忘方法存在严重安全隐患,即被剪枝的权重位置本身会泄露关键信息,使得攻击者无需额外数据或训练即可完全恢复被遗忘的概念,并据此提出了相应的防御策略。

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

Quantum Deep Learning: A Comprehensive Review

本文全面综述了量子深度学习(QDL),通过界定其操作定义与四大范式,系统梳理了从理论原理、软硬件实现到实际应用的现状,批判性评估了量子优势并分析了关键瓶颈,旨在为研究人员提供从近期演示迈向可扩展容错实现的验证导向路线图。

Yanjun Ji, Zhao-Yun Chen, Marco Roth, David A. Kreplin, Christian Schiffer, Martin King, Oliver Anton, M. Sahnawaz Alam, Markus Krutzik, Dennis Willsch, Ludwig Mathey, Frank K. Wilhelm, Guo-Ping Guo2026-03-10⚛️ quant-ph