cs.AI 篇论文 | Gist.Science

Routing without Forgetting

该论文提出了“无遗忘路由”（RwF）架构，通过在 Transformer 中引入基于能量的关联检索层（受现代 Hopfield 网络启发），实现了无需任务标识或迭代优化的动态提示生成，从而在严格在线持续学习场景下显著优于现有的提示微调方法。

Alessio Masano, Giovanni Bellitto, Dipam Goswani, Joost Van de Weijer, Concetto SpampinatoWed, 11 Ma🤖 cs.AI

A Variational Latent Equilibrium for Learning in Cortex

该论文提出了一种基于能量守恒和极值作用原理的变分潜在平衡框架，通过推导实时误差动力学，将时间连续的反向传播算法转化为生物可实现的局部时空学习规则，从而为大脑的时空深度学习及物理电路实现提供了严谨的理论基础。

Simon Brandt, Paul Haider, Walter Senn, Federico Benitez, Mihai A. PetroviciWed, 11 Ma🤖 cs.AI

Context Engineering: From Prompts to Corporate Multi-Agent Architecture

该论文提出从提示工程演进为包含上下文工程、意图工程和规格工程的四层成熟度模型，旨在通过系统化设计信息环境、组织目标及机器可读规范，解决企业多智能体系统在规模化部署中面临的复杂性与控制难题。

Vera V. VishnyakovaWed, 11 Ma🤖 cs.AI

Grounding Synthetic Data Generation With Vision and Language Models

该论文提出了一种结合视觉与语言模型的基于地面真值的合成数据生成与评估框架，并发布了包含 40 万张图像的大规模遥感数据集 ARAS400k，实验证明将合成数据与真实数据结合使用能显著提升语义分割和图像描述任务的性能。

Ümit Mert Ça\u{g}lar, Alptekin TemizelWed, 11 Ma🤖 cs.AI

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

PRECEPT 是一个统一的测试时适应框架，通过结合确定性精确规则检索、冲突感知记忆机制以及由 COMPASS 驱动的帕累托引导提示演化，有效解决了大语言模型在条件增多时的检索退化、规则组合困难及知识陈旧问题，并在多项基准测试中展现出显著的鲁棒性与性能提升。

Arash ShahmansooriWed, 11 Ma🤖 cs.AI

MM-tau-p $^2$ : Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

该论文提出了 MM-tau-p $^2$ 基准，旨在通过引入 12 项新指标，在双控制设置下评估多模态智能体在融入用户人格画像时的鲁棒性、多模态能力及时延开销，从而填补现有文本驱动评估框架在个性化多模态交互场景中的空白。

Anupam Purwar, Aditya ChoudharyWed, 11 Ma🤖 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

本文提出了首个专注于评估大语言模型生成原则驱动型交互式应用（MiniApps）能力的基准测试 MiniAppBench，并配套开发了基于智能体自动化探索的评估框架 MiniAppEval，以解决现有基准无法有效衡量动态交互逻辑及缺乏单一标准答案的难题。

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai LiWed, 11 Ma🤖 cs.AI

When to Lock Attention: Training-Free KV Control in Video Diffusion

本文提出了一种名为 KV-Lock 的训练免费框架，通过利用扩散幻觉检测动态调节背景键值缓存融合比例与引导强度，在视频编辑任务中有效平衡了前景生成质量与背景一致性。

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian WangWed, 11 Ma🤖 cs.AI

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

该论文提出了一个用于图神经网络时间序列异常检测的开源框架，通过系统性评估揭示了 GNN 在提升检测性能与可解释性方面的优势，并批判性地反思了当前领域在指标设计与阈值策略上的局限性。

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico LarrocaWed, 11 Ma🤖 cs.AI

Logics-Parsing-Omni Technical Report

该论文提出了 Omni Parsing 框架，通过整合全息检测、细粒度识别与多级解读三个层级，并引入证据锚定机制，将非结构化多模态数据转化为可追溯的标准化结构化知识，同时发布了 Logics-Parsing-Omni 模型及 OmniParsingBench 基准以验证其有效性。

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin QuWed, 11 Ma🤖 cs.AI

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

该论文提出了 EsoLang-Bench 基准，通过利用缺乏预训练数据且难以被“刷分”的极简主义编程语言，揭示了大型语言模型在标准代码生成任务中表现优异实则依赖记忆，而在需要真正推理能力的任务中表现极差，从而证明现有模型缺乏真正的泛化推理能力。

Aman Sharma, Paras ChopraWed, 11 Ma🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

该研究提出了一种基于大型上下文电子健康记录的自动心血管风险管理分类框架，通过对比传统机器学习、专用深度学习架构及生成式大语言模型，证实了定制 Transformer 模型在捕捉医疗文本长程依赖方面表现最优，为老年心血管风险分层提供了高效的自动化替代方案。

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

本文介绍了名为 AutoViVQA 的大规模自动构建的越南语视觉问答数据集，旨在利用预训练 Transformer 架构推动越南语多模态学习研究，并系统评估了多种自动评价指标在跨语言场景下的表现。

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung LeWed, 11 Ma🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

本文提出了 ESAinsTOD，一种统一的全参数微调端到端指令微调框架，通过引入指令对齐与模式对齐机制，显著提升了任务型对话模型在跨数据集基准测试、低资源零样本泛化及抗噪鲁棒性方面的性能。

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang CheWed, 11 Ma🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

该论文提出了 ActiveUltraFeedback，一种利用主动学习动态筛选高信息量样本以生成偏好数据的模块化流程，通过引入 DRTS 和 DeltaUCB 等新颖方法，仅用六分之一的标注数据即可实现与静态基线相当甚至更优的大语言模型对齐效果。

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas KrauseWed, 11 Ma🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

本文提出了名为 Mousse 的新型优化器，它通过结合 Shampoo 的曲率感知预条件技术与 Muon 的谱优化方法，在黎曼流形上实现了各向异性的信任区域约束，从而在几乎不增加计算开销的情况下显著提升了语言模型的训练效率。

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai ChenWed, 11 Ma🤖 cs.AI

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

该论文提出了 OOD-MMSafe 基准和 CASPO 框架，旨在将多模态大语言模型的安全对齐从关注恶意意图转向识别情境依赖的潜在后果，从而显著降低模型在因果推理中的失败率。

Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun MaWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

该论文提出了 MUGEN 基准以评估大音频语言模型的多音频理解能力，揭示了其在并发输入增加时性能显著下降的瓶颈，并发现结合音频排列自洽性与思维链策略可显著提升模型表现。

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

该论文提出了一种名为 CVS 的免训练数据选择方法，通过利用冻结的视觉语言大模型衡量“问题”引入前后答案有效性的差异，精准筛选出真正需要跨模态推理的高质量样本，从而在显著降低计算成本的同时提升了模型性能。

Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang LiWed, 11 Ma🤖 cs.AI

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

本文提出了 AutoAgent 框架，通过融合进化认知、实时情境决策与弹性记忆编排三大核心组件，实现了智能体在动态环境中无需外部重训练即可持续从经验中学习并优化自适应决策能力。

Xiaoxing Wang, Ning Liao, Shikun Wei, Chen Tang, Feiyu XiongWed, 11 Ma🤖 cs.AI

cs.AI