cs.AI 篇论文 | Gist.Science

The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

该论文提出了名为 ProEvolve 的基于图的框架，通过可编程的图变换技术实现环境演化的自动可控生成，从而在动态变化的环境中更有效地评估智能体的适应能力。

Guangrui Li, Yaochen Xie, Yi Liu, Ziwei Dong, Xingyuan Pan, Tianqi Zheng, Jason Choi, Michael J. Morais, Binit Jha, Shaunak Mishra, Bingrou Zhou, Chen Luo, Monica Xiao Cheng, Dawn Song2026-03-09🤖 cs.AI

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

该论文提出了首个面向复杂病灶推理分割的 Chain-of-Thought 基准 ComLesion-14K，并设计了结合语义引导提示适配器与自适应双粒度奖励机制的 CORE-Seg 框架，通过从监督微调（SFT）到 GRPO 的渐进式训练策略，显著提升了复杂病灶分割的精度与逻辑可解释性。

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

该论文针对深度研究报告事实性验证的难题，指出静态基准的局限性，提出了通过“审计 - 评分”机制实现基准与智能体协同进化的 DeepFact 框架，显著提升了专家标注可靠性并构建了可审计的 DeepFact-Bench 基准及高性能验证代理。

Yukun Huang, Leonardo F. R. Ribeiro, Momchil Hardalov, Bhuwan Dhingra, Markus Dreyer, Venkatesh Saligrama2026-03-09🤖 cs.AI

Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis

该论文提出了一种结合节点 Transformer 架构与 BERT 情感分析的集成框架，通过将股票市场建模为图结构并融合多源数据，在 S&P 500 股票预测中显著降低了误差并提升了方向预测准确率。

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

本文提出了名为 BlackMirror 的通用无训练黑盒检测框架，通过镜像匹配与镜像验证机制分析指令与生成图像间的语义偏差及其稳定性，从而有效识别现有基于图像相似性方法难以检测的多样化文本到图像模型后门攻击。

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

本文提出了一种受整流流启发的 RAC 模型，通过利用整流流的直线路径实现可修正的多步解码与双向推理，在降低约 41% 参数和 70% 计算成本的同时，显著超越了现有最先进 VAE 的重建与生成性能。

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Addressing the Ecological Fallacy in Larger LMs with Human Context

该论文提出通过引入作者上下文（HuLM 任务）来纠正大型语言模型中的生态谬误，实验表明在 8B Llama 模型上应用人类感知的微调（HuFT）或持续预训练，能显著提升其在多项下游任务中的性能。

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Facial Expression Recognition Using Residual Masking Network

该论文提出了一种结合深度残差网络与 U-Net 架构的残差掩蔽网络，利用分割网络优化特征图以增强注意力机制，从而在 FER2013 和 VEMO 数据集上实现了面部表情识别的当前最优性能。

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

该论文提出了一种将大语言模型编程代理的原始执行轨迹转化为结构化、可解释洞察的系统性方法，通过结合领域特定的失败分类法、自动标注系统及混合解释生成器，显著提升了开发者（包括非技术人员）识别故障根因的速度与修复准确率。

Arun Joshi2026-03-09🤖 cs.AI

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

本文提出了 E-AdaPrune，一种基于视觉特征奇异值谱能量驱动的自适应视觉 Token 剪枝框架，它无需额外参数即可根据图像信息密度动态分配 Token 预算，在保持极低延迟的同时显著提升了多模态大模型的性能。

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

该论文基于交互主义和建构主义心理学理论，提出了一种融合个体特质与情境特征的机器学习方法，利用大型语言模型分析社交媒体数据以预测心理健康状态，在保持竞争力的同时显著提升了模型的可解释性。

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Domain-Adaptive Model Merging across Disconnected Modes

本文提出了 DMM 框架，通过分阶段合并相似模型并利用归一化统计量合成伪数据进行知识蒸馏，实现了在无需原始数据的情况下高效融合高度异构的领域模型，从而在多个基准测试中取得了超越现有方法的性能。

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian Wu2026-03-09🤖 cs.AI

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

该论文提出了一种名为“骨骼到图像编码”（S2I）的新方法，通过将骨骼序列转换为类图像格式，成功利用大规模预训练视觉模型进行自监督骨骼表征学习，有效解决了骨骼数据格式差异大及多模态动作识别中引入额外分支的难题，并在多个基准数据集上验证了其优越的泛化能力。

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

本文提出了 ProCap 框架，通过从静态图像对比转向动态过程建模，利用稀疏关键帧和可学习的过程查询来显式捕捉变化过程，从而生成更准确描述图像间差异及其发生方式的变化描述。

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

An Interactive Multi-Agent System for Evaluation of New Product Concepts

该研究提出了一种基于大语言模型的多智能体系统，通过整合检索增强生成、实时搜索及专业微调技术，在技术可行性与市场可行性维度上自动化评估新产品概念，其评估结果与资深行业专家高度一致，有效解决了传统方法的主观偏差与高成本问题。

Bin Xuan, Ruo Ai, Hakyeon Lee2026-03-09🤖 cs.AI

Technical Report: Automated Optical Inspection of Surgical Instruments

该报告通过与巴基斯坦 Sialkot 地区行业领袖合作，利用包含 4,414 张高分辨率图像的新数据集，结合 YOLOv8、ResNet-152 和 EfficientNet-b4 等深度学习架构，开发自动化光学检测系统以识别和修复手术器械缺陷，从而提升制造标准并保障患者安全。

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

TADPO: Reinforcement Learning Goes Off-road

本文提出了名为 TADPO 的新型策略梯度算法，通过结合离线轨迹的教师指导与在线轨迹的学生探索，成功构建了首个能在极端地形下实现高速驾驶并具备零样本仿真到现实迁移能力的端到端强化学习全尺寸越野车辆系统。

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

本文提出了 MM-ISTS，一种利用多模态视觉 - 文本大语言模型，通过双阶段编码机制、自适应查询特征提取及多模态对齐模块，有效解决不规则采样时间序列预测中上下文语义缺失与细粒度时序模式捕捉难题的框架。

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

该论文针对视觉 - 语言 - 动作（VLA）模型在指令与场景冲突时表现出的“语言盲视”问题，提出了无需训练且即插即用的指令引导注意力重校准（IGAR）方法，通过重构注意力分布显著提升了模型在分布外矛盾指令下的可靠性，同时保持了基线任务性能。

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

该论文提出了名为 RepKAN 的新型架构，通过融合 CNN 的结构效率与 KAN 的非线性表征能力，在 EuroSAT 和 NWPU-RESISC45 数据集上实现了超越现有最先进模型的分类性能，同时为遥感图像分类提供了可解释的物理推理机制。

Minjong Cheon2026-03-09🤖 cs.AI