cs.AI 篇论文 | Gist.Science

Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software

本文提出了一种自动化管道，利用大语言模型（LLM）和余弦相似度技术，成功将量子软件中的易失性测试数据集扩展了 54%（新增 25 个案例），并验证了 Google Gemini 等模型在检测易失性测试及分析其根本原因方面的高精度表现。

Janakan Sivaloganathan, Ainaz Jamshidi, Andriy Miranskyy, Lei ZhangWed, 11 Ma🤖 cs.AI

PlayWorld: Learning Robot World Models from Autonomous Play

该论文提出了 PlayWorld，一种完全自主的管道，通过无监督的机器人自博弈学习高保真视频世界模型，从而在物理一致性、失败预测及现实世界策略性能上显著超越了依赖人类演示的传统方法。

Tenny Yin, Zhiting Mei, Zhonghe Zheng, Miyu Yamane, David Wang, Jade Sceats, Samuel M. Bateman, Lihan Zha, Apurva Badithela, Ola Shorinwa, Anirudha MajumdarWed, 11 Ma🤖 cs.AI

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

本文提出了 WS-Net，一种结合状态空间建模与弱信号注意力融合的深度学习框架，通过多分辨率小波编码、Mamba 长程依赖捕捉及自适应门控机制，有效解决了高光谱解混中弱信号被主导端元掩盖的问题，并在多种数据集上显著提升了弱端元的丰度估计精度。

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Time, Identity and Consciousness in Language Model Agents

该论文提出了一种基于“堆栈理论”的保守评估工具包，通过区分语言模型代理在评估窗口内的成分式表现与单一决策步骤中的共现性，计算持久性得分以揭示其“谈论自我”与“组织自我”之间的本质差异。

Elija Perrier, Michael Timothy BennettWed, 11 Ma🤖 cs.AI

EPOCH: An Agentic Protocol for Multi-Round System Optimization

本文介绍了 EPOCH，一种用于异构环境中多轮系统优化的工程协议，它通过划分基线构建与迭代自改进阶段、采用角色约束流程及标准化接口，实现了跨提示、代码和模型配置的协调优化，同时确保了生产级自主工作流的稳定性、可复现性与可追溯性。

Zhanlin Liu, Yitao Li, Munirathnam SrikanthWed, 11 Ma🤖 cs.AI

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

该研究介绍了一种名为 Sentinel 的自主 AI 代理，它利用模型上下文协议（MCP）对远程患者监测数据进行多步推理和情境化分诊，在紧急敏感性等关键指标上超越了人类临床医生，同时以极低的成本实现了可扩展的自动化监测，从而解决了以往远程患者监测试验因数据过载而失败的核心难题。

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

本文提出了 Sim2Act 框架，通过引入针对决策关键状态的对抗性校准机制和组相对扰动策略，有效解决了仿真模型在关键区域预测误差导致的策略不稳定问题，从而在供应链等关键领域实现了更鲁棒的仿真到决策学习。

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie FuWed, 11 Ma🤖 cs.AI

A Text-Native Interface for Generative Video Authoring

本文介绍了名为 Doki 的文本原生生成式视频创作界面，它通过让用户在单一文档中直接编写文本来定义素材、构建场景和编辑视频，从而将视频创作过程与自然的写作习惯对齐，并通过部署研究验证了其降低专业门槛、提升可访问性的潜力。

Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu LiWed, 11 Ma🤖 cs.AI

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

本文提出了 GST-VLA 模型，通过引入高斯空间分词器（GST）将视觉观测转化为具有内在几何结构的 3D 高斯原语，并结合 3D 深度感知思维链（DA-CoT）推理机制，显著提升了机器人在 LIBERO 和 SimplerEnv 等基准测试中的 3D 感知与操作精度。

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

该研究通过融合基于微调 Qwen3 模型生成的中英文新闻情感数据与传统宏观指标，证实了在铝价高波动时期，情感增强的 LSTM 模型能显著提升预测精度与交易策略的经济效用（夏普比率从 0.23 提升至 1.04），并揭示了不同新闻来源、主题及事件类型对铝价预测的差异化影响。

Alvaro Paredes Amorin, Andre Python, Christoph WeisserWed, 11 Ma🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

本文提出了一种统一的潜在空间框架，通过构建涵盖表征形式与结构先验的分类体系、明确五大核心内部机制并制定闭环评估方案，系统性地总结了潜在世界模型在自动驾驶中的进展，并指明了实现决策就绪、可验证且资源高效自动驾驶的未来研究方向。

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

本文提出了一种基于 Transformer 的框架，通过联合对齐全局语义与基于空间注意力掩码的局部判别区域，实现了结合参考图像与文本描述的皮肤病变组成式检索，并在 Derm7pt 数据集上取得了优于现有方法的性能。

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med 提出了一种新颖的医疗视觉 Transformer 预训练框架，利用冻结的大语言模型作为结构化语义教师，通过统一医疗模式将临床发现转化为可验证的 JSON 字段状态对并采用结构化预测分解技术，在训练后丢弃大模型从而生成轻量级、可部署的纯视觉骨干网络，在多种医疗影像任务中实现了超越现有方法的高性能且数据高效的零样本泛化能力。

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

本文提出了名为 PM-Nav 的先验地图引导具身导航框架，通过将环境地图转化为语义先验地图并结合分层思维链提示与多模型协同机制，有效解决了功能建筑中特征高度相似导致的导航难题，在仿真与真实场景中相比现有方法实现了显著的性能提升。

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang MaWed, 11 Ma🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

本文提出了 DexHiL，这是首个针对灵巧操作视觉 - 语言 - 动作（VLA）模型的人机协同后训练框架，通过集成臂手协调干预、干预感知数据采样及轻量级遥操作接口，显著提升了机器人在复杂任务中的成功率。

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

本文提出了 QUSR 模型，通过结合利用多模态大语言模型生成质量先验的 QAP 模块和根据不确定性自适应调整噪声强度的 UNG 模块，有效解决了真实场景下退化未知且非均匀导致的图像超分辨率细节丢失与伪影问题。

Junjie Yin, Jiaju Li, Hanfa XingWed, 11 Ma🤖 cs.AI

Chaotic Dynamics in Multi-LLM Deliberation

该研究通过将多智能体大语言模型委员会建模为随机动力系统，发现即使在零温度（ $T=0$ ）设定下，角色差异化与模型异质性仍会引发系统不稳定，从而论证了稳定性审计是构建多模型治理系统的核心设计需求。

Hajime Shimao, Warut Khern-am-nuai, Sung Joo KimWed, 11 Ma🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

该论文提出了一种基于概率必要性与充分性（PNS）的正则化方法，通过双范围反事实生成器消除类增量学习中的任务内和任务间虚假特征相关性，从而有效缓解特征冲突并防止灾难性遗忘。

Zhen Zhang, Jielei Chu, Tianrui LiWed, 11 Ma🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

该论文针对大语言模型在处理具有复杂层级和非规范布局的表格时难以进行长程推理的问题，提出了名为“深度表格研究（DTR）”的新框架，通过构建分层元图、引入期望感知选择策略以及利用孪生结构化记忆实现持续经验驱动，将表格推理形式化为闭环决策过程以显著提升多步推理能力。

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue HuangWed, 11 Ma🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

本文提出了 DataFactory 框架，通过引入包含数据领导、数据库和知识图谱团队的协作多智能体架构，结合自动化数据转知识图谱映射与自然语言协商机制，有效解决了现有大模型在表格问答中面临的上下文限制、幻觉及复杂推理难题，并在多个基准测试中显著提升了准确率。

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI