cs.AI 篇论文 | Gist.Science

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

该论文提出了一种名为“骨骼到图像编码”（S2I）的新方法，通过将骨骼序列转换为类图像格式，成功利用大规模预训练视觉模型进行自监督骨骼表征学习，有效解决了骨骼数据格式差异大及多模态动作识别中引入额外分支的难题，并在多个基准数据集上验证了其优越的泛化能力。

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

本文提出了 ProCap 框架，通过从静态图像对比转向动态过程建模，利用稀疏关键帧和可学习的过程查询来显式捕捉变化过程，从而生成更准确描述图像间差异及其发生方式的变化描述。

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

An Interactive Multi-Agent System for Evaluation of New Product Concepts

该研究提出了一种基于大语言模型的多智能体系统，通过整合检索增强生成、实时搜索及专业微调技术，在技术可行性与市场可行性维度上自动化评估新产品概念，其评估结果与资深行业专家高度一致，有效解决了传统方法的主观偏差与高成本问题。

Bin Xuan, Ruo Ai, Hakyeon Lee2026-03-09🤖 cs.AI

Technical Report: Automated Optical Inspection of Surgical Instruments

该报告通过与巴基斯坦 Sialkot 地区行业领袖合作，利用包含 4,414 张高分辨率图像的新数据集，结合 YOLOv8、ResNet-152 和 EfficientNet-b4 等深度学习架构，开发自动化光学检测系统以识别和修复手术器械缺陷，从而提升制造标准并保障患者安全。

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

TADPO: Reinforcement Learning Goes Off-road

本文提出了名为 TADPO 的新型策略梯度算法，通过结合离线轨迹的教师指导与在线轨迹的学生探索，成功构建了首个能在极端地形下实现高速驾驶并具备零样本仿真到现实迁移能力的端到端强化学习全尺寸越野车辆系统。

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

本文提出了 MM-ISTS，一种利用多模态视觉 - 文本大语言模型，通过双阶段编码机制、自适应查询特征提取及多模态对齐模块，有效解决不规则采样时间序列预测中上下文语义缺失与细粒度时序模式捕捉难题的框架。

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

该论文针对视觉 - 语言 - 动作（VLA）模型在指令与场景冲突时表现出的“语言盲视”问题，提出了无需训练且即插即用的指令引导注意力重校准（IGAR）方法，通过重构注意力分布显著提升了模型在分布外矛盾指令下的可靠性，同时保持了基线任务性能。

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

该论文提出了名为 RepKAN 的新型架构，通过融合 CNN 的结构效率与 KAN 的非线性表征能力，在 EuroSAT 和 NWPU-RESISC45 数据集上实现了超越现有最先进模型的分类性能，同时为遥感图像分类提供了可解释的物理推理机制。

Minjong Cheon2026-03-09🤖 cs.AI

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

本文提出了 MASFactory，这是一个以图为核心的 LLM 多智能体系统编排框架，通过引入将自然语言意图转化为可编辑工作流的“氛围图（Vibe Graphing）”人机协同方法，解决了复杂图工作流实现困难、复用性低及外部上下文集成复杂的问题，并在多个基准测试中验证了其有效性与一致性。

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

Sensitivity-Aware Retrieval-Augmented Intent Clarification

该论文针对敏感领域（如医疗、法律）中检索增强型意图澄清系统面临的隐私保护挑战，提出了通过定义攻击模型、设计检索级防御机制以及评估保护与效用权衡的三步研究框架，旨在构建能够作为敏感数据守门人的对话代理。

Maik Larooij2026-03-09🤖 cs.AI

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

该论文通过构建反事实图像集并训练线性探针，分析了轻量级视觉语言模型在自动驾驶场景中对视觉概念的编码机制，揭示了感知失败（概念未线性编码）与认知失败（概念存在但语义对齐错误）两种主要故障模式，并发现物体距离增加会显著降低视觉概念的可分性。

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

该论文提出了 TempoSyncDiff，一种基于参考条件的潜在扩散框架，通过教师 - 学生蒸馏技术将推理步数大幅减少，从而在保持身份一致性和时序稳定性的同时，实现了低延迟、适合边缘部署的音频驱动说话头生成。

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

该论文通过引入 PyPDDLEngine 引擎，将大语言模型（LLM）转化为基于 PDDL 模拟的交互式分步规划代理，实证表明尽管其规划成功率仅比直接 LLM 规划略高且成本显著增加，但在特定难度下能生成更短路径，然而其性能提升受限于缺乏类似代码编译错误等外部验证信号，导致代理难以有效评估自身进展。

Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

该研究评估了四种开源大语言模型在基于评分标准自动批改奥地利德语 A 级作文中的表现，结果显示尽管模型能利用标准化标准进行评分，但其与人类专家评分的一致性（最高仅 40.6%）远未达到实际教学评估的应用要求。

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Aggregative Semantics for Quantitative Bipolar Argumentation Frameworks

本文针对具有内在权重且存在攻击与支持关系的定量双极论证框架，提出了一种将攻击者与支持者分别聚合的“聚合语义”新家族，通过三阶段计算机制在保持双极性的同时增强了语义的可解释性与可参数化能力。

Yann Munro, Isabelle Bloch, Marie-Jeanne Lesot2026-03-09🤖 cs.AI

Text-Driven Emotionally Continuous Talking Face Generation

该论文提出了名为“情感连续口型生成”（EC-TFG）的新任务及相应的 TIE-TFG 模型，旨在通过文本和动态情感描述驱动生成能够展现自然、平滑情感过渡的高保真说话人脸视频，从而解决现有方法难以模拟人类连续情感变化的问题。

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lifelong Embodied Navigation Learning

本文提出了名为 Uni-Walker 的终身具身导航学习框架，通过解耦任务共享与特定知识、结合知识继承、专家协同激活及正交约束等策略，有效解决了大语言模型驱动的智能体在连续多任务导航中面临的灾难性遗忘问题。

Xudong Wang, Jiahua Dong, Baichen Liu, Qi Lyu, Lianqing Liu, Zhi Han2026-03-09🤖 cs.AI

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

本文提出了 StreamVoiceAnon+，一种通过监督微调结合帧级情感蒸馏的流式说话人匿名化方法，在保持低延迟和强隐私保护的同时，显著提升了情感内容的保留能力。

Nikita Kuzmin, Kong Aik Lee, Eng Siong Chng2026-03-09🤖 cs.AI

Offline Materials Optimization with CliqueFlowmer

本文提出了一种名为 CliqueFlowmer 的新型离线模型基优化方法，该方法将目标材料属性的直接优化与流生成模型相结合，显著优于传统生成式基线，从而更有效地探索材料空间并发现高性能材料。

Jakub Grudzien Kuba, Benjamin Kurt Miller, Sergey Levine, Pieter Abbeel2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

该研究通过无监督领域预训练模拟大语言模型的经验积累，利用机器人格量表量化其性格特征，发现“表达型通才”与“抑制型专才”表现最佳，且社会性特质受抑反而能提升复杂推理能力，从而揭示了训练数据语言特征对模型性格及性能的因果影响，为“人格工程”提供了新路径。

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI