cs.CV 篇论文 | Gist.Science

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

本文提出了 TeamHOI 框架，通过结合基于 Transformer 的局部观测策略与掩码对抗运动先验技术，实现了单一去中心化策略在任意团队规模下生成物理真实且协调的多智能体人机交互行为。

Stefan Lionar, Gim Hee Lee2026-03-10💻 cs

AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

AutoTraces 是一种基于多模态大语言模型的自回归机器人轨迹预测框架，通过创新的轨迹分词方案与自动化思维链生成机制，在无需人工标注的情况下实现了复杂人机环境中长时程、高泛化性的轨迹预测。

Teng Wang, Yanting Lu, Ruize Wang2026-03-10💻 cs

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

该论文提出了一种名为 ViSA 的视觉 - 空间推理增强框架，通过三阶段协作架构利用结构化视觉提示使视觉语言模型直接在图像平面上进行推理，从而克服了现有空中视觉语言导航方法在空间推理和语言歧义方面的瓶颈，并在 CityNav 基准测试中实现了比最先进方法高出 70.3% 的成功率。

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

针对现有视觉语言模型在真实场景下读取模拟时钟能力不足的问题，该研究提出了包含多样化真实场景标注数据的新数据集 TickTockVQA，并设计了基于直接偏好优化的 Swap-DPO 微调框架，显著提升了模型在复杂环境下的时钟识别精度与时空推理能力。

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee2026-03-10💻 cs

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

该论文提出了一种基于共享卷积字典的字典引导跨模态图像融合框架，通过在系数域学习联合表示、利用大语言模型引导的可见光到伪红外系数推断以及自适应融合策略，有效解决了红外模态缺失场景下的图像融合难题，显著提升了感知质量与下游检测性能。

Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu2026-03-10💻 cs

VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

本文提出了 VSDiffusion，一种通过引入可见性先验（包括阴影门控交叉注意力分支和软先验图）的两阶段扩散框架，以解决图像合成中阴影生成病态问题，从而在复杂场景中生成几何一致且逼真的投影阴影，并在 DESOBAv2 数据集上取得了最先进性能。

Jing Li, Jing Zhang2026-03-10💻 cs

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

本文提出了 AffordGrasp，一种基于扩散模型的跨模态框架，通过引入细粒度结构化语言标注和双条件引导机制，实现了能够同时满足物体几何约束、空间功能 affordance 及用户指令语义的高精度稳定人手抓取姿态生成。

Xiaofei Wu, Yi Zhang, Yumeng Liu, Yuexin Ma, Yujiao Shi, Xuming He2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

本文提出了名为 MambaDance 的新方法，通过利用 Mamba 架构替代 Transformer 构建两阶段扩散模型，并结合高斯节拍表示来显式引导解码，从而在 AIST++ 和 FineDance 数据集上生成了从短到长序列均能精准捕捉舞蹈节奏性与音乐同步性的逼真舞蹈动作。

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

该论文提出了一种通过文本生成骨架序列再驱动视频扩散模型的两级级联框架，并构建了包含复杂杂技动作的合成数据集，有效解决了现有方法在生成翻跟头、空翻等复杂人体运动视频时面临的细粒度控制困难、数据匮乏及长序列姿态生成成本高昂等问题。

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

该论文提出了 QualiTeacher 框架，通过利用非参考图像质量评估模型对伪标签质量进行显式条件化，使学生在不丢弃数据多样性的前提下学会区分不同质量等级，从而避免模仿低质量伪标签中的伪影并生成超越教师模型的高质量恢复结果。

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

该论文针对真实场景下的表情识别挑战，提出了一种结合安全交叉注意力机制与模态丢弃策略的鲁棒多模态 Transformer 框架，通过动态融合视听特征及优化长尾分布，在 Aff-Wild2 验证集上实现了 60.79% 的准确率和 0.5029 的 F1 分数。

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

Speed3R 是一种受运动恢复结构（SfM）启发的端到端可训练模型，它通过双分支注意力机制仅对最具信息量的图像令牌进行细粒度关注，从而在保持几何精度的同时，将 1000 视图序列的推理速度提升了 12.4 倍，有效解决了现有前馈 3D 重建模型因稠密注意力机制导致的二次复杂度瓶颈。

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

本文提出了名为"See & Switch"的交互式机器人技能编程框架，该框架利用眼在手视觉信号在条件任务图中实现可靠的在线分支选择与异常检测，并通过多模态输入抽象层支持用户以多种直观方式（如示教、手柄和手势）高效地扩展和修正机器人技能。

Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

本文提出了 ImageEdit-R1，一种利用强化学习协调多个专用智能体进行高层决策的多智能体框架，通过将图像编辑视为序列决策问题，有效解决了现有模型在处理复杂、多步指令时的局限性，并在多项实验中超越了闭源扩散模型及其他基线方法。

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

该论文提出了一种基于大视觉语言模型（LVLM）的即插即用排序架构，通过显式建模无人机与卫星图像间的深度视觉语义关联，并辅以新型关系感知损失函数，显著提升了跨视角无人机地理定位的检索精度与训练稳定性。

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs

Evaluating Generative Models via One-Dimensional Code Distributions

该论文提出了一种基于离散视觉令牌空间的新评估范式，通过引入无需训练的代码本直方图距离（CHD）和基于合成退化的无参考代码混合模型得分（CMMS），并结合包含 21 万张图像的大规模基准 VisForm，实现了在生成模型质量评估中与人类判断高度相关且优于现有方法的性能。

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou2026-03-10💻 cs

Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

该论文提出了一种利用多模态大语言模型无需训练即可生成合成缺陷图像的方法，通过双参考条件、人工验证及基于嵌入的筛选机制，显著提升了电力绝缘器缺陷分类模型在真实数据稀缺场景下的性能。

Xuesong Wang, Caisheng Wang2026-03-10💻 cs

TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

本文提出了 TALON 框架，通过语义感知原型更新、稳定测试时编码器更新及离线间隔感知 Logit 校准策略，解决了现有基于哈希的在线类别发现方法中特征量化导致的信息损失与类别爆炸问题，实现了在测试阶段利用新数据动态扩展知识库并显著提升新类别识别性能。

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

该论文提出了一种从反应式转向基于地图的 AI 新范式，通过微调 Llama-2 模型推断语义区域并结合混合拓扑网格地图与 TSP 优化，显著提升了未知环境中目标导向导航的成功率与路径效率。

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

本文提出了 DSH-Bench，这是一个包含分层主题分类、细粒度难度与场景评估体系以及高相关性一致性指标（SICS）的综合基准，旨在通过系统性的多维度分析克服现有主体驱动文生图模型评估的局限性，并为后续模型优化提供关键指导。

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs