ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

该论文提出了一种名为 ViSA 的视觉 - 空间推理增强框架,通过三阶段协作架构利用结构化视觉提示使视觉语言模型直接在图像平面上进行推理,从而克服了现有空中视觉语言导航方法在空间推理和语言歧义方面的瓶颈,并在 CityNav 基准测试中实现了比最先进方法高出 70.3% 的成功率。

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

针对现有视觉语言模型在真实场景下读取模拟时钟能力不足的问题,该研究提出了包含多样化真实场景标注数据的新数据集 TickTockVQA,并设计了基于直接偏好优化的 Swap-DPO 微调框架,显著提升了模型在复杂环境下的时钟识别精度与时空推理能力。

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

本文提出了名为 MambaDance 的新方法,通过利用 Mamba 架构替代 Transformer 构建两阶段扩散模型,并结合高斯节拍表示来显式引导解码,从而在 AIST++ 和 FineDance 数据集上生成了从短到长序列均能精准捕捉舞蹈节奏性与音乐同步性的逼真舞蹈动作。

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

该论文提出了一种通过文本生成骨架序列再驱动视频扩散模型的两级级联框架,并构建了包含复杂杂技动作的合成数据集,有效解决了现有方法在生成翻跟头、空翻等复杂人体运动视频时面临的细粒度控制困难、数据匮乏及长序列姿态生成成本高昂等问题。

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

该论文提出了 QualiTeacher 框架,通过利用非参考图像质量评估模型对伪标签质量进行显式条件化,使学生在不丢弃数据多样性的前提下学会区分不同质量等级,从而避免模仿低质量伪标签中的伪影并生成超越教师模型的高质量恢复结果。

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

该论文针对真实场景下的表情识别挑战,提出了一种结合安全交叉注意力机制与模态丢弃策略的鲁棒多模态 Transformer 框架,通过动态融合视听特征及优化长尾分布,在 Aff-Wild2 验证集上实现了 60.79% 的准确率和 0.5029 的 F1 分数。

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

该论文提出了一种基于大视觉语言模型(LVLM)的即插即用排序架构,通过显式建模无人机与卫星图像间的深度视觉语义关联,并辅以新型关系感知损失函数,显著提升了跨视角无人机地理定位的检索精度与训练稳定性。

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs

Evaluating Generative Models via One-Dimensional Code Distributions

该论文提出了一种基于离散视觉令牌空间的新评估范式,通过引入无需训练的代码本直方图距离(CHD)和基于合成退化的无参考代码混合模型得分(CMMS),并结合包含 21 万张图像的大规模基准 VisForm,实现了在生成模型质量评估中与人类判断高度相关且优于现有方法的性能。

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou2026-03-10💻 cs

TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

本文提出了 TALON 框架,通过语义感知原型更新、稳定测试时编码器更新及离线间隔感知 Logit 校准策略,解决了现有基于哈希的在线类别发现方法中特征量化导致的信息损失与类别爆炸问题,实现了在测试阶段利用新数据动态扩展知识库并显著提升新类别识别性能。

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

本文提出了 DSH-Bench,这是一个包含分层主题分类、细粒度难度与场景评估体系以及高相关性一致性指标(SICS)的综合基准,旨在通过系统性的多维度分析克服现有主体驱动文生图模型评估的局限性,并为后续模型优化提供关键指导。

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs