cs.CV 篇论文 | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

该论文提出了 OmniEarth 基准，这是一个包含 28 项细粒度任务、多源遥感数据及严格盲测协议的综合评估框架，旨在系统评估视觉语言模型在感知、推理和鲁棒性方面的地学任务能力，并揭示了现有模型在复杂地理空间场景中的显著差距。

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

本文提出了无需训练的 PruneSID 框架，通过协同重要性分析与多样性保持的两阶段策略及动态压缩机制，在显著降低视觉语言模型计算开销的同时实现了卓越的压缩性能与跨模态泛化能力。

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

本文提出了一种结合自注意力编码与坐标保持融合的两阶段组件感知框架，通过自注意力自编码器、坐标保持门控融合模块及空间自适应细化修正器，在多种面部与非面部数据集上显著超越了现有生成模型，实现了高保真、语义准确且空间对齐的草图到图像生成。

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

本文提出了对角蒸馏（Diagonal Distillation）方法，通过采用“前期多步、后期少步”的非对称生成策略并结合隐式光流建模，有效解决了现有视频蒸馏技术在长序列生成中运动连贯性差、误差累积及延迟过高的问题，实现了在保持高质量的同时将 5 秒视频生成速度提升 277.3 倍至 31 FPS。

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Evolving Prompt Adaptation for Vision-Language Models

本文提出了名为 EvoPrompt 的新框架，通过模态共享提示投影器、解耦进化训练策略以及特征几何正则化，在实现少样本任务高性能适配的同时，有效解决了视觉语言模型微调过程中的灾难性遗忘问题，从而在保留预训练零样本能力的同时完成稳定进化。

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang LiWed, 11 Ma🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

本文提出了 SurgFed 框架，通过语言引导的通道选择（LCS）和语言引导的超聚合（LHA）机制，有效解决了机器人辅助微创手术中因组织多样性和任务多样性导致的联邦学习适应性与聚合难题，显著提升了跨手术类型场景下的分割与深度估计性能。

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

本文提出了 Context-Nav 方法，通过将长文本描述转化为引导探索的全局先验，并结合视点感知的 3D 空间推理来验证候选目标，从而在无任务特定训练的情况下实现了实例导航的先进性能。

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

该论文通过引入新基准 FutureVQA 和一种无需时序标签的自监督思维链微调方法，揭示了驾驶视觉语言模型在响应一致性和时序推理方面的可靠性缺陷，并证明了强视觉理解并不等同于有效的未来场景推理能力。

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

本文提出了名为 RESBev 的即插即用方法，通过构建潜在世界模型预测时空关联以重构受损特征，从而显著提升了现有鸟瞰图（BEV）感知模型在自然干扰和对抗攻击下的鲁棒性。

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

本文提出了 DCAU-Net，一种通过引入差分交叉注意力机制（DCA）以降低计算复杂度并增强判别结构聚焦，以及采用通道 - 空间特征融合（CSFF）策略来自适应整合语义与细节信息的新型医学图像分割框架，从而在保持高精度的同时提升了模型的鲁棒性。

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

该研究通过分析两项大型肺癌筛查队列的纵向低剂量 CT 数据，证实了胸膜肺纤维弹性增生（PPFE）的影像学进展与全因死亡率及呼吸系统不良临床结局的独立关联，表明定量评估 PPFE 进展可作为筛查人群中识别高危个体的潜在影像学生物标志物。

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph JacobWed, 11 Ma🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

该论文提出了一种基于组相对策略优化（GRPO）的强化学习后训练策略，通过混合奖励机制和过程级奖励，使现有统一多模态模型无需大规模交错数据即可显著提升视觉故事叙述等复杂交错生成任务的质量与连贯性。

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

本文针对动态人机交互场景下的具身问答挑战，提出了包含动态与静态子集的新数据集 DynHiL-EQA，并设计了无需训练的 DIVRR 框架，通过相关性引导的视图细化与选择性记忆机制，有效解决了遮挡歧义并实现了高效推理。

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

该论文通过建立统一的正向模型与硬件实验框架，对多种飞行时间非视域成像方法进行了系统性对比研究，揭示了现有方法在空间分辨率、可见性及噪声敏感性方面的共性局限与差异，旨在为未来该领域的客观评估提供基准参考。

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

本文提出了 GeoSolver 框架，通过构建基于熵引导蒙特卡洛树搜索的大规模细粒度过程监督数据集 Geo-PRM-2M 及相应的过程奖励模型 GeoPRM，结合过程感知的树结构 GRPO 强化学习算法，有效解决了遥感视觉语言模型在复杂推理中的视觉忠实性瓶颈，实现了具有状态最先进性能的测试时推理扩展。

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

该论文提出了 GeoAlignCLIP 框架，通过多粒度语义对齐与模态内一致性学习，并辅以新构建的 RSFG-100k 细粒度遥感数据集，有效解决了现有遥感视觉 - 语言模型在细粒度细节捕捉上的不足，显著提升了复杂任务中的对齐精度与性能。

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

该论文提出了全景语言建模（PLM）范式，通过引入包含恶劣场景的大规模全景 VQA 数据集（PanoVQA）及一种无需重训练即可适配现有模型的即插即用稀疏注意力模块，实现了超越传统针孔图像拼接的全景整体空间与上下文推理能力。

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer StiefelhagenWed, 11 Ma💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

该论文提出了 BinaryAttention，一种通过仅保留查询和键的符号并引入可学习偏置及量化感知训练来实现端到端加速的 1 比特 QK-注意力机制，其在 A100 显卡上的速度比 FlashAttention2 快两倍以上，且在视觉和扩散 Transformer 任务中能达到甚至超越全精度注意力的性能。

Chaodong Xiao, Zhengqiang Zhang, Lei ZhangWed, 11 Ma💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

该论文提出了 ParTY 框架，通过部分引导网络、部分感知文本对齐及整体 - 部分融合机制，有效解决了现有文本驱动运动生成方法在特定身体部位动作表达不足及全身运动不连贯的问题。

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh ChoWed, 11 Ma💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

该论文提出了一种受人类扫视机制启发的图像分类方法，利用 DINO 视觉 Transformer 生成的注意力图来引导模型聚焦关键区域，在显著降低计算成本的同时保持了甚至超越了全图处理的分类性能。

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît MiramondWed, 11 Ma💻 cs