cs.CV 篇论文 | Gist.Science

PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

PhysDrape 提出了一种结合物理信息图神经网络与可微分两阶段求解器的混合框架，通过显式力平衡与碰撞约束机制，在确保零穿透的同时实现了具有更高物理保真度的实时服装 draped 模拟。

Minghai Chen, Mingyuan Liu, Ning Ma, Jianqing Li, Yuxiang Huan2026-03-10💻 cs

Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

本文针对车联网协同感知中参数高效领域适应面临的性能下降与训练不稳定问题，提出了一种基于最优流理论的 FlowAdapt 框架，通过 Wasserstein 贪婪采样策略消除异构数据冗余，并利用渐进式知识转移模块缓解深层语义退化，从而在仅使用 1% 可训练参数的情况下实现了跨域适应的先进性能。

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

本文提出了 SToRM 框架，通过重要性预测、辅助路径监督训练及锚点 - 上下文合并模块，在显著降低多模态大模型计算成本的同时，实现了端到端自动驾驶任务中视觉 Token 的高效缩减且保持全 Token 性能。

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

本文提出了 3DMedAgent，这是一种通过协调异构工具并利用长期结构化记忆，使现有的 2D 多模态大语言模型无需 3D 微调即可执行从感知到理解的渐进式 3D CT 分析的统一智能体，并在 DeepChestVQA 基准及 40 多项任务中展现了超越现有模型的卓越性能。

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

该论文通过在旋转和平移噪声 MNIST 数据集上的实验，展示了潜在空间等变算子架构能够有效克服传统网络与先验等变网络在未见对称变换下的泛化局限，实现鲁棒的分布外分类，同时也探讨了将其扩展至更复杂数据集所面临的挑战。

Minh Dinh, Stéphane Deny2026-03-10🤖 cs.LG

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

本文提出了 OVerSeeC，一种基于“理解 - 定位 - 合成”模块化流程的零-shot 框架，能够利用大语言模型和开放词汇分割技术，直接从卫星图像和自然语言指令中生成适应未知实体与复杂任务偏好的全局代价图，从而实现可扩展的自主导航规划。

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

本文针对开放词汇语义分割在未见域和未见类别上的泛化难题，提出了首个自动驾驶领域的开放词汇域泛化（OVDG-SS）基准，并设计了基于状态空间的 S2-Corr 机制以修正文本 - 图像关联失真，从而显著提升了模型在复杂城市场景中的跨域鲁棒性。

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

本文提出了 UniMatch，一种通过结合类无关 3D 分割、多模态大语言模型引导以及基于排名的对比学习，实现跨类别强非等形物体间稠密语义匹配的粗到细框架。

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

本文提出了 InfScene-SR，一种基于扩散模型的任意尺寸图像超分辨率方法，通过引入方差校正融合（VCF）和空间解耦方差校正（SDVC）技术，在消除大尺度场景拼接边界伪影的同时，将显存复杂度降至常数级，从而实现了高效、连续且分布式的超分辨率重建。

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

该论文提出了一种在线物体 - 场景 - 相机分解与重组的数据增强方案，通过将训练图像解耦为独立要素并动态重组，有效解决了单目 3D 目标检测中数据多样性不足和过拟合问题，从而在多种监督设置下显著提升了模型性能。

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

本文提出了一种基于扩散模型的上下文图像分解框架，通过轻量级 LoRA 微调、循环一致性联合训练策略以及渐进式自改进机制，有效解决了真实场景中（如 Logo 与表面）具有非线性耦合交互的复杂分层图像分解难题。

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

本文提出了一种名为“见即说，即排好”（See It, Say It, Sorted）的轻量级、无需训练且即插即用的迭代框架，通过在推理过程中动态引入视觉证据池来监督每一步生成，从而有效抑制多模态大模型中的视觉幻觉传播并显著提升推理准确率。

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

该论文提出了一种利用语言模型将图像和视频的语义分割掩码离散化为游程编码（RLE）序列的新方法，通过创新的令牌化策略有效压缩序列长度并支持实例信息以进行全景分割，在有限计算资源下实现了具有竞争力的性能。

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

本文提出了无需训练的 WISER 框架，通过“检索 - 验证 - 优化”流程统一文本到图像和图像到图像两种检索范式，利用更广泛的搜索、自适应融合及基于自我反思的深度思考机制，显著提升了零样本组合图像检索的性能。

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

本文提出了 PackUV，一种将 4D 高斯属性映射为结构化 UV 图集的新型表示法，配合其时间一致性拟合算法 PackUV-GS 及新发布的包含 20 亿帧的大规模数据集 PackUV-2B，实现了兼容标准视频编码的高效、高质量长序列体素视频重建与流式传输。

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

本文提出了名为 HART 的闭环框架，通过设计无需外部标注的 AP-GRPO 后训练范式，使大语言模型能够自主聚焦并验证高分辨率图像中的关键区域，从而在无需人工标注的情况下显著提升视觉推理性能。

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

该论文提出了无限自注意力（InfSA）及其线性变体 Linear-InfSA，通过将注意力层重构为基于折扣 Neumann 级数的扩散过程，在实现线性时间复杂度、支持超高分辨率推理的同时，显著提升了视觉 Transformer 的准确率与能效。

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

该论文提出了包含 1.6M 视频的大规模数据集 Actor-18M 及 WildActor 框架，通过非对称身份保持注意力机制和视点自适应蒙特卡洛采样策略，实现了在动态视角、大幅运动及复杂构图下严格保持全身身份一致性的无约束视频生成。

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

该立场论文主张，视觉处理系统的评估范式应从过度依赖单一客观指标转向以人为中心、具备情境感知能力的综合评价体系，以解决现有指标与人类感知及用户偏好日益脱节的问题，从而避免误导研究进展并释放创新潜力。

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

本文提出了 DeAR 框架，通过解构深层注意力头的功能角色（属性、泛化与混合），利用概念熵指标分类并隔离泛化头与任务特定知识，从而在保持零样本泛化能力的同时实现了视觉语言模型的细粒度适配。

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs