Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

本文针对车联网协同感知中参数高效领域适应面临的性能下降与训练不稳定问题,提出了一种基于最优流理论的 FlowAdapt 框架,通过 Wasserstein 贪婪采样策略消除异构数据冗余,并利用渐进式知识转移模块缓解深层语义退化,从而在仅使用 1% 可训练参数的情况下实现了跨域适应的先进性能。

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

本文提出了 3DMedAgent,这是一种通过协调异构工具并利用长期结构化记忆,使现有的 2D 多模态大语言模型无需 3D 微调即可执行从感知到理解的渐进式 3D CT 分析的统一智能体,并在 DeepChestVQA 基准及 40 多项任务中展现了超越现有模型的卓越性能。

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

本文提出了 OVerSeeC,一种基于“理解 - 定位 - 合成”模块化流程的零-shot 框架,能够利用大语言模型和开放词汇分割技术,直接从卫星图像和自然语言指令中生成适应未知实体与复杂任务偏好的全局代价图,从而实现可扩展的自主导航规划。

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

本文提出了一种名为“见即说,即排好”(See It, Say It, Sorted)的轻量级、无需训练且即插即用的迭代框架,通过在推理过程中动态引入视觉证据池来监督每一步生成,从而有效抑制多模态大模型中的视觉幻觉传播并显著提升推理准确率。

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

本文提出了无需训练的 WISER 框架,通过“检索 - 验证 - 优化”流程统一文本到图像和图像到图像两种检索范式,利用更广泛的搜索、自适应融合及基于自我反思的深度思考机制,显著提升了零样本组合图像检索的性能。

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs