cs.CV 篇论文 | Gist.Science

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

本文提出了一种基于 Transformer 的框架，通过联合对齐全局语义与基于空间注意力掩码的局部判别区域，实现了结合参考图像与文本描述的皮肤病变组成式检索，并在 Derm7pt 数据集上取得了优于现有方法的性能。

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med 提出了一种新颖的医疗视觉 Transformer 预训练框架，利用冻结的大语言模型作为结构化语义教师，通过统一医疗模式将临床发现转化为可验证的 JSON 字段状态对并采用结构化预测分解技术，在训练后丢弃大模型从而生成轻量级、可部署的纯视觉骨干网络，在多种医疗影像任务中实现了超越现有方法的高性能且数据高效的零样本泛化能力。

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

本文提出了 PRLF 框架，通过自适应模态可靠性估计器和渐进式交互模块，有效解决了多模态情感分析中因模态缺失导致的特征不对齐问题，并在多种缺失场景下实现了优于现有方法的鲁棒性能。

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian YangWed, 11 Ma💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

本文提出了 QUSR 模型，通过结合利用多模态大语言模型生成质量先验的 QAP 模块和根据不确定性自适应调整噪声强度的 UNG 模块，有效解决了真实场景下退化未知且非均匀导致的图像超分辨率细节丢失与伪影问题。

Junjie Yin, Jiaju Li, Hanfa XingWed, 11 Ma🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

该研究首次提出基于 SegFormer 变换器的全自动框架，对 HR-pQCT 图像进行多区域（包括骨骼及皮肤、肌腱、脂肪等软组织）分割并提取放射组学特征，结果表明利用软组织特征进行骨质疏松分类的效能优于传统骨参数模型，显著提升了诊断准确性。

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. SurowiecWed, 11 Ma💻 cs

Rotation Equivariant Mamba for Vision Tasks

该论文提出了首个旋转等变视觉 Mamba 架构 EQ-VMamba，通过引入旋转等变交叉扫描策略和群 Mamba 模块，在显著减少参数量的同时提升了模型对旋转变换的鲁棒性及在分类、分割和超分辨率等任务中的综合性能。

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben XuWed, 11 Ma💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

该论文提出了一种基于智能体（Agentic AI）的 6G 网络控制平面智能层，通过整合检索、规划、编码与评估等专用智能体，将联邦学习视为学习与网络管理的联合任务，从而在动态网络条件下实现高效的客户端选择、资源调度及自适应训练。

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon HongWed, 11 Ma💻 cs

RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation

本文提出了 RTFDNet 网络，通过协同特征融合与跨模量/区域解耦正则化机制，统一了特征融合与模态适应过程，从而在传感器信号缺失时仍能实现鲁棒的 RGB-T 语义分割。

Kunyu Tan, Mingjian LiangWed, 11 Ma💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap 提出了一种基于 LLM 生成评分标准（Rubric）的强化学习框架，通过结构化、多维度的细粒度奖励信号解决开放域密集图像描述中缺乏确定性验证的难题，在提升生成多样性与泛化能力的同时，以更小参数量实现了超越现有监督蒸馏、传统 RL 方法及大模型标注的性能。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

本文通过引入分块训练拼接策略和非线性强度变换，扩展了 POLISH 深度学习框架，使其能够处理高动态范围和宽视场条件，显著提升了射电干涉成像质量，并有望在深合成阵列（DSA）巡天中将星系 - 星系强引力透镜系统的发现数量比传统 CLEAN 算法提高 10 倍。

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. BoumanWed, 11 Ma🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

该论文提出了渐进式分裂 Mamba（PS-Mamba）框架，通过几何一致的分区策略和对称跨尺度捷径，有效解决了现有状态空间模型在处理图像恢复任务时面临的拓扑失真与长程信息衰减问题，从而在保持线性复杂度的同时实现了局部细节与全局一致性的高质量恢复。

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim RadwanWed, 11 Ma💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

本文提出了名为 SAGE 的首个端到端 3D 多模态大语言模型，它通过将原始点云视为“外语”并利用轻量级 3D 分词器直接将其转化为离散 token，从而摆脱了对预训练 3D 编码器的依赖，在提升计算效率与泛化能力的同时实现了更优的 3D 理解与推理性能。

Sneha Paul, Zachary Patterson, Nizar BouguilaWed, 11 Ma💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

本文提出了 MM-Zero，这是首个基于强化学习（GRPO）的框架，通过引入生成抽象视觉概念、编写渲染代码和执行多模态推理的三重角色机制，实现了无需任何种子数据即可从零开始的视觉语言模型自我进化。

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

该论文提出了一种基于 20 维关节角度描述符的几何感知度量学习框架，通过消除相机视角、手部和缩放差异带来的域偏移，显著提升了在 ASL、LIBRAS 等四种手语间进行静态手势少样本识别的跨语言迁移性能。

Chayanin Chamachot, Kanokphan LertniponphanWed, 11 Ma💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

本文提出了 TubeMLLM，一种通过结合自然语言拓扑先验与视觉表示来增强拓扑感知能力的统一基础模型，并构建了 TubeMData 基准，在十五个数据集上实现了卓越的零样本泛化性能，显著降低了血管类解剖结构中的拓扑错误。

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun GuWed, 11 Ma💻 cs

Distributed Convolutional Neural Networks for Object Recognition

该论文提出了一种用于特定正类识别的新型分布式卷积神经网络（DisCNN），通过设计将正样本映射至高维紧凑集而将负样本映射至原点的新损失函数，实现了正类特征的解耦与轻量化提取，从而在复杂背景下展现出优异的泛化能力和检测效果。

Liang SunWed, 11 Ma💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

该论文提出了 UniField 框架，通过利用预训练 3D 基础模型挖掘共享退化特征、引入场感知频谱校正机制（FASRM）解决频谱偏差，并发布大规模配对多场 MRI 数据集，实现了显著优于现有方法的 MRI 场强增强效果。

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan YuanWed, 11 Ma💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

本文提出了 HelixTrack，一种完全基于事件驱动的方法，通过联合跟踪螺旋桨类物体并估计其转速，有效解决了传统跟踪器在快速周期性运动下的漂移问题，并发布了首个包含微秒级转速真值的 TQE 数据集以验证其性能。

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri MatasWed, 11 Ma💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

BridgeDiff 提出了一种基于扩散模型的虚拟试穿框架，通过服装条件桥接模块和扁平结构约束模块，有效弥合了人体观测与扁平服装合成之间的差距，实现了更高质量且结构稳定的服装重建。

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

该论文提出了一种名为 RAE-NWM 的导航世界模型，通过在保留细粒度结构信息的密集视觉特征空间（而非压缩潜在空间）中建模动作条件状态转移，并结合条件扩散 Transformer 与时间驱动门控模块，显著提升了视觉导航的结构稳定性与动作控制精度。

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs