Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

本文提出了一种基于 Transformer 的框架,通过联合对齐全局语义与基于空间注意力掩码的局部判别区域,实现了结合参考图像与文本描述的皮肤病变组成式检索,并在 Derm7pt 数据集上取得了优于现有方法的性能。

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med 提出了一种新颖的医疗视觉 Transformer 预训练框架,利用冻结的大语言模型作为结构化语义教师,通过统一医疗模式将临床发现转化为可验证的 JSON 字段状态对并采用结构化预测分解技术,在训练后丢弃大模型从而生成轻量级、可部署的纯视觉骨干网络,在多种医疗影像任务中实现了超越现有方法的高性能且数据高效的零样本泛化能力。

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

该研究首次提出基于 SegFormer 变换器的全自动框架,对 HR-pQCT 图像进行多区域(包括骨骼及皮肤、肌腱、脂肪等软组织)分割并提取放射组学特征,结果表明利用软组织特征进行骨质疏松分类的效能优于传统骨参数模型,显著提升了诊断准确性。

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. SurowiecWed, 11 Ma💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

该论文提出了一种基于智能体(Agentic AI)的 6G 网络控制平面智能层,通过整合检索、规划、编码与评估等专用智能体,将联邦学习视为学习与网络管理的联合任务,从而在动态网络条件下实现高效的客户端选择、资源调度及自适应训练。

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon HongWed, 11 Ma💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap 提出了一种基于 LLM 生成评分标准(Rubric)的强化学习框架,通过结构化、多维度的细粒度奖励信号解决开放域密集图像描述中缺乏确定性验证的难题,在提升生成多样性与泛化能力的同时,以更小参数量实现了超越现有监督蒸馏、传统 RL 方法及大模型标注的性能。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

本文通过引入分块训练拼接策略和非线性强度变换,扩展了 POLISH 深度学习框架,使其能够处理高动态范围和宽视场条件,显著提升了射电干涉成像质量,并有望在深合成阵列(DSA)巡天中将星系 - 星系强引力透镜系统的发现数量比传统 CLEAN 算法提高 10 倍。

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. BoumanWed, 11 Ma🔭 astro-ph