Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Este artículo presenta un marco basado en transformadores para la recuperación de casos de cáncer de piel mediante consultas compuestas de imagen y texto, que logra mejoras sobre el estado del arte al alinear jerárquicamente representaciones globales y locales mediante un mecanismo de atención espacial y un ponderamiento convexo informado clínicamente.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

El artículo presenta VIVID-Med, un marco innovador que utiliza un modelo de lenguaje grande (LLM) congelado como maestro semántico estructurado para preentrenar transformadores de visión (ViT) médicos, logrando un rendimiento superior en diversas tareas de análisis de imágenes médicas con una fracción de los datos necesarios y eliminando la necesidad de depender del LLM en la fase de despliegue.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Este estudio presenta un marco automatizado basado en SegFormer que segmenta múltiples regiones de imágenes HR-pQCT y extrae características radiómicas, demostrando que el análisis de tejidos blandos supera a los métodos basados únicamente en hueso para la clasificación de osteoporosis.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. SurowiecWed, 11 Ma💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

El artículo propone un sistema de Inteligencia Artificial Agente que actúa como capa de control en redes 6G para gestionar el aprendizaje federado, traduciendo objetivos de alto nivel en acciones adaptativas que optimizan la selección de clientes, la asignación de recursos y la programación en tiempo real considerando las condiciones dinámicas de la red y las capacidades de los dispositivos.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon HongWed, 11 Ma💻 cs

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Este trabajo presenta mejoras en el marco POLISH para la reconstrucción de imágenes interferométricas de radio mediante aprendizaje profundo, utilizando estrategias de parches y transformaciones de intensidad para lograr imágenes de gran campo y alto rango dinámico que permiten descubrir significativamente más lentes gravitacionales fuertes en futuras encuestas astronómicas.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. BoumanWed, 11 Ma🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

El artículo presenta PS-Mamba, un marco jerárquico de espacio de estados que mejora la restauración de imágenes mediante una partición geométrica que preserva la topología local y conexiones simétricas que mitigan la decadencia de información a larga distancia, superando así las limitaciones de los modelos Mamba y Transformers existentes.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim RadwanWed, 11 Ma💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

El artículo presenta SAGE, el primer modelo de lenguaje grande multimodal (MLLM) de extremo a extremo que procesa nubes de puntos sin codificadores preentrenados, tratando los datos 3D como un "idioma extranjero" mediante un tokenizador ligero y una estrategia de optimización de preferencias para superar las limitaciones de alineación semántica y eficiencia computacional de los métodos existentes.

Sneha Paul, Zachary Patterson, Nizar BouguilaWed, 11 Ma💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

El artículo presenta MM-Zero, el primer marco basado en aprendizaje por refuerzo que permite la autoevolución de modelos de visión y lenguaje desde cero sin datos, mediante un sistema de tres roles especializados (propuestor, codificador y solucionador) que generan conceptos visuales abstractos, crean imágenes ejecutables y realizan razonamiento multimodal.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Este trabajo propone un marco de aprendizaje métrico consciente de la geometría que utiliza descriptores de ángulos interarticulares invariantes para superar la variabilidad de dominio y lograr un reconocimiento de lenguaje de señas de pocos ejemplos entre idiomas con alta precisión, incluso en escenarios de recursos limitados.

Chayanin Chamachot, Kanokphan LertniponphanWed, 11 Ma💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

El artículo presenta TubeMLLM, un modelo fundacional unificado que combina comprensión estructurada y generación controlable mediante priores topológicos en lenguaje natural para superar las inconsistencias topológicas en el modelado de anatomía vascular, demostrando un rendimiento superior y una capacidad de transferencia cero-shot en múltiples conjuntos de datos y modalidades.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun GuWed, 11 Ma💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

El artículo presenta UniField, un marco unificado que mejora la calidad de las imágenes de resonancia magnética (MRI) al aprovechar modelos fundacionales 3D preentrenados y un mecanismo de rectificación espectral consciente del campo magnético para superar las limitaciones de generalización y escasez de datos, respaldado por la publicación del conjunto de datos multi-campo más grande hasta la fecha.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan YuanWed, 11 Ma💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

El artículo presenta BridgeDiff, un marco basado en difusión que supera las limitaciones de los métodos anteriores para la síntesis de prendas planas en el intento virtual de ropa al unir explícitamente las observaciones humanas con la estructura de la prenda mediante módulos de puente de condición y restricciones estructurales, logrando así un rendimiento superior en benchmarks estándar.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI