Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Este trabajo presenta la Reconstrucción Contrastiva de Difusión (DCR), un método que integra señales contrastivas derivadas de imágenes reconstruidas dentro del proceso de difusión para equilibrar la capacidad discriminativa y la percepción de detalles en las representaciones visuales de CLIP, superando así las limitaciones de enfoques anteriores.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

Este trabajo presenta Meta-D, una arquitectura que aprovecha los metadatos categóricos de los escáneres para guiar la extracción de características y mejorar tanto la detección de tumores cerebrales como la segmentación ante la ausencia de modalidades de imagen, logrando aumentos significativos en las métricas de rendimiento y una reducción de parámetros.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

Este trabajo demuestra que, al abordar las brechas de dominio mediante un conjunto de datos sintéticos de alta calidad basado en escaneos 3D reales y aumentos de datos conscientes del sensor, un modelo ligero entrenado con señales de polarización puede superar significativamente a los modelos fundacionales de visión basados únicamente en RGB en la estimación de normales de superficie, logrando un rendimiento superior con una fracción de los datos de entrenamiento y parámetros.

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Este trabajo propone MPCAttack, un nuevo marco de ataque adversarial colaborativo que mejora la transferibilidad de ejemplos adversarios contra modelos de lenguaje grandes multimodales mediante la optimización conjunta de representaciones semánticas visuales y textuales para equilibrar los sesgos de representación y superar las limitaciones de los métodos existentes.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction

GloSplat es un marco que mejora la reconstrucción 3D mediante la optimización conjunta de pose y apariencia en el entrenamiento de 3D Gaussian Splatting, preservando rastros de características SfM explícitos como anclajes geométricos para evitar la deriva de pose y lograr un rendimiento superior tanto en variantes sin COLMAP como en las basadas en él.

Tianyu Xiong, Rui Li, Linjie Li + 1 more2026-03-06💻 cs

Scalable Injury-Risk Screening in Baseball Pitching From Broadcast Video

Este trabajo presenta un pipeline de video monoculares basado en DreamPose3D que recupera métricas biomecánicas precisas de grabaciones de transmisión en vivo para realizar una detección escalable del riesgo de lesiones en lanzadores de béisbol, logrando un rendimiento comparable a los sistemas de captura de movimiento de estadio y demostrando su eficacia en la predicción de cirugías como la de Tommy John.

Jerrin Bright, Justin Mende, John Zelek2026-03-06💻 cs

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Este artículo presenta un marco llamado Generación de Ruido Impulsada por Prompts (PNG) que utiliza representaciones de ruido de alto nivel basadas en prompts para sintetizar imágenes ruidosas realistas en el espacio sRGB sin depender de metadatos de cámara, mejorando así la generalización y aplicabilidad en la eliminación de ruido del mundo real.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Este estudio demuestra que es posible predecir con un 80,4% de precisión el tipo de lanzamiento de béisbol analizando únicamente la cinemática 3D del cuerpo del lanzador, revelando que la mecánica del torso y la muñeca son los factores más determinantes y estableciendo un límite empírico para la información que puede obtenerse antes de que la pelota sea lanzada.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Este trabajo presenta FedMEPD, un marco de aprendizaje federado que aborda la heterogeneidad intermodal y la necesidad de personalización en la segmentación de tumores cerebrales mediante codificadores específicos por modalidad y un decodificador de fusión parcialmente personalizado que utiliza anclajes globales y atención cruzada para compensar la falta de modalidades en los clientes.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Este trabajo propone un método de optimización de texturas adversarias para objetos 3D que, mediante renderizado diferenciable y estrategias como la expectativa sobre transformaciones y un currículo de lo grueso a lo fino, supera las limitaciones de los parches 2D al mantener su eficacia contra políticas visuomotoras bajo vistas dinámicas y distancias variables.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs