XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

El artículo presenta XPoint, un marco de coincidencia de imágenes multispectrales auto-supervisado y modular basado en VMamba que supera a los métodos actuales al permitir una adaptación rápida a diversas modalidades espectrales mediante la generación de pseudoground truth y la regresión de homografía sin depender de datos etiquetados costosos.

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

El artículo presenta EchoMimicV2, un método de animación humana semicuerpo que logra resultados impactantes y simplificados mediante una estrategia de armonización dinámica de audio y pose, técnicas de atención parcial para aprovechar datos de retratos y una pérdida de desruido específica por fase, superando así a los métodos existentes al eliminar condiciones redundantes y limitaciones de región.

Rang Meng, Xingyu Zhang, Yuming Li + 1 more2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

Este artículo presenta MFP3D, un nuevo marco que estima con precisión el tamaño de las porciones de comida y su contenido energético a partir de una única imagen monocromática mediante la reconstrucción de nubes de puntos 3D y la extracción combinada de características, superando las limitaciones de los métodos existentes que requieren objetos de referencia o múltiples vistas.

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

Este trabajo introduce el paradigma "grounding-IQA" para la evaluación de calidad de imágenes mediante modelos de lenguaje multimodal, presentando un nuevo conjunto de datos (GIQA-160K) y un benchmark (GIQA-Bench) que permiten una percepción de calidad más detallada y localizada mediante tareas de descripción con referencias espaciales y preguntas de respuesta visual.

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

Este artículo demuestra que las funciones de activación basadas en bases ortonormales, como los polinomios de Hermite, la base trigonométrica de Fourier y una base tropicalizada, permiten entrenar modelos profundos de manera estable sin mecanismos de anclaje, ofreciendo además una interpretación polinómica de las redes y una aproximación precisa a activaciones clásicas para tareas de ajuste fino.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

Este estudio demuestra que el uso de inferencia generativa profunda sobre mapas de perfusión computados a partir de angiografías por tomografía computarizada (CTA) permite localizar con alta fidelidad anatómica los sustratos neurales de los déficits en el ictus isquémico agudo, ofreciendo una herramienta valiosa para la fenotipificación clínica y científica sin necesidad de conocer las lesiones parenquimatosas.

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

Precise Parameter Localization for Textual Generation in Diffusion Models

El artículo demuestra que menos del 1% de los parámetros de los modelos de difusión, ubicados exclusivamente en sus capas de atención, son responsables de la generación de texto, lo que permite optimizar la eficiencia, mejorar la capacidad de generación mediante fine-tuning selectivo, editar contenido textual y prevenir la generación de texto tóxico de manera costo-efectiva en diversas arquitecturas.

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

Openfly: A comprehensive platform for aerial vision-language navigation

El artículo presenta OpenFly, una plataforma integral para la navegación aérea visión-idioma que incluye un motor de simulación avanzado, una herramienta automatizada para la recolección de datos, un conjunto de datos a gran escala con 100.000 trayectorias y un agente especializado, todo ello diseñado para abordar la falta de investigación y benchmarks en este dominio.

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

El artículo presenta Vision-R1, un modelo de lenguaje multimodal que mejora las capacidades de razonamiento mediante el aprendizaje por refuerzo, utilizando un conjunto de datos de cadena de pensamiento generado automáticamente y una estrategia de supresión progresiva del pensamiento para alcanzar un rendimiento competitivo en benchmarks matemáticos multimodales.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

El artículo presenta SemHiTok, un tokenizador de imágenes unificado que utiliza un código jerárquico guiado semánticamente para lograr un equilibrio óptimo entre la comprensión multimodal y la generación de imágenes al decoupling la estructura y el entrenamiento de las características semánticas y de píxeles.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI