GMAIL: Generative Modality Alignment for generated Image Learning

El artículo presenta GMAIL, un marco innovador que mejora el aprendizaje con imágenes generadas alineando explícitamente las modalidades real y sintética en un espacio latente común, lo que permite entrenar modelos de visión-lingüística con datos generados sin sufrir colapso de modos y logrando mejoras significativas en tareas como la descripción de imágenes y la recuperación cero-shot.

Shentong Mo, Sukmin Yun2026-02-18⚡ eess

The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

Este trabajo presenta "The Vision Wormhole", un marco innovador que habilita la comunicación libre de texto y agnóstica al modelo en sistemas multiagente heterogéneos mediante la codificación de trazas de razonamiento en un espacio latente compartido y su inyección directa a través de la interfaz visual de los modelos, logrando así una reducción significativa en la complejidad de alineación y en el tiempo de ejecución sin sacrificar la fidelidad del razonamiento.

Xiaoze Liu, Ruowang Zhang, Weichen Yu + 7 more2026-02-18💬 cs.CL

Efficient Generative Modeling beyond Memoryless Diffusion via Adjoint Schrödinger Bridge Matching

Este artículo presenta Adjoint Schrödinger Bridge Matching (ASBM), un marco de modelado generativo que supera las limitaciones de los procesos de difusión sin memoria al recuperar trayectorias óptimas y más rectas mediante un acoplamiento inducido, logrando así una generación de imágenes de alta fidelidad con mayor estabilidad, eficiencia y capacidad de destilación en un solo paso.

Jeongwoo Shin, Jinhwan Sul, Joonseok Lee + 2 more2026-02-18💻 cs

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Este trabajo presenta un marco de evaluación que demuestra que, aunque el razonamiento de cadena de pensamiento mejora la generalización en distribución para tareas de planificación visual, la generalización fuera de distribución sigue siendo limitada, siendo los modelos puramente textuales y las trazas de razonamiento que combinan múltiples formatos de texto los que logran los mejores resultados no triviales.

Yannic Neuhaus, Nicolas Flammarion, Matthias Hein + 1 more2026-02-18🤖 cs.LG

Emergent Morphing Attack Detection in Open Multi-modal Large Language Models

Este artículo presenta la primera evaluación sistemática en cero disparos de modelos de lenguaje multimodal de código abierto para la detección de ataques de morfismo facial, demostrando que modelos como LLaVA1.6-Mistral-7B superan significativamente a las soluciones especializadas tradicionales al identificar inconsistencias faciales sin necesidad de entrenamiento específico.

Marija Ivanovska, Vitomir Štruc2026-02-18💻 cs

Advanced Acceptance Score: A Holistic Measure for Biometric Quantification

Este artículo presenta una "Puntuación de Aceptación Avanzada", una medida holística para evaluar la calidad de los puntajes de características biométricas en gestos manuales que supera las limitaciones de las tasas de error tradicionales al incorporar la jerarquía de puntuaciones, la correspondencia con la verdad fundamental y la disociación de identidades, validada experimentalmente en múltiples conjuntos de datos y modelos.

Aman Verma, Seshan Srirangarajan, Sumantra Dutta Roy2026-02-18💻 cs

Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs

El artículo presenta PADE, un método sin entrenamiento que mitiga las alucinaciones en los Modelos de Lenguaje y Visión Grandes (LVLMs) mediante la detección y mejora de las regiones visuales clave utilizando la dinámica de atención interna positiva, lo que resulta en una mejor anclaje visual y consistencia en la respuesta.

Guangtao Lyu, Qi Liu, Chenghao Xu + 5 more2026-02-18💻 cs

Guided Diffusion by Optimized Loss Functions on Relaxed Parameters for Inverse Material Design

Este artículo presenta un método de diseño inverso basado en modelos de difusión guiada que relaja el espacio de parámetros discretos a uno continuo para permitir la optimización mediante diferenciación implícita, logrando así generar diseños de materiales compuestos diversos y precisos que cumplen objetivos específicos como el módulo de elasticidad y la densidad.

Jens U. Kreber, Christian Weißenfels, Joerg Stueckler2026-02-18🤖 cs.LG

Bayesian Optimization for Design Parameters of 3D Image Data Analysis

Este artículo presenta la "3D data Analysis Optimization Pipeline", un método basado en dos etapas de optimización bayesiana que automatiza la selección de modelos y la sintonización de parámetros para el análisis de imágenes biomédicas 3D, integrando una métrica de calidad de segmentación y un flujo de trabajo de anotación asistida para reducir el esfuerzo manual.

David Exler, Joaquin Eduardo Urrutia Gómez, Martin Krüger + 5 more2026-02-18🤖 cs.AI

Criteria-first, semantics-later: reproducible structure discovery in image-based sciences

El artículo propone un marco deductivo de "criterios primero, semántica después" para el descubrimiento de estructuras en imágenes científicas, que separa la extracción de patrones basada en criterios objetivos de la asignación de etiquetas semánticas, garantizando así la reproducibilidad y la comparabilidad a largo plazo frente a la deriva de las ontologías dominantes.

Jan Bumberger2026-02-18🤖 cs.AI