cs.CV artículos | Gist.Science

GMAIL: Generative Modality Alignment for generated Image Learning

El artículo presenta GMAIL, un marco innovador que mejora el aprendizaje con imágenes generadas alineando explícitamente las modalidades real y sintética en un espacio latente común, lo que permite entrenar modelos de visión-lingüística con datos generados sin sufrir colapso de modos y logrando mejoras significativas en tareas como la descripción de imágenes y la recuperación cero-shot.

Shentong Mo, Sukmin Yun2026-02-18⚡ eess

Automatic Funny Scene Extraction from Long-form Cinematic Videos

Este artículo presenta un sistema integral de extremo a extremo para la extracción automática de escenas humorísticas de películas de larga duración, que combina detección de planos, localización multimodal y etiquetado de humor para lograr una precisión superior al estado del arte y optimizar la creación de contenido atractivo para plataformas de streaming.

Sibendu Paul, Haotian Jiang, Caren Chen2026-02-18💻 cs

The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

Este trabajo presenta "The Vision Wormhole", un marco innovador que habilita la comunicación libre de texto y agnóstica al modelo en sistemas multiagente heterogéneos mediante la codificación de trazas de razonamiento en un espacio latente compartido y su inyección directa a través de la interfaz visual de los modelos, logrando así una reducción significativa en la complejidad de alineación y en el tiempo de ejecución sin sacrificar la fidelidad del razonamiento.

Xiaoze Liu, Ruowang Zhang, Weichen Yu + 7 more2026-02-18💬 cs.CL

Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation

Este trabajo propone un marco novedoso basado en puentes de Schrödinger que detecta y suprime las alucinaciones de clases objetivo en la traducción de imágenes sin emparejar de día a noche mediante discriminadores duales y prototipos de clase, logrando mejoras significativas en el rendimiento de tareas posteriores como la adaptación de dominio.

Shuwei Li, Lei Tan, Robby T. Tan2026-02-18💻 cs

Doubly Stochastic Mean-Shift Clustering

Este artículo presenta el Agrupamiento por Desplazamiento Medio Doblemente Estocástico (DSMS), un método innovador que introduce aleatoriedad tanto en las actualizaciones de trayectoria como en el ancho de banda del kernel para regularizar implícitamente el algoritmo, logrando una mayor estabilidad y evitando la sobre-segmentación en escenarios de escasez de datos.

Tom Trigano, Yann Sepulcre, Itshak Lapidot2026-02-18🤖 cs.LG

Efficient Generative Modeling beyond Memoryless Diffusion via Adjoint Schrödinger Bridge Matching

Este artículo presenta Adjoint Schrödinger Bridge Matching (ASBM), un marco de modelado generativo que supera las limitaciones de los procesos de difusión sin memoria al recuperar trayectorias óptimas y más rectas mediante un acoplamiento inducido, logrando así una generación de imágenes de alta fidelidad con mayor estabilidad, eficiencia y capacidad de destilación en un solo paso.

Jeongwoo Shin, Jinhwan Sul, Joonseok Lee + 2 more2026-02-18💻 cs

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Este trabajo presenta un marco de evaluación que demuestra que, aunque el razonamiento de cadena de pensamiento mejora la generalización en distribución para tareas de planificación visual, la generalización fuera de distribución sigue siendo limitada, siendo los modelos puramente textuales y las trazas de razonamiento que combinan múltiples formatos de texto los que logran los mejores resultados no triviales.

Yannic Neuhaus, Nicolas Flammarion, Matthias Hein + 1 more2026-02-18🤖 cs.LG

Emergent Morphing Attack Detection in Open Multi-modal Large Language Models

Este artículo presenta la primera evaluación sistemática en cero disparos de modelos de lenguaje multimodal de código abierto para la detección de ataques de morfismo facial, demostrando que modelos como LLaVA1.6-Mistral-7B superan significativamente a las soluciones especializadas tradicionales al identificar inconsistencias faciales sin necesidad de entrenamiento específico.

Marija Ivanovska, Vitomir Štruc2026-02-18💻 cs

RPT-SR: Regional Prior attention Transformer for infrared image Super-Resolution

El artículo presenta RPT-SR, un transformador de atención con priores regionales que mejora la super-resolución de imágenes infrarrojas al integrar tokens de memoria persistente de la escena con tokens locales, logrando así un nuevo estado del arte en espectros de onda larga y corta.

Youngwan Jin, Incheol Park, Yagiz Nalcakan + 3 more2026-02-18🤖 cs.AI

LEADER: Lightweight End-to-End Attention-Gated Dual Autoencoder for Robust Minutiae Extraction

Este artículo presenta LEADER, una red neuronal ligera y totalmente end-to-end que extrae descriptores de minucias de huellas dactilares mediante un mecanismo de doble autoencoder con puerta de atención, logrando un rendimiento superior y una alta eficiencia computacional tanto en huellas claras como latentes.

Raffaele Cappelli, Matteo Ferrara2026-02-18💻 cs

Semantic-Guided 3D Gaussian Splatting for Transient Object Removal

Este trabajo propone un marco de filtrado semántico que utiliza modelos de lenguaje-visión para eliminar objetos transitorios en la reconstrucción 3D mediante Gaussian Splatting, resolviendo ambigüedades de paralaje y mejorando la calidad de la imagen con un bajo costo de memoria en comparación con métodos basados en movimiento.

Aditi Prabakaran, Priyesh Shukla2026-02-18💻 cs

Advanced Acceptance Score: A Holistic Measure for Biometric Quantification

Este artículo presenta una "Puntuación de Aceptación Avanzada", una medida holística para evaluar la calidad de los puntajes de características biométricas en gestos manuales que supera las limitaciones de las tasas de error tradicionales al incorporar la jerarquía de puntuaciones, la correspondencia con la verdad fundamental y la disociación de identidades, validada experimentalmente en múltiples conjuntos de datos y modelos.

Aman Verma, Seshan Srirangarajan, Sumantra Dutta Roy2026-02-18💻 cs

Dynamic Training-Free Fusion of Subject and Style LoRAs

Este artículo propone un marco de fusión dinámica y sin entrenamiento que combina LoRAs de sujeto y estilo mediante la selección adaptativa de pesos basada en la divergencia KL y correcciones guiadas por gradientes en el espacio latente, logrando una síntesis coherente que supera a los métodos actuales.

Qinglong Cao, Yuntian Chen, Chao Ma + 1 more2026-02-18🤖 cs.AI

Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs

El artículo presenta PADE, un método sin entrenamiento que mitiga las alucinaciones en los Modelos de Lenguaje y Visión Grandes (LVLMs) mediante la detección y mejora de las regiones visuales clave utilizando la dinámica de atención interna positiva, lo que resulta en una mejor anclaje visual y consistencia en la respuesta.

Guangtao Lyu, Qi Liu, Chenghao Xu + 5 more2026-02-18💻 cs

An Industrial Dataset for Scene Acquisitions and Functional Schematics Alignment

Este artículo presenta IRIS-v2, un dataset industrial integral que incluye datos multimodales como imágenes, nubes de puntos y diagramas P&ID para facilitar la alineación automatizada de esquemas funcionales con adquisiciones de escenas 2D/3D y acelerar la creación de gemelos digitales en instalaciones antiguas.

Flavien Armangeon, Thibaud Ehret, Enric Meinhardt-Llopis + 4 more2026-02-18💻 cs

CARE Drive A Framework for Evaluating Reason-Responsiveness of Vision Language Models in Automated Driving

El artículo presenta CARE Drive, un marco de evaluación agnóstico al modelo que verifica la capacidad de los modelos de visión y lenguaje en la conducción automatizada para tomar decisiones basadas en razones humanas relevantes, en lugar de generar simplemente justificaciones posteriores.

Lucas Elbert Suryana, Farah Bierenga, Sanne van Buuren + 6 more2026-02-18🤖 cs.AI

Guided Diffusion by Optimized Loss Functions on Relaxed Parameters for Inverse Material Design

Este artículo presenta un método de diseño inverso basado en modelos de difusión guiada que relaja el espacio de parámetros discretos a uno continuo para permitir la optimización mediante diferenciación implícita, logrando así generar diseños de materiales compuestos diversos y precisos que cumplen objetivos específicos como el módulo de elasticidad y la densidad.

Jens U. Kreber, Christian Weißenfels, Joerg Stueckler2026-02-18🤖 cs.LG

Concept-Enhanced Multimodal RAG: Towards Interpretable and Accurate Radiology Report Generation

El artículo presenta CEMRAG, un marco unificado que mejora la generación de informes radiológicos al combinar conceptos clínicos interpretables con la generación aumentada por recuperación multimodal, logrando simultáneamente una mayor precisión factual y transparencia sin sacrificar el rendimiento.

Marco Salmè, Federico Siciliano, Fabrizio Silvestri + 3 more2026-02-18💻 cs

Bayesian Optimization for Design Parameters of 3D Image Data Analysis

Este artículo presenta la "3D data Analysis Optimization Pipeline", un método basado en dos etapas de optimización bayesiana que automatiza la selección de modelos y la sintonización de parámetros para el análisis de imágenes biomédicas 3D, integrando una métrica de calidad de segmentación y un flujo de trabajo de anotación asistida para reducir el esfuerzo manual.

David Exler, Joaquin Eduardo Urrutia Gómez, Martin Krüger + 5 more2026-02-18🤖 cs.AI

Criteria-first, semantics-later: reproducible structure discovery in image-based sciences

El artículo propone un marco deductivo de "criterios primero, semántica después" para el descubrimiento de estructuras en imágenes científicas, que separa la extracción de patrones basada en criterios objetivos de la asignación de etiquetas semánticas, garantizando así la reproducibilidad y la comparabilidad a largo plazo frente a la deriva de las ontologías dominantes.

Jan Bumberger2026-02-18🤖 cs.AI

← Anterior Siguiente →