cs.CV artículos | Gist.Science

Training-Free Zero-Shot Anomaly Detection in 3D Brain MRI with 2D Foundation Models

Este artículo presenta un marco de detección de anomalías en 3D totalmente libre de entrenamiento para resonancias magnéticas cerebrales, que supera las limitaciones de los enfoques 2D al agregar rebanadas multi-eje procesadas por modelos fundacionales 2D para generar tokens volumétricos locales que capturan el contexto espacial completo sin necesidad de supervisión ni ajuste fino.

Tai Le-Gia, Jaehyun Ahn2026-02-18📊 stat

Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs

El marco Sparrow aborda el colapso de rendimiento del muestreo especulativo en modelos de lenguaje grandes para video mediante la atención anclada a texto con ventanas y la reutilización de estados intermedios ricos en semántica visual, logrando una aceleración de 2.82x incluso con secuencias largas de 25k tokens visuales.

Libo Zhang, Zhaoning Zhang, Wangyang Hong + 2 more2026-02-18🤖 cs.AI

EventMemAgent: Hierarchical Event-Centric Memory for Online Video Understanding with Adaptive Tool Use

El artículo presenta EventMemAgent, un agente activo para la comprensión de video en línea que supera las limitaciones de contexto de los modelos multimodales mediante una memoria jerárquica centrada en eventos, una estrategia de muestreo de reservorio y el uso de aprendizaje por refuerzo para integrar herramientas de percepción activa.

Siwei Wen, Zhangcheng Wang, Xingjian Zhang + 2 more2026-02-18💻 cs

Benchmarking Self-Supervised Models for Cardiac Ultrasound View Classification

Este estudio demuestra que el marco de aprendizaje auto-supervisado USF-MAE supera consistentemente a MoCo v3 en la clasificación de vistas de ecocardiogramas utilizando el conjunto de datos CACTUS, logrando métricas de rendimiento superiores y estadísticamente significativas.

Youssef Megahed, Salma I. Megahed, Robin Ducharme + 4 more2026-02-18⚡ eess

Effective and Robust Multimodal Medical Image Analysis

Este artículo presenta MAIL y Robust-MAIL, redes neuronales novedosas que superan las limitaciones de los métodos actuales de fusión multimodal en el análisis de imágenes médicas al ofrecer mayor generalización, eficiencia computacional y robustez ante ataques adversarios, logrando mejoras significativas en el rendimiento en 20 conjuntos de datos públicos.

Joy Dhar, Nayyar Zaidi, Maryam Haghighat2026-02-18💻 cs

CREMD: Crowd-Sourced Emotional Multimodal Dogs Dataset

El artículo presenta CREMD, un conjunto de datos multimodal de perros creado mediante crowdsourcing que analiza cómo el contexto visual, el audio y las características de los anotadores influyen en la percepción y el etiquetado de las emociones caninas, revelando que el contexto visual mejora el acuerdo, los no propietarios y los hombres muestran mayor consenso que sus contrapartes, y el audio aumenta la confianza en la identificación de emociones específicas.

Jinho Baek, Houwei Cao, Kate Blackwell2026-02-18💻 cs

GMAIL: Generative Modality Alignment for generated Image Learning

El artículo presenta GMAIL, un marco innovador que mejora el aprendizaje con imágenes generadas alineando explícitamente las modalidades real y sintética en un espacio latente común, lo que permite entrenar modelos de visión-lingüística con datos generados sin sufrir colapso de modos y logrando mejoras significativas en tareas como la descripción de imágenes y la recuperación cero-shot.

Shentong Mo, Sukmin Yun2026-02-18⚡ eess

Automatic Funny Scene Extraction from Long-form Cinematic Videos

Este artículo presenta un sistema integral de extremo a extremo para la extracción automática de escenas humorísticas de películas de larga duración, que combina detección de planos, localización multimodal y etiquetado de humor para lograr una precisión superior al estado del arte y optimizar la creación de contenido atractivo para plataformas de streaming.

Sibendu Paul, Haotian Jiang, Caren Chen2026-02-18💻 cs

The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

Este trabajo presenta "The Vision Wormhole", un marco innovador que habilita la comunicación libre de texto y agnóstica al modelo en sistemas multiagente heterogéneos mediante la codificación de trazas de razonamiento en un espacio latente compartido y su inyección directa a través de la interfaz visual de los modelos, logrando así una reducción significativa en la complejidad de alineación y en el tiempo de ejecución sin sacrificar la fidelidad del razonamiento.

Xiaoze Liu, Ruowang Zhang, Weichen Yu + 7 more2026-02-18💬 cs.CL

Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation

Este trabajo propone un marco novedoso basado en puentes de Schrödinger que detecta y suprime las alucinaciones de clases objetivo en la traducción de imágenes sin emparejar de día a noche mediante discriminadores duales y prototipos de clase, logrando mejoras significativas en el rendimiento de tareas posteriores como la adaptación de dominio.

Shuwei Li, Lei Tan, Robby T. Tan2026-02-18💻 cs

Doubly Stochastic Mean-Shift Clustering

Este artículo presenta el Agrupamiento por Desplazamiento Medio Doblemente Estocástico (DSMS), un método innovador que introduce aleatoriedad tanto en las actualizaciones de trayectoria como en el ancho de banda del kernel para regularizar implícitamente el algoritmo, logrando una mayor estabilidad y evitando la sobre-segmentación en escenarios de escasez de datos.

Tom Trigano, Yann Sepulcre, Itshak Lapidot2026-02-18🤖 cs.LG

Efficient Generative Modeling beyond Memoryless Diffusion via Adjoint Schrödinger Bridge Matching

Este artículo presenta Adjoint Schrödinger Bridge Matching (ASBM), un marco de modelado generativo que supera las limitaciones de los procesos de difusión sin memoria al recuperar trayectorias óptimas y más rectas mediante un acoplamiento inducido, logrando así una generación de imágenes de alta fidelidad con mayor estabilidad, eficiencia y capacidad de destilación en un solo paso.

Jeongwoo Shin, Jinhwan Sul, Joonseok Lee + 2 more2026-02-18💻 cs

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Este trabajo presenta un marco de evaluación que demuestra que, aunque el razonamiento de cadena de pensamiento mejora la generalización en distribución para tareas de planificación visual, la generalización fuera de distribución sigue siendo limitada, siendo los modelos puramente textuales y las trazas de razonamiento que combinan múltiples formatos de texto los que logran los mejores resultados no triviales.

Yannic Neuhaus, Nicolas Flammarion, Matthias Hein + 1 more2026-02-18🤖 cs.LG

Emergent Morphing Attack Detection in Open Multi-modal Large Language Models

Este artículo presenta la primera evaluación sistemática en cero disparos de modelos de lenguaje multimodal de código abierto para la detección de ataques de morfismo facial, demostrando que modelos como LLaVA1.6-Mistral-7B superan significativamente a las soluciones especializadas tradicionales al identificar inconsistencias faciales sin necesidad de entrenamiento específico.

Marija Ivanovska, Vitomir Štruc2026-02-18💻 cs

RPT-SR: Regional Prior attention Transformer for infrared image Super-Resolution

El artículo presenta RPT-SR, un transformador de atención con priores regionales que mejora la super-resolución de imágenes infrarrojas al integrar tokens de memoria persistente de la escena con tokens locales, logrando así un nuevo estado del arte en espectros de onda larga y corta.

Youngwan Jin, Incheol Park, Yagiz Nalcakan + 3 more2026-02-18🤖 cs.AI

LEADER: Lightweight End-to-End Attention-Gated Dual Autoencoder for Robust Minutiae Extraction

Este artículo presenta LEADER, una red neuronal ligera y totalmente end-to-end que extrae descriptores de minucias de huellas dactilares mediante un mecanismo de doble autoencoder con puerta de atención, logrando un rendimiento superior y una alta eficiencia computacional tanto en huellas claras como latentes.

Raffaele Cappelli, Matteo Ferrara2026-02-18💻 cs

Semantic-Guided 3D Gaussian Splatting for Transient Object Removal

Este trabajo propone un marco de filtrado semántico que utiliza modelos de lenguaje-visión para eliminar objetos transitorios en la reconstrucción 3D mediante Gaussian Splatting, resolviendo ambigüedades de paralaje y mejorando la calidad de la imagen con un bajo costo de memoria en comparación con métodos basados en movimiento.

Aditi Prabakaran, Priyesh Shukla2026-02-18💻 cs

Advanced Acceptance Score: A Holistic Measure for Biometric Quantification

Este artículo presenta una "Puntuación de Aceptación Avanzada", una medida holística para evaluar la calidad de los puntajes de características biométricas en gestos manuales que supera las limitaciones de las tasas de error tradicionales al incorporar la jerarquía de puntuaciones, la correspondencia con la verdad fundamental y la disociación de identidades, validada experimentalmente en múltiples conjuntos de datos y modelos.

Aman Verma, Seshan Srirangarajan, Sumantra Dutta Roy2026-02-18💻 cs

Dynamic Training-Free Fusion of Subject and Style LoRAs

Este artículo propone un marco de fusión dinámica y sin entrenamiento que combina LoRAs de sujeto y estilo mediante la selección adaptativa de pesos basada en la divergencia KL y correcciones guiadas por gradientes en el espacio latente, logrando una síntesis coherente que supera a los métodos actuales.

Qinglong Cao, Yuntian Chen, Chao Ma + 1 more2026-02-18🤖 cs.AI

Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs

El artículo presenta PADE, un método sin entrenamiento que mitiga las alucinaciones en los Modelos de Lenguaje y Visión Grandes (LVLMs) mediante la detección y mejora de las regiones visuales clave utilizando la dinámica de atención interna positiva, lo que resulta en una mejor anclaje visual y consistencia en la respuesta.

Guangtao Lyu, Qi Liu, Chenghao Xu + 5 more2026-02-18💻 cs

← Anterior Siguiente →