Training-Free Zero-Shot Anomaly Detection in 3D Brain MRI with 2D Foundation Models

Este artículo presenta un marco de detección de anomalías en 3D totalmente libre de entrenamiento para resonancias magnéticas cerebrales, que supera las limitaciones de los enfoques 2D al agregar rebanadas multi-eje procesadas por modelos fundacionales 2D para generar tokens volumétricos locales que capturan el contexto espacial completo sin necesidad de supervisión ni ajuste fino.

Tai Le-Gia, Jaehyun Ahn2026-02-18📊 stat

Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs

El marco Sparrow aborda el colapso de rendimiento del muestreo especulativo en modelos de lenguaje grandes para video mediante la atención anclada a texto con ventanas y la reutilización de estados intermedios ricos en semántica visual, logrando una aceleración de 2.82x incluso con secuencias largas de 25k tokens visuales.

Libo Zhang, Zhaoning Zhang, Wangyang Hong + 2 more2026-02-18🤖 cs.AI

EventMemAgent: Hierarchical Event-Centric Memory for Online Video Understanding with Adaptive Tool Use

El artículo presenta EventMemAgent, un agente activo para la comprensión de video en línea que supera las limitaciones de contexto de los modelos multimodales mediante una memoria jerárquica centrada en eventos, una estrategia de muestreo de reservorio y el uso de aprendizaje por refuerzo para integrar herramientas de percepción activa.

Siwei Wen, Zhangcheng Wang, Xingjian Zhang + 2 more2026-02-18💻 cs

CREMD: Crowd-Sourced Emotional Multimodal Dogs Dataset

El artículo presenta CREMD, un conjunto de datos multimodal de perros creado mediante crowdsourcing que analiza cómo el contexto visual, el audio y las características de los anotadores influyen en la percepción y el etiquetado de las emociones caninas, revelando que el contexto visual mejora el acuerdo, los no propietarios y los hombres muestran mayor consenso que sus contrapartes, y el audio aumenta la confianza en la identificación de emociones específicas.

Jinho Baek, Houwei Cao, Kate Blackwell2026-02-18💻 cs

GMAIL: Generative Modality Alignment for generated Image Learning

El artículo presenta GMAIL, un marco innovador que mejora el aprendizaje con imágenes generadas alineando explícitamente las modalidades real y sintética en un espacio latente común, lo que permite entrenar modelos de visión-lingüística con datos generados sin sufrir colapso de modos y logrando mejoras significativas en tareas como la descripción de imágenes y la recuperación cero-shot.

Shentong Mo, Sukmin Yun2026-02-18⚡ eess

The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

Este trabajo presenta "The Vision Wormhole", un marco innovador que habilita la comunicación libre de texto y agnóstica al modelo en sistemas multiagente heterogéneos mediante la codificación de trazas de razonamiento en un espacio latente compartido y su inyección directa a través de la interfaz visual de los modelos, logrando así una reducción significativa en la complejidad de alineación y en el tiempo de ejecución sin sacrificar la fidelidad del razonamiento.

Xiaoze Liu, Ruowang Zhang, Weichen Yu + 7 more2026-02-18💬 cs.CL

Efficient Generative Modeling beyond Memoryless Diffusion via Adjoint Schrödinger Bridge Matching

Este artículo presenta Adjoint Schrödinger Bridge Matching (ASBM), un marco de modelado generativo que supera las limitaciones de los procesos de difusión sin memoria al recuperar trayectorias óptimas y más rectas mediante un acoplamiento inducido, logrando así una generación de imágenes de alta fidelidad con mayor estabilidad, eficiencia y capacidad de destilación en un solo paso.

Jeongwoo Shin, Jinhwan Sul, Joonseok Lee + 2 more2026-02-18💻 cs

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Este trabajo presenta un marco de evaluación que demuestra que, aunque el razonamiento de cadena de pensamiento mejora la generalización en distribución para tareas de planificación visual, la generalización fuera de distribución sigue siendo limitada, siendo los modelos puramente textuales y las trazas de razonamiento que combinan múltiples formatos de texto los que logran los mejores resultados no triviales.

Yannic Neuhaus, Nicolas Flammarion, Matthias Hein + 1 more2026-02-18🤖 cs.LG

Emergent Morphing Attack Detection in Open Multi-modal Large Language Models

Este artículo presenta la primera evaluación sistemática en cero disparos de modelos de lenguaje multimodal de código abierto para la detección de ataques de morfismo facial, demostrando que modelos como LLaVA1.6-Mistral-7B superan significativamente a las soluciones especializadas tradicionales al identificar inconsistencias faciales sin necesidad de entrenamiento específico.

Marija Ivanovska, Vitomir Štruc2026-02-18💻 cs

Advanced Acceptance Score: A Holistic Measure for Biometric Quantification

Este artículo presenta una "Puntuación de Aceptación Avanzada", una medida holística para evaluar la calidad de los puntajes de características biométricas en gestos manuales que supera las limitaciones de las tasas de error tradicionales al incorporar la jerarquía de puntuaciones, la correspondencia con la verdad fundamental y la disociación de identidades, validada experimentalmente en múltiples conjuntos de datos y modelos.

Aman Verma, Seshan Srirangarajan, Sumantra Dutta Roy2026-02-18💻 cs

Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs

El artículo presenta PADE, un método sin entrenamiento que mitiga las alucinaciones en los Modelos de Lenguaje y Visión Grandes (LVLMs) mediante la detección y mejora de las regiones visuales clave utilizando la dinámica de atención interna positiva, lo que resulta en una mejor anclaje visual y consistencia en la respuesta.

Guangtao Lyu, Qi Liu, Chenghao Xu + 5 more2026-02-18💻 cs