cs.CV artículos | Gist.Science

Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

El artículo presenta Uni-MMMU, un benchmark unificado y disciplinarmente consciente que evalúa la sinergia bidireccional entre la comprensión y la generación visual en ocho dominios de razonamiento, revelando dependencias cruzadas y ofreciendo una base sólida para el avance de los modelos multimodales unificados.

Kai Zou, Ziqi Huang, Yuhao Dong + 7 more2026-02-26💻 cs

Caption-Driven Explainability: Probing CNNs for Bias via CLIP

Este artículo propone un nuevo método de IA explicable basado en subtítulos que integra modelos de visión independientes en CLIP mediante cirugía de red para identificar conceptos dominantes y mitigar sesgos, mejorando así la robustez de los modelos de aprendizaje automático.

Patrick Koller, Amil V. Dravid, Guido M. Schuster + 1 more2026-02-26⚡ eess

World Simulation with Video Foundation Models for Physical AI

El artículo presenta Cosmos-Predict2.5 y Cosmos-Transfer2.5, modelos de fundación de mundo generados por flujo que unifican la creación de mundos a partir de texto, imágenes y video, mejorando significativamente la calidad, el control y la fidelidad para la generación de datos sintéticos, la evaluación de políticas y la simulación en sistemas de IA física y robótica.

NVIDIA, :, Arslan Ali + 87 more2026-02-26🤖 cs.AI

Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

El artículo presenta CoMa, un nuevo paradigma de pre-entrenamiento que descompone el aprendizaje de representaciones multimodales en una fase de compresión seguida de aprendizaje por contraste, logrando así modelos de incrustación competitivos y eficientes con una cantidad reducida de datos y superando el estado del arte en la tarea MMEB.

Da Li, Yuxiao Luo, Keping Bi + 7 more2026-02-26💻 cs

Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models

El artículo presenta QTSplus, un módulo ligero de selección de tokens visuales que utiliza consultas de texto para reducir dinámicamente la carga computacional en modelos multimodales de video largo, logrando una compresión de hasta el 89% y mejoras significativas en la precisión de tareas de localización temporal sin sacrificar la comprensión general.

Siyou Li, Huanan Wu, Juexi Shao + 10 more2026-02-26💻 cs

RobustGait: Robustness Analysis for Appearance Based Gait Recognition

El artículo presenta RobustGait, un marco de evaluación integral que analiza la robustez de los sistemas de reconocimiento de marcha basados en apariencia frente a diversas perturbaciones y métodos de extracción de siluetas en múltiples conjuntos de datos, revelando vulnerabilidades clave y proponiendo estrategias para mejorar su rendimiento en escenarios reales.

Reeshoon Sayera, Akash Kumar, Sirshapan Mitra + 2 more2026-02-26💻 cs

NTK-Guided Implicit Neural Teaching

El artículo propone NINT, un método que acelera el entrenamiento de Representaciones Neuronales Implícitas mediante la selección dinámica de coordenadas basada en el Kernel Tangente Neuronal, logrando reducir el tiempo de entrenamiento a la mitad sin comprometer la calidad de la representación.

Chen Zhang, Wei Zuo, Bingyang Cheng + 4 more2026-02-26🤖 cs.LG

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

El artículo presenta MIRA, un agente de razonamiento multimodal iterativo que mejora la edición de imágenes guiada por instrucciones mediante un ciclo de percepción-razonamiento-acción que genera pasos atómicos basados en retroalimentación visual, logrando resultados competitivos frente a sistemas propietarios.

Ziyun Zeng, Hang Hua, Jiebo Luo2026-02-26💻 cs

Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning

Este trabajo presenta un marco unificado para la navegación aérea visión-lenguaje que permite a los drones navegar en entornos urbanos complejos utilizando únicamente observaciones monoculares RGB y comandos de lenguaje natural, superando las limitaciones de costos y complejidad de los métodos existentes mediante un aprendizaje multitarea optimizado y estrategias de selección de fotogramas clave.

Huilin Xu, Zhuoyang Liu, Yixiang Luomei + 1 more2026-02-26🤖 cs.AI

KD-OCT: Efficient Knowledge Distillation for Clinical-Grade Retinal OCT Classification

Este estudio presenta KD-OCT, un marco de destilación de conocimiento que comprime un modelo ConvNeXtV2-Large en un EfficientNet-B2 ligero para lograr una clasificación clínica de OCT retiniana con alto rendimiento y eficiencia computacional, facilitando su implementación en tiempo real para la detección de enfermedades oculares.

Erfan Nourbakhsh, Nasrin Sanjari, Ali Nourbakhsh2026-02-26🤖 cs.AI

VULCA-Bench: A Multicultural Vision-Language Benchmark for Evaluating Cultural Understanding

El artículo presenta VULCA-Bench, un nuevo benchmark multicultural de 7.410 pares de imágenes y críticas en chino e inglés diseñado para evaluar la comprensión cultural profunda de los modelos de visión y lenguaje mediante un marco de cinco niveles que va desde la percepción visual hasta la estética filosófica.

Haorui Yu, Diji Yang, Hang He + 2 more2026-02-26💬 cs.CL

FigEx2: Visual-Conditioned Panel Detection and Captioning for Scientific Compound Figures

El artículo presenta FigEx2, un marco de trabajo condicionado visualmente que localiza paneles y genera descripciones específicas para cada uno en figuras compuestas científicas, logrando un rendimiento superior mediante una fusión adaptativa, optimización por refuerzo y demostrando una notable capacidad de transferencia cero a dominios científicos diversos.

Jifeng Song, Arun Das, Pan Wang + 3 more2026-02-26💬 cs.CL

Pay Attention to Where You Looked

Este trabajo presenta un mecanismo de ponderación de cámaras que mejora la síntesis de vistas novedosas en escenarios de pocas imágenes al ajustar dinámicamente la importancia de las vistas de entrada según su relevancia para la vista objetivo, mediante esquemas deterministas basados en geometría o aprendizaje por atención cruzada.

Alex Berian, JhihYang Wu, Daniel Brignac + 2 more2026-02-26💻 cs

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

El artículo presenta DenseGRPO, un marco innovador que mejora la alineación con preferencias humanas en modelos de flujo para generación de imágenes al resolver el problema de recompensas dispersas mediante recompensas densas por paso y un esquema de exploración adaptativo que ajusta la inyección estocástica según el tiempo.

Haoyou Deng, Keyu Yan, Chaojie Mao + 4 more2026-02-26💻 cs

Rectifying Geometry-Induced Similarity Distortions for Real-World Aerial-Ground Person Re-Identification

Este artículo propone un marco innovador para la reidentificación de personas entre vistas aéreas y terrestres que corrige las distorsiones geométricas en el espacio de similitud mediante una transformación de consulta-llave condicionada a la geometría y una generación de prompts adaptativa, mejorando así la robustez del modelo sin aumentar significativamente la carga computacional.

Kailash A. Hambarde, Hugo Proença2026-02-26💻 cs

TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs

El artículo presenta TimeBlind, un nuevo benchmark diseñado para diagnosticar la comprensión espaciotemporal de los modelos de lenguaje multimodales mediante pares mínimos que aíslan la estructura temporal, revelando que incluso los modelos más avanzados dependen excesivamente de atajos visuales estáticos y tienen un rendimiento significativamente inferior al humano en esta tarea.

Baiqi Li, Kangyi Zhao, Ce Zhang + 3 more2026-02-26🤖 cs.AI

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Este trabajo presenta LatentLens, un método novedoso que demuestra que la mayoría de los tokens visuales en los Modelos de Lenguaje y Visión (VLM) son altamente interpretables en todas sus capas, superando significativamente a técnicas anteriores como LogitLens al revelar representaciones semánticas detalladas mediante la comparación con un corpus textual contextualizado.

Benno Krojer, Shravan Nayak, Oscar Mañas + 4 more2026-02-26🤖 cs.AI

Enhancing Multi-Image Understanding through Delimiter Token Scaling

Este trabajo propone escalar los estados ocultos de los tokens delimitadores en modelos de lenguaje-vision grandes para mitigar la fuga de información entre imágenes, mejorando así el razonamiento en tareas de múltiples imágenes y documentos sin incurrir en costos adicionales de entrenamiento o inferencia.

Minyoung Lee, Yeji Park, Dongjun Hwang + 3 more2026-02-26💻 cs

HetroD: A High-Fidelity Drone Dataset and Benchmark for Autonomous Driving in Heterogeneous Traffic

El artículo presenta HetroD, un conjunto de datos y benchmark de alta fidelidad basado en drones diseñado para abordar los desafíos de la conducción autónoma en entornos de tráfico heterogéneo dominados por usuarios vulnerables de la vía, proporcionando anotaciones precisas y evaluaciones que revelan las limitaciones actuales de los modelos de predicción y planificación ante comportamientos complejos y no estructurados.

Yu-Hsiang Chen, Wei-Jer Chang, Christian Kotulla + 7 more2026-02-26💻 cs

TIPS Over Tricks: Simple Prompts for Effective Zero-shot Anomaly Detection

El artículo presenta TIPS, un enfoque de detección de anomalías en cero disparos que utiliza un modelo de visión-idioma entrenado con objetivos espacialmente conscientes y prompts desacoplados para superar las limitaciones de CLIP, logrando mejoras significativas en la detección y localización de anomalías en siete conjuntos de datos industriales sin recurrir a módulos auxiliares complejos.

Alireza Salehi, Ehsan Karami, Sepehr Noey + 4 more2026-02-26💻 cs

← Anterior Siguiente →