cs.CV artículos | Gist.Science

KD-OCT: Efficient Knowledge Distillation for Clinical-Grade Retinal OCT Classification

Este estudio presenta KD-OCT, un marco de destilación de conocimiento que comprime un modelo ConvNeXtV2-Large en un EfficientNet-B2 ligero para lograr una clasificación clínica de OCT retiniana con alto rendimiento y eficiencia computacional, facilitando su implementación en tiempo real para la detección de enfermedades oculares.

Erfan Nourbakhsh, Nasrin Sanjari, Ali Nourbakhsh2026-02-26🤖 cs.AI

VULCA-Bench: A Multicultural Vision-Language Benchmark for Evaluating Cultural Understanding

El artículo presenta VULCA-Bench, un nuevo benchmark multicultural de 7.410 pares de imágenes y críticas en chino e inglés diseñado para evaluar la comprensión cultural profunda de los modelos de visión y lenguaje mediante un marco de cinco niveles que va desde la percepción visual hasta la estética filosófica.

Haorui Yu, Diji Yang, Hang He + 2 more2026-02-26💬 cs.CL

FigEx2: Visual-Conditioned Panel Detection and Captioning for Scientific Compound Figures

El artículo presenta FigEx2, un marco de trabajo condicionado visualmente que localiza paneles y genera descripciones específicas para cada uno en figuras compuestas científicas, logrando un rendimiento superior mediante una fusión adaptativa, optimización por refuerzo y demostrando una notable capacidad de transferencia cero a dominios científicos diversos.

Jifeng Song, Arun Das, Pan Wang + 3 more2026-02-26💬 cs.CL

Pay Attention to Where You Looked

Este trabajo presenta un mecanismo de ponderación de cámaras que mejora la síntesis de vistas novedosas en escenarios de pocas imágenes al ajustar dinámicamente la importancia de las vistas de entrada según su relevancia para la vista objetivo, mediante esquemas deterministas basados en geometría o aprendizaje por atención cruzada.

Alex Berian, JhihYang Wu, Daniel Brignac + 2 more2026-02-26💻 cs

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

El artículo presenta DenseGRPO, un marco innovador que mejora la alineación con preferencias humanas en modelos de flujo para generación de imágenes al resolver el problema de recompensas dispersas mediante recompensas densas por paso y un esquema de exploración adaptativo que ajusta la inyección estocástica según el tiempo.

Haoyou Deng, Keyu Yan, Chaojie Mao + 4 more2026-02-26💻 cs

Rectifying Geometry-Induced Similarity Distortions for Real-World Aerial-Ground Person Re-Identification

Este artículo propone un marco innovador para la reidentificación de personas entre vistas aéreas y terrestres que corrige las distorsiones geométricas en el espacio de similitud mediante una transformación de consulta-llave condicionada a la geometría y una generación de prompts adaptativa, mejorando así la robustez del modelo sin aumentar significativamente la carga computacional.

Kailash A. Hambarde, Hugo Proença2026-02-26💻 cs

TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs

El artículo presenta TimeBlind, un nuevo benchmark diseñado para diagnosticar la comprensión espaciotemporal de los modelos de lenguaje multimodales mediante pares mínimos que aíslan la estructura temporal, revelando que incluso los modelos más avanzados dependen excesivamente de atajos visuales estáticos y tienen un rendimiento significativamente inferior al humano en esta tarea.

Baiqi Li, Kangyi Zhao, Ce Zhang + 3 more2026-02-26🤖 cs.AI

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Este trabajo presenta LatentLens, un método novedoso que demuestra que la mayoría de los tokens visuales en los Modelos de Lenguaje y Visión (VLM) son altamente interpretables en todas sus capas, superando significativamente a técnicas anteriores como LogitLens al revelar representaciones semánticas detalladas mediante la comparación con un corpus textual contextualizado.

Benno Krojer, Shravan Nayak, Oscar Mañas + 4 more2026-02-26🤖 cs.AI

Enhancing Multi-Image Understanding through Delimiter Token Scaling

Este trabajo propone escalar los estados ocultos de los tokens delimitadores en modelos de lenguaje-vision grandes para mitigar la fuga de información entre imágenes, mejorando así el razonamiento en tareas de múltiples imágenes y documentos sin incurrir en costos adicionales de entrenamiento o inferencia.

Minyoung Lee, Yeji Park, Dongjun Hwang + 3 more2026-02-26💻 cs

HetroD: A High-Fidelity Drone Dataset and Benchmark for Autonomous Driving in Heterogeneous Traffic

El artículo presenta HetroD, un conjunto de datos y benchmark de alta fidelidad basado en drones diseñado para abordar los desafíos de la conducción autónoma en entornos de tráfico heterogéneo dominados por usuarios vulnerables de la vía, proporcionando anotaciones precisas y evaluaciones que revelan las limitaciones actuales de los modelos de predicción y planificación ante comportamientos complejos y no estructurados.

Yu-Hsiang Chen, Wei-Jer Chang, Christian Kotulla + 7 more2026-02-26💻 cs

TIPS Over Tricks: Simple Prompts for Effective Zero-shot Anomaly Detection

El artículo presenta TIPS, un enfoque de detección de anomalías en cero disparos que utiliza un modelo de visión-idioma entrenado con objetivos espacialmente conscientes y prompts desacoplados para superar las limitaciones de CLIP, logrando mejoras significativas en la detección y localización de anomalías en siete conjuntos de datos industriales sin recurrir a módulos auxiliares complejos.

Alireza Salehi, Ehsan Karami, Sepehr Noey + 4 more2026-02-26💻 cs

Progressive Checkerboards for Autoregressive Multiscale Image Generation

Este trabajo presenta un método de generación de imágenes autoregresivas multiescala basado en tableros de ajedrez progresivos que permite muestrear regiones independientes en paralelo manteniendo dependencias mutuas, logrando un rendimiento competitivo en ImageNet con menos pasos de muestreo.

David Eigen2026-02-26💻 cs

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

El artículo presenta V-Retrver, un marco de recuperación multimodal impulsado por evidencia que reformula el proceso como un razonamiento agencial interactivo, donde un modelo de lenguaje multimodal utiliza herramientas visuales externas para verificar activamente la información y superar las limitaciones de los enfoques puramente lingüísticos, logrando mejoras significativas en la precisión y fiabilidad del razonamiento.

Dongyang Chen, Chaoyang Wang, Dezhao Su + 6 more2026-02-26💻 cs

Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT

Este estudio demuestra que, aunque los modelos fundacionales alcanzan una discriminación equivalente a los modelos específicos en la detección de lesiones intestinales por trauma abdominal, su menor especificidad se debe principalmente a la heterogeneidad de las patologías concurrentes en la clase negativa, lo que indica la necesidad de un entrenamiento específico antes de su implementación clínica.

Jineel H Raythatha, Shuchang Ye, Jeremy Hsu + 1 more2026-02-26⚡ eess

Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods

Este trabajo propone un marco de descomposición tensorial multi-vista que, al analizar videos de pasos a nivel mediante embeddings de TimeSformer, descubre patrones conductuales latentes agrupados principalmente por ubicación geográfica más que por la hora del día, permitiendo así intervenciones de seguridad más dirigidas.

Dawon Ahn, Het Patel, Aemal Khattak + 2 more2026-02-26🤖 cs.LG

MALLVI: A Multi-Agent Framework for Integrated Generalized Robotics Manipulation

MALLVI es un marco de trabajo basado en agentes múltiples y modelos de lenguaje y visión que mejora la manipulación robótica mediante un bucle de retroalimentación cerrado y la coordinación de agentes especializados para lograr una mayor generalización y tasas de éxito en tareas de manipulación sin entrenamiento previo.

Iman Ahmadi, Mehrshad Taji, Arad Mahdinezhad Kashani + 3 more2026-02-26🤖 cs.AI

Tracing Copied Pixels and Regularizing Patch Affinity in Copy Detection

Este trabajo propone PixTrace y CopyNCE, dos innovaciones que combinan el rastreo de coordenadas de píxeles con una pérdida de contraste guiada geométricamente para mejorar la detección de copias en imágenes mediante el aprendizaje de correspondencias finas y la reducción de ruido en el entrenamiento auto-supervisado.

Yichen Lu, Siwei Nie, Minlong Lu + 3 more2026-02-26🤖 cs.AI

Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers

Este artículo presenta DCAG, un marco de edición de imágenes sin entrenamiento para Transformadores de Difusión (DiT) que, al manipular simultáneamente los canales de Clave y Valor para aprovechar su estructura de sesgo-delta, logra un control más preciso sobre la fidelidad de la edición en comparación con los métodos existentes que solo utilizan el canal de Clave.

Guandong Li2026-02-26🤖 cs.AI

Hyperbolic Busemann Neural Networks

Este trabajo introduce las Redes Neuronales Hiperbólicas Busemann (HBNN), que elevan la regresión logística multinomial y las capas totalmente conectadas al espacio hiperbólico mediante funciones de Busemann, logrando mejoras en eficacia y eficiencia para datos jerárquicos en comparación con capas hiperbólicas anteriores.

Ziheng Chen, Bernhard Schölkopf, Nicu Sebe2026-02-26🤖 cs.AI

GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning

El artículo presenta GS-CLIP, un marco de aprendizaje profundo que mejora la detección de anomalías 3D sin datos de entrenamiento mediante prompts de texto conscientes de la geometría y un aprendizaje sinérgico de representaciones visuales que fusiona imágenes renderizadas y de profundidad.

Zehao Deng, An Liu, Yan Wang2026-02-26💻 cs

← Anterior Siguiente →