cs.CV artículos | Gist.Science

Hybrid Fusion: One-Minute Efficient Training for Zero-Shot Cross-Domain Image Fusion

El artículo presenta "Hybrid Fusion", un marco híbrido eficiente que combina una red U-Net aprendible con un kernel de fusión clásico para lograr entrenamiento completo de resolución en solo un minuto, eliminando la brecha entre entrenamiento e inferencia y logrando un rendimiento de vanguardia con generalización cero-shot en diversas tareas de fusión de imágenes.

Ran Zhang, Xuanhua He, Liu Liu2026-02-25💻 cs

On the Explainability of Vision-Language Models in Art History

Este artículo examina cómo los métodos de Inteligencia Artificial Explicable pueden hacer legible el razonamiento visual de modelos como CLIP en contextos de historia del arte, revelando que su eficacia depende de la estabilidad conceptual y la disponibilidad representativa de las categorías analizadas.

Stefanie Schneider2026-02-25💻 cs

DA-Cal: Towards Cross-Domain Calibration in Semantic Segmentation

El artículo presenta DA-Cal, un marco de adaptación de dominio no supervisado que mejora la calibración de la red en la segmentación semántica mediante la optimización de pseudoetiquetas suaves y una red de temperatura meta, logrando un mayor rendimiento y fiabilidad en dominios objetivo sin sobrecarga en la inferencia.

Wangkai Li, Rui Sun, Zhaoyang Li + 2 more2026-02-25💻 cs

MUSE: Harnessing Precise and Diverse Semantics for Few-Shot Whole Slide Image Classification

El marco MUSE mejora la clasificación de imágenes de diapositivas completas en escenarios de pocos ejemplos mediante la adaptación semántica a nivel de muestra y la integración estocástica de vistas textuales diversas generadas por modelos de lenguaje, superando así las limitaciones de los métodos basados en priores estáticos.

Jiahao Xu, Sheng Huang, Xin Zhang + 3 more2026-02-25💻 cs

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models

Este trabajo presenta SpatiaLQA, un nuevo benchmark con más de 9.600 pares de preguntas y respuestas derivadas de escenas reales para evaluar el razonamiento lógico espacial en modelos de visión y lenguaje, demostrando que los modelos actuales tienen dificultades en esta tarea y proponiendo un método de razonamiento asistido por grafos de escena recursivos para mejorar su rendimiento.

Yuechen Xie, Xiaoyan Zhang, Yicheng Shan + 6 more2026-02-25🤖 cs.LG

From Isolation to Integration: Building an Adaptive Expert Forest for Pre-Trained Model-based Class-Incremental Learning

El artículo presenta SAEF, un método de aprendizaje incremental de clases que organiza adaptadores en una jerarquía estructurada basada en relaciones semánticas para compartir conocimiento entre tareas y lograr un rendimiento superior sin olvidar lo aprendido anteriormente.

Ruiqi Liu, Boyu Diao, Hangda Liu + 3 more2026-02-25🤖 cs.LG

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

El artículo presenta LongVideo-R1, un agente multimodal de razonamiento que navega activamente y de forma eficiente en videos largos mediante la selección iterativa de clips informativos, logrando un equilibrio superior entre precisión en preguntas y respuestas y eficiencia computacional.

Jihao Qiu, Lingxi Xie, Xinyue Huo + 2 more2026-02-25💻 cs

LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

El artículo presenta LST-SLAM, un sistema de localización y mapeo simultáneo (SLAM) estereoscópico térmico diseñado para entornos dinámicos a gran escala que, mediante el aprendizaje de características auto-supervisado, el seguimiento de movimiento de doble nivel y restricciones híbridas semántico-geométricas, supera significativamente a sistemas existentes en robustez y precisión.

Zeyu Jiang, Kuan Xu, Changhao Chen2026-02-25💻 cs

Dropping Anchor and Spherical Harmonics for Sparse-view Gaussian Splatting

El artículo presenta DropAnSH-GS, un método novedoso que mejora el ajuste en la representación 3D con vistas escasas mediante una estrategia de eliminación de anclajes que suprime tanto los Gaussianos vecinos como los coeficientes armónicos esféricos de alto grado para mitigar el sobreajuste y facilitar la compresión del modelo.

Shuangkang Fang, I-Chao Shen, Xuanyang Zhang + 5 more2026-02-25💻 cs

UFO: Unifying Feed-Forward and Optimization-based Methods for Large Driving Scene Modeling

El artículo presenta UFO, un nuevo paradigma recurrente que unifica métodos de alimentación directa y basados en optimización para lograr una reconstrucción eficiente y de alta calidad de escenas de conducción dinámicas a largo plazo, superando las limitaciones de complejidad y precisión de las técnicas existentes.

Kaiyuan Tan, Yingying Shen, Mingfei Tu + 5 more2026-02-25💻 cs

Estimation of Confidence Bounds in Binary Classification using Wilson Score Kernel Density Estimation

Este artículo presenta el Estimador de Densidad de Wilson Score, un método kernel novedoso para calcular límites de confianza en clasificación binaria que ofrece un rendimiento comparable a las Clasificaciones por Procesos Gaussianos pero con una menor complejidad computacional.

Thorbjørn Mosekjær Iversen, Zebin Duan, Frederik Hagelskjær2026-02-25🤖 cs.LG

Are Multimodal Large Language Models Good Annotators for Image Tagging?

Este artículo presenta TagLLM, un marco innovador que utiliza modelos de lenguaje multimodal para automatizar la etiquetado de imágenes a un costo extremadamente bajo, logrando cerrar entre un 60% y un 80% de la brecha de rendimiento con la anotación humana en tareas de entrenamiento posteriores.

Ming-Kun Xie, Jia-Hao Xiao, Zhiqiang Kou + 3 more2026-02-25💻 cs

Multimodal MRI Report Findings Supervised Brain Lesion Segmentation with Substructures

Este artículo presenta MS-RSuper, un marco de aprendizaje supervisado por informes que mejora la segmentación de lesiones cerebrales en resonancia magnética multimodal mediante la integración jerárquica de hallazgos cuantitativos y cualitativos inciertos, superando las limitaciones de los métodos anteriores al alinear las señales cualitativas con subestructuras específicas y aplicar restricciones unilaterales adaptadas a la incertidumbre.

Yubin Ge, Yongsong Huang, Xiaofeng Liu2026-02-25⚡ eess

Le-DETR: Revisiting Real-Time Detection Transformer with Efficient Encoder Design

Le-DETR es un nuevo modelo de detección en tiempo real que logra un rendimiento de vanguardia con un costo de preentrenamiento reducido en un 80% gracias a su diseño eficiente que combina la arquitectura EfficientNAT y un codificador híbrido optimizado, superando a modelos competidores como YOLOv12 y DEIM-D-FINE en precisión y velocidad.

Jiannan Huang, Aditya Kane, Fengzhe Zhou + 2 more2026-02-25💻 cs

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Este trabajo presenta CHAIN, un nuevo benchmark interactivo en 3D basado en física que evalúa la capacidad de los modelos visión-lingüísticos para razonar sobre restricciones estructurales y causales al planificar secuencias de acciones, revelando que los modelos actuales aún tienen dificultades significativas para internalizar la estructura física y ejecutar planes de largo alcance de manera fiable.

Yuhao Wu, Maojia Song, Yihuai Lan + 8 more2026-02-25💻 cs

MIP Candy: A Modular PyTorch Framework for Medical Image Processing

El artículo presenta MIP Candy, un marco de trabajo modular y de código abierto basado en PyTorch diseñado específicamente para el procesamiento de imágenes médicas, que simplifica la creación de flujos de trabajo completos mediante una configuración flexible, herramientas avanzadas de seguimiento experimental y un ecosistema extensible de modelos predefinidos.

Tianhao Fu, Yucheng Chen2026-02-25🤖 cs.AI

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

El artículo presenta CLIPGlasses, un marco plug-and-play que mejora la comprensión de descripciones visuales negadas en CLIP sin fine-tuning, mediante módulos de lente y marco que disuelven la semántica negada y penalizan las alineaciones incorrectas para lograr un rendimiento superior en generalización cruzada y condiciones de bajos recursos.

Junhao Xiao, Zhiyu Wu, Hao Lin + 5 more2026-02-25💻 cs

OmniOCR: Generalist OCR for Ethnic Minority Languages

OmniOCR es un marco universal que utiliza la Adaptación de Bajo Rango Dinámica (Dynamic LoRA) para superar los desafíos de reconocimiento óptico de caracteres en lenguas minoritarias con recursos limitados, logrando un rendimiento superior y una mayor eficiencia paramétrica en comparación con los modelos existentes.

Bonan Liu, Zeyu Zhang, Bingbing Meng + 5 more2026-02-25💻 cs

OCR-Agent: Agentic OCR with Capability and Memory Reflection

El artículo presenta OCR-Agent, un marco iterativo de auto-corrección que mejora el razonamiento de los modelos de lenguaje visual mediante la reflexión de capacidades y memoria, logrando resultados de vanguardia en OCR sin necesidad de entrenamiento adicional.

Shimin Wen, Zeyu Zhang, Xingdou Bian + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

El artículo presenta VAUQ, un marco de cuantificación de incertidumbre consciente de la visión para la autoevaluación de Modelos de Lenguaje e Imagen Grandes (LVLM) que, mediante un puntaje de información de imagen y una estrategia de enmascaramiento, ofrece una función de puntuación sin entrenamiento que supera a los métodos existentes al medir la dependencia de la evidencia visual para detectar alucinaciones.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

← Anterior Siguiente →