cs.CV artículos | Gist.Science

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

El artículo presenta LongVideo-R1, un agente multimodal de razonamiento que navega activamente y de forma eficiente en videos largos mediante la selección iterativa de clips informativos, logrando un equilibrio superior entre precisión en preguntas y respuestas y eficiencia computacional.

Jihao Qiu, Lingxi Xie, Xinyue Huo + 2 more2026-02-25💻 cs

LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

El artículo presenta LST-SLAM, un sistema de localización y mapeo simultáneo (SLAM) estereoscópico térmico diseñado para entornos dinámicos a gran escala que, mediante el aprendizaje de características auto-supervisado, el seguimiento de movimiento de doble nivel y restricciones híbridas semántico-geométricas, supera significativamente a sistemas existentes en robustez y precisión.

Zeyu Jiang, Kuan Xu, Changhao Chen2026-02-25💻 cs

Dropping Anchor and Spherical Harmonics for Sparse-view Gaussian Splatting

El artículo presenta DropAnSH-GS, un método novedoso que mejora el ajuste en la representación 3D con vistas escasas mediante una estrategia de eliminación de anclajes que suprime tanto los Gaussianos vecinos como los coeficientes armónicos esféricos de alto grado para mitigar el sobreajuste y facilitar la compresión del modelo.

Shuangkang Fang, I-Chao Shen, Xuanyang Zhang + 5 more2026-02-25💻 cs

UFO: Unifying Feed-Forward and Optimization-based Methods for Large Driving Scene Modeling

El artículo presenta UFO, un nuevo paradigma recurrente que unifica métodos de alimentación directa y basados en optimización para lograr una reconstrucción eficiente y de alta calidad de escenas de conducción dinámicas a largo plazo, superando las limitaciones de complejidad y precisión de las técnicas existentes.

Kaiyuan Tan, Yingying Shen, Mingfei Tu + 5 more2026-02-25💻 cs

Estimation of Confidence Bounds in Binary Classification using Wilson Score Kernel Density Estimation

Este artículo presenta el Estimador de Densidad de Wilson Score, un método kernel novedoso para calcular límites de confianza en clasificación binaria que ofrece un rendimiento comparable a las Clasificaciones por Procesos Gaussianos pero con una menor complejidad computacional.

Thorbjørn Mosekjær Iversen, Zebin Duan, Frederik Hagelskjær2026-02-25🤖 cs.LG

Are Multimodal Large Language Models Good Annotators for Image Tagging?

Este artículo presenta TagLLM, un marco innovador que utiliza modelos de lenguaje multimodal para automatizar la etiquetado de imágenes a un costo extremadamente bajo, logrando cerrar entre un 60% y un 80% de la brecha de rendimiento con la anotación humana en tareas de entrenamiento posteriores.

Ming-Kun Xie, Jia-Hao Xiao, Zhiqiang Kou + 3 more2026-02-25💻 cs

Multimodal MRI Report Findings Supervised Brain Lesion Segmentation with Substructures

Este artículo presenta MS-RSuper, un marco de aprendizaje supervisado por informes que mejora la segmentación de lesiones cerebrales en resonancia magnética multimodal mediante la integración jerárquica de hallazgos cuantitativos y cualitativos inciertos, superando las limitaciones de los métodos anteriores al alinear las señales cualitativas con subestructuras específicas y aplicar restricciones unilaterales adaptadas a la incertidumbre.

Yubin Ge, Yongsong Huang, Xiaofeng Liu2026-02-25⚡ eess

Le-DETR: Revisiting Real-Time Detection Transformer with Efficient Encoder Design

Le-DETR es un nuevo modelo de detección en tiempo real que logra un rendimiento de vanguardia con un costo de preentrenamiento reducido en un 80% gracias a su diseño eficiente que combina la arquitectura EfficientNAT y un codificador híbrido optimizado, superando a modelos competidores como YOLOv12 y DEIM-D-FINE en precisión y velocidad.

Jiannan Huang, Aditya Kane, Fengzhe Zhou + 2 more2026-02-25💻 cs

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Este trabajo presenta CHAIN, un nuevo benchmark interactivo en 3D basado en física que evalúa la capacidad de los modelos visión-lingüísticos para razonar sobre restricciones estructurales y causales al planificar secuencias de acciones, revelando que los modelos actuales aún tienen dificultades significativas para internalizar la estructura física y ejecutar planes de largo alcance de manera fiable.

Yuhao Wu, Maojia Song, Yihuai Lan + 8 more2026-02-25💻 cs

MIP Candy: A Modular PyTorch Framework for Medical Image Processing

El artículo presenta MIP Candy, un marco de trabajo modular y de código abierto basado en PyTorch diseñado específicamente para el procesamiento de imágenes médicas, que simplifica la creación de flujos de trabajo completos mediante una configuración flexible, herramientas avanzadas de seguimiento experimental y un ecosistema extensible de modelos predefinidos.

Tianhao Fu, Yucheng Chen2026-02-25🤖 cs.AI

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

El artículo presenta CLIPGlasses, un marco plug-and-play que mejora la comprensión de descripciones visuales negadas en CLIP sin fine-tuning, mediante módulos de lente y marco que disuelven la semántica negada y penalizan las alineaciones incorrectas para lograr un rendimiento superior en generalización cruzada y condiciones de bajos recursos.

Junhao Xiao, Zhiyu Wu, Hao Lin + 5 more2026-02-25💻 cs

OmniOCR: Generalist OCR for Ethnic Minority Languages

OmniOCR es un marco universal que utiliza la Adaptación de Bajo Rango Dinámica (Dynamic LoRA) para superar los desafíos de reconocimiento óptico de caracteres en lenguas minoritarias con recursos limitados, logrando un rendimiento superior y una mayor eficiencia paramétrica en comparación con los modelos existentes.

Bonan Liu, Zeyu Zhang, Bingbing Meng + 5 more2026-02-25💻 cs

OCR-Agent: Agentic OCR with Capability and Memory Reflection

El artículo presenta OCR-Agent, un marco iterativo de auto-corrección que mejora el razonamiento de los modelos de lenguaje visual mediante la reflexión de capacidades y memoria, logrando resultados de vanguardia en OCR sin necesidad de entrenamiento adicional.

Shimin Wen, Zeyu Zhang, Xingdou Bian + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

El artículo presenta VAUQ, un marco de cuantificación de incertidumbre consciente de la visión para la autoevaluación de Modelos de Lenguaje e Imagen Grandes (LVLM) que, mediante un puntaje de información de imagen y una estrategia de enmascaramiento, ofrece una función de puntuación sin entrenamiento que supera a los métodos existentes al medir la dependencia de la evidencia visual para detectar alucinaciones.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

Motivation is Something You Need

Este trabajo presenta un nuevo paradigma de entrenamiento inspirado en la neurociencia afectiva y el estado motivacional de "búsqueda", que utiliza un marco de doble modelo para mejorar el rendimiento de un modelo base y de uno más grande mediante actualizaciones compartidas y una expansión selectiva de la capacidad, logrando así un entrenamiento más eficiente y económico.

Mehdi Acheli, Walid Gaaloul2026-02-25🤖 cs.AI

ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning

El artículo presenta ProxyFL, un marco unificado para el aprendizaje federado semi-supervisado que mitiga simultáneamente la heterogeneidad externa e interna mediante el uso de un proxy aprendible que optimiza la distribución global de categorías y reintegra muestras descartadas para mejorar el rendimiento y la convergencia.

Duowen Chen, Yan Wang2026-02-25🤖 cs.LG

Optimizing Occupancy Sensor Placement in Smart Environments

Este artículo propone un método automático basado en programación lineal entera y simulación de trayectorias para determinar la ubicación óptima de sensores de tiempo de vuelo que maximicen la precisión en el conteo de ocupantes en entornos de oficina, facilitando así el ahorro energético sin comprometer la privacidad.

Hao Lu, Richard J. Radke2026-02-25💻 cs

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Este artículo presenta UDVideoQA, un nuevo conjunto de datos y benchmark para la respuesta a preguntas en videos de tráfico que, mediante el uso de técnicas de privacidad y una taxonomía de razonamiento jerárquico, evalúa y mejora la capacidad de los modelos de lenguaje visuales para realizar inferencias espaciotemporales complejas en entornos urbanos dinámicos.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Este trabajo presenta SynthRender, un marco de código abierto para generación de imágenes sintéticas con aleatorización de dominio guiada, junto con el conjunto de datos IRIS, demostrando que la combinación de activos 3D creados a partir de imágenes reales y técnicas de transferencia bidireccional Sim-Real permite lograr un alto rendimiento en la percepción de objetos industriales sin necesidad de archivos 3D propietarios ni costosas anotaciones manuales.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis

El artículo presenta LUMEN, un nuevo marco de entrenamiento para modelos de visión y lenguaje que optimiza la interpretación de radiografías de tórax longitudinales mediante ajuste fino multi-imagen y multi-tarea, logrando mejoras significativas en tareas de diagnóstico y demostrando un gran potencial para la predicción de pronósticos clínicos.

Zhifan Jiang, Dong Yang, Vishwesh Nath + 7 more2026-02-25🤖 cs.LG

← Anterior Siguiente →