cs.CV artículos | Gist.Science

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Este trabajo presenta CHAIN, un nuevo benchmark interactivo en 3D basado en física que evalúa la capacidad de los modelos visión-lingüísticos para razonar sobre restricciones estructurales y causales al planificar secuencias de acciones, revelando que los modelos actuales aún tienen dificultades significativas para internalizar la estructura física y ejecutar planes de largo alcance de manera fiable.

Yuhao Wu, Maojia Song, Yihuai Lan + 8 more2026-02-25💻 cs

MIP Candy: A Modular PyTorch Framework for Medical Image Processing

El artículo presenta MIP Candy, un marco de trabajo modular y de código abierto basado en PyTorch diseñado específicamente para el procesamiento de imágenes médicas, que simplifica la creación de flujos de trabajo completos mediante una configuración flexible, herramientas avanzadas de seguimiento experimental y un ecosistema extensible de modelos predefinidos.

Tianhao Fu, Yucheng Chen2026-02-25🤖 cs.AI

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

El artículo presenta CLIPGlasses, un marco plug-and-play que mejora la comprensión de descripciones visuales negadas en CLIP sin fine-tuning, mediante módulos de lente y marco que disuelven la semántica negada y penalizan las alineaciones incorrectas para lograr un rendimiento superior en generalización cruzada y condiciones de bajos recursos.

Junhao Xiao, Zhiyu Wu, Hao Lin + 5 more2026-02-25💻 cs

OmniOCR: Generalist OCR for Ethnic Minority Languages

OmniOCR es un marco universal que utiliza la Adaptación de Bajo Rango Dinámica (Dynamic LoRA) para superar los desafíos de reconocimiento óptico de caracteres en lenguas minoritarias con recursos limitados, logrando un rendimiento superior y una mayor eficiencia paramétrica en comparación con los modelos existentes.

Bonan Liu, Zeyu Zhang, Bingbing Meng + 5 more2026-02-25💻 cs

OCR-Agent: Agentic OCR with Capability and Memory Reflection

El artículo presenta OCR-Agent, un marco iterativo de auto-corrección que mejora el razonamiento de los modelos de lenguaje visual mediante la reflexión de capacidades y memoria, logrando resultados de vanguardia en OCR sin necesidad de entrenamiento adicional.

Shimin Wen, Zeyu Zhang, Xingdou Bian + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

El artículo presenta VAUQ, un marco de cuantificación de incertidumbre consciente de la visión para la autoevaluación de Modelos de Lenguaje e Imagen Grandes (LVLM) que, mediante un puntaje de información de imagen y una estrategia de enmascaramiento, ofrece una función de puntuación sin entrenamiento que supera a los métodos existentes al medir la dependencia de la evidencia visual para detectar alucinaciones.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

Motivation is Something You Need

Este trabajo presenta un nuevo paradigma de entrenamiento inspirado en la neurociencia afectiva y el estado motivacional de "búsqueda", que utiliza un marco de doble modelo para mejorar el rendimiento de un modelo base y de uno más grande mediante actualizaciones compartidas y una expansión selectiva de la capacidad, logrando así un entrenamiento más eficiente y económico.

Mehdi Acheli, Walid Gaaloul2026-02-25🤖 cs.AI

ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning

El artículo presenta ProxyFL, un marco unificado para el aprendizaje federado semi-supervisado que mitiga simultáneamente la heterogeneidad externa e interna mediante el uso de un proxy aprendible que optimiza la distribución global de categorías y reintegra muestras descartadas para mejorar el rendimiento y la convergencia.

Duowen Chen, Yan Wang2026-02-25🤖 cs.LG

Optimizing Occupancy Sensor Placement in Smart Environments

Este artículo propone un método automático basado en programación lineal entera y simulación de trayectorias para determinar la ubicación óptima de sensores de tiempo de vuelo que maximicen la precisión en el conteo de ocupantes en entornos de oficina, facilitando así el ahorro energético sin comprometer la privacidad.

Hao Lu, Richard J. Radke2026-02-25💻 cs

BrepGaussian: CAD reconstruction from Multi-View Images with Gaussian Splatting

El artículo presenta BrepGaussian, un marco novedoso que reconstruye modelos CAD en representación de límites (B-rep) a partir de imágenes multivista mediante un enfoque de dos etapas que combina el *Gaussian Splatting* con una estrategia de ajuste para lograr geometrías limpias y representaciones coherentes.

Jiaxing Yu, Dongyang Ren, Hangyu Xu + 5 more2026-02-25💻 cs

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Este artículo presenta UDVideoQA, un nuevo conjunto de datos y benchmark para la respuesta a preguntas en videos de tráfico que, mediante el uso de técnicas de privacidad y una taxonomía de razonamiento jerárquico, evalúa y mejora la capacidad de los modelos de lenguaje visuales para realizar inferencias espaciotemporales complejas en entornos urbanos dinámicos.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Este trabajo presenta SynthRender, un marco de código abierto para generación de imágenes sintéticas con aleatorización de dominio guiada, junto con el conjunto de datos IRIS, demostrando que la combinación de activos 3D creados a partir de imágenes reales y técnicas de transferencia bidireccional Sim-Real permite lograr un alto rendimiento en la percepción de objetos industriales sin necesidad de archivos 3D propietarios ni costosas anotaciones manuales.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis

El artículo presenta LUMEN, un nuevo marco de entrenamiento para modelos de visión y lenguaje que optimiza la interpretación de radiografías de tórax longitudinales mediante ajuste fino multi-imagen y multi-tarea, logrando mejoras significativas en tareas de diagnóstico y demostrando un gran potencial para la predicción de pronósticos clínicos.

Zhifan Jiang, Dong Yang, Vishwesh Nath + 7 more2026-02-25🤖 cs.LG

SPRITETOMESH: Automatic Mesh Generation for 2D Skeletal Animation Using Learned Segmentation and Contour-Aware Vertex Placement

El artículo presenta SPRITETOMESH, una pipeline automática que combina segmentación aprendida y algoritmos de contorno para convertir sprites 2D en mallas triangulares listas para animación esquelética en menos de 3 segundos, superando significativamente el proceso manual y demostrando que la predicción directa de vértices mediante redes neuronales no es viable debido a la naturaleza artística de la colocación de vértices.

Bastien Gimbert2026-02-25💻 cs

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

Este trabajo propone un nuevo paradigma de recuperación visual controlable por calidad que utiliza modelos de lenguaje generativos para enriquecer consultas cortas y ambiguas con detalles contextuales y niveles de calidad explícitos, mejorando así la precisión y la interpretabilidad de los resultados en cualquier modelo visión-lenguaje preentrenado.

Jianglin Lu, Simon Jenni, Kushal Kafle + 3 more2026-02-25💻 cs

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

El artículo presenta XMorph, un marco de inteligencia artificial explicable y eficiente que combina un mecanismo de normalización de bordes ponderado por información con un módulo dual de IA explicable asistido por LLM para lograr una clasificación precisa (96,0%) y clínicamente interpretable de gliomas, meningiomas y tumores pituitarios.

Sepehr Salem Ghahfarokhi, M. Moein Esfahani, Raj Sunderraman + 2 more2026-02-25🤖 cs.AI

Mask-HybridGNet: Graph-based segmentation with emergent anatomical correspondence from pixel-level supervision

El artículo presenta Mask-HybridGNet, un marco de segmentación médica basado en grafos que entrena modelos utilizando únicamente máscaras de píxeles estándar para generar automáticamente correspondencias anatómicas emergentes y mantener la integridad topológica sin necesidad de anotaciones manuales de puntos de referencia.

Nicolás Gaggion, Maria J. Ledesma-Carbayo, Stergios Christodoulidis + 2 more2026-02-25💻 cs

Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

El artículo presenta Spa3R, un marco de aprendizaje auto-supervisado que utiliza el modelado predictivo de campos espaciales para generar representaciones 3D coherentes a partir únicamente de imágenes 2D, mejorando significativamente el razonamiento espacial en modelos de visión y lenguaje.

Haoyi Jiang, Liu Liu, Xinjie Wang + 5 more2026-02-25💻 cs

Human Video Generation from a Single Image with 3D Pose and View Control

Este artículo presenta HVG, un modelo de difusión de video latente que genera videos humanos de alta calidad y coherentes en el tiempo y el espacio a partir de una sola imagen, permitiendo el control preciso de la pose 3D y la vista mediante diseños clave como la modulación de pose articulada, la alineación de vista y temporal, y el muestreo progresivo espaciotemporal.

Tiantian Wang, Chun-Han Yao, Tao Hu + 3 more2026-02-25💻 cs

Region of Interest Segmentation and Morphological Analysis for Membranes in Cryo-Electron Tomography

Este trabajo presenta TomoROIS-SurfORA, un marco de dos pasos que combina segmentación de regiones de interés mediante aprendizaje profundo y análisis morfológico de superficies para la cuantificación directa y automatizada de características de membranas en tomografía electrónica criogénica.

Xingyi Cheng, Julien Maufront, Aurélie Di Cicco + 3 more2026-02-25💻 cs

← Anterior Siguiente →