cs.CV artículos | Gist.Science

OCR-Agent: Agentic OCR with Capability and Memory Reflection

El artículo presenta OCR-Agent, un marco iterativo de auto-corrección que mejora el razonamiento de los modelos de lenguaje visual mediante la reflexión de capacidades y memoria, logrando resultados de vanguardia en OCR sin necesidad de entrenamiento adicional.

Shimin Wen, Zeyu Zhang, Xingdou Bian + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

El artículo presenta VAUQ, un marco de cuantificación de incertidumbre consciente de la visión para la autoevaluación de Modelos de Lenguaje e Imagen Grandes (LVLM) que, mediante un puntaje de información de imagen y una estrategia de enmascaramiento, ofrece una función de puntuación sin entrenamiento que supera a los métodos existentes al medir la dependencia de la evidencia visual para detectar alucinaciones.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

Motivation is Something You Need

Este trabajo presenta un nuevo paradigma de entrenamiento inspirado en la neurociencia afectiva y el estado motivacional de "búsqueda", que utiliza un marco de doble modelo para mejorar el rendimiento de un modelo base y de uno más grande mediante actualizaciones compartidas y una expansión selectiva de la capacidad, logrando así un entrenamiento más eficiente y económico.

Mehdi Acheli, Walid Gaaloul2026-02-25🤖 cs.AI

ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning

El artículo presenta ProxyFL, un marco unificado para el aprendizaje federado semi-supervisado que mitiga simultáneamente la heterogeneidad externa e interna mediante el uso de un proxy aprendible que optimiza la distribución global de categorías y reintegra muestras descartadas para mejorar el rendimiento y la convergencia.

Duowen Chen, Yan Wang2026-02-25🤖 cs.LG

Optimizing Occupancy Sensor Placement in Smart Environments

Este artículo propone un método automático basado en programación lineal entera y simulación de trayectorias para determinar la ubicación óptima de sensores de tiempo de vuelo que maximicen la precisión en el conteo de ocupantes en entornos de oficina, facilitando así el ahorro energético sin comprometer la privacidad.

Hao Lu, Richard J. Radke2026-02-25💻 cs

BrepGaussian: CAD reconstruction from Multi-View Images with Gaussian Splatting

El artículo presenta BrepGaussian, un marco novedoso que reconstruye modelos CAD en representación de límites (B-rep) a partir de imágenes multivista mediante un enfoque de dos etapas que combina el *Gaussian Splatting* con una estrategia de ajuste para lograr geometrías limpias y representaciones coherentes.

Jiaxing Yu, Dongyang Ren, Hangyu Xu + 5 more2026-02-25💻 cs

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Este artículo presenta UDVideoQA, un nuevo conjunto de datos y benchmark para la respuesta a preguntas en videos de tráfico que, mediante el uso de técnicas de privacidad y una taxonomía de razonamiento jerárquico, evalúa y mejora la capacidad de los modelos de lenguaje visuales para realizar inferencias espaciotemporales complejas en entornos urbanos dinámicos.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Este trabajo presenta SynthRender, un marco de código abierto para generación de imágenes sintéticas con aleatorización de dominio guiada, junto con el conjunto de datos IRIS, demostrando que la combinación de activos 3D creados a partir de imágenes reales y técnicas de transferencia bidireccional Sim-Real permite lograr un alto rendimiento en la percepción de objetos industriales sin necesidad de archivos 3D propietarios ni costosas anotaciones manuales.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis

El artículo presenta LUMEN, un nuevo marco de entrenamiento para modelos de visión y lenguaje que optimiza la interpretación de radiografías de tórax longitudinales mediante ajuste fino multi-imagen y multi-tarea, logrando mejoras significativas en tareas de diagnóstico y demostrando un gran potencial para la predicción de pronósticos clínicos.

Zhifan Jiang, Dong Yang, Vishwesh Nath + 7 more2026-02-25🤖 cs.LG

SPRITETOMESH: Automatic Mesh Generation for 2D Skeletal Animation Using Learned Segmentation and Contour-Aware Vertex Placement

El artículo presenta SPRITETOMESH, una pipeline automática que combina segmentación aprendida y algoritmos de contorno para convertir sprites 2D en mallas triangulares listas para animación esquelética en menos de 3 segundos, superando significativamente el proceso manual y demostrando que la predicción directa de vértices mediante redes neuronales no es viable debido a la naturaleza artística de la colocación de vértices.

Bastien Gimbert2026-02-25💻 cs

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

Este trabajo propone un nuevo paradigma de recuperación visual controlable por calidad que utiliza modelos de lenguaje generativos para enriquecer consultas cortas y ambiguas con detalles contextuales y niveles de calidad explícitos, mejorando así la precisión y la interpretabilidad de los resultados en cualquier modelo visión-lenguaje preentrenado.

Jianglin Lu, Simon Jenni, Kushal Kafle + 3 more2026-02-25💻 cs

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

El artículo presenta XMorph, un marco de inteligencia artificial explicable y eficiente que combina un mecanismo de normalización de bordes ponderado por información con un módulo dual de IA explicable asistido por LLM para lograr una clasificación precisa (96,0%) y clínicamente interpretable de gliomas, meningiomas y tumores pituitarios.

Sepehr Salem Ghahfarokhi, M. Moein Esfahani, Raj Sunderraman + 2 more2026-02-25🤖 cs.AI

Mask-HybridGNet: Graph-based segmentation with emergent anatomical correspondence from pixel-level supervision

El artículo presenta Mask-HybridGNet, un marco de segmentación médica basado en grafos que entrena modelos utilizando únicamente máscaras de píxeles estándar para generar automáticamente correspondencias anatómicas emergentes y mantener la integridad topológica sin necesidad de anotaciones manuales de puntos de referencia.

Nicolás Gaggion, Maria J. Ledesma-Carbayo, Stergios Christodoulidis + 2 more2026-02-25💻 cs

Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

El artículo presenta Spa3R, un marco de aprendizaje auto-supervisado que utiliza el modelado predictivo de campos espaciales para generar representaciones 3D coherentes a partir únicamente de imágenes 2D, mejorando significativamente el razonamiento espacial en modelos de visión y lenguaje.

Haoyi Jiang, Liu Liu, Xinjie Wang + 5 more2026-02-25💻 cs

Human Video Generation from a Single Image with 3D Pose and View Control

Este artículo presenta HVG, un modelo de difusión de video latente que genera videos humanos de alta calidad y coherentes en el tiempo y el espacio a partir de una sola imagen, permitiendo el control preciso de la pose 3D y la vista mediante diseños clave como la modulación de pose articulada, la alineación de vista y temporal, y el muestreo progresivo espaciotemporal.

Tiantian Wang, Chun-Han Yao, Tao Hu + 3 more2026-02-25💻 cs

Region of Interest Segmentation and Morphological Analysis for Membranes in Cryo-Electron Tomography

Este trabajo presenta TomoROIS-SurfORA, un marco de dos pasos que combina segmentación de regiones de interés mediante aprendizaje profundo y análisis morfológico de superficies para la cuantificación directa y automatizada de características de membranas en tomografía electrónica criogénica.

Xingyi Cheng, Julien Maufront, Aurélie Di Cicco + 3 more2026-02-25💻 cs

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Este artículo presenta la Planificación Reflexiva en Tiempo de Prueba para LLMs encarnados, un marco que integra la reflexión durante la acción y la reflexión posterior a la acción (incluyendo una retrospectiva) para permitir que los robots aprendan de sus errores y mejoren su desempeño en tareas de largo horizonte.

Yining Hong, Huang Huang, Manling Li + 3 more2026-02-25💬 cs.CL

Multi-Vector Index Compression in Any Modality

Este trabajo introduce métodos de compresión de índices, destacando un novedoso agrupamiento guiado por atención (AGC), para reducir los costos de almacenamiento y computación en la recuperación de información de interacción tardía a través de múltiples modalidades sin sacrificar el rendimiento.

Hanxiang Qin, Alexander Martin, Rohan Jha + 3 more2026-02-25💬 cs.CL

Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

El artículo presenta Squint, un método de aprendizaje por refuerzo visual basado en Soft Actor Critic que, mediante técnicas como la simulación paralela y el "resolución squinting", logra un entrenamiento más rápido en tiempo real y una transferencia exitosa de simulación a realidad para tareas de manipulación robótica.

Abdulaziz Almuzairee, Henrik I. Christensen2026-02-25🤖 cs.LG

Label-free segmentation from cardiac ultrasound using self-supervised learning

Este estudio presenta un método escalable y sin etiquetas manuales para la segmentación de cámaras cardíacas en ecografías mediante aprendizaje auto-supervisado, demostrando una precisión clínica comparable a la de los expertos y a la de los enfoques supervisados.

Danielle L. Ferreira, Connor Lau, Zaynaf Salaymang + 1 more2026-02-24⚡ eess

← Anterior Siguiente →