cs.CV artículos | Gist.Science

PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning

El artículo presenta PanoEnv, un nuevo benchmark de preguntas y respuestas sobre entornos panorámicos 3D y un marco de aprendizaje por refuerzo basado en GRPO con un currículo de dos etapas, que mejora significativamente la inteligencia espacial 3D de los modelos de lenguaje visuales, logrando un rendimiento superior al de modelos mucho más grandes en tareas de razonamiento espacial.

Zekai Lin, Xu Zheng2026-02-26💻 cs

World Guidance: World Modeling in Condition Space for Action Generation

El artículo presenta WoG (World Guidance), un marco que mejora la generación de acciones en modelos Visión-Lenguaje-Acción al mapear observaciones futuras en condiciones compactas dentro del espacio de inferencia, logrando así una modelización del mundo eficiente que supera a los métodos existentes en precisión y generalización.

Yue Su, Sijin Chen, Haixin Shi + 7 more2026-02-26💻 cs

RGB-Event HyperGraph Prompt for Kilometer Marker Recognition based on Pre-trained Foundation Models

Este trabajo presenta un método robusto para el reconocimiento de hitos kilométricos en metros autónomos mediante la integración de cámaras de eventos y modelos fundacionales preentrenados, respaldado por la creación del primer gran conjunto de datos multimodal RGB-Event llamado EvMetro5K.

Xiaoyu Xian, Shiao Wang, Xiao Wang + 2 more2026-02-26🤖 cs.AI

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Los autores proponen RT-RMOT, una nueva tarea de seguimiento de múltiples objetos referenciados que fusiona datos RGB y térmicos, presentando el primer conjunto de datos multimodal (RefRT) y un marco basado en modelos de lenguaje grandes (RTrack) optimizado con estrategias de aprendizaje por refuerzo para lograr un seguimiento robusto en condiciones de baja visibilidad.

Yanqiu Yu, Zhifan Jin, Sijia Chen + 4 more2026-02-26💻 cs

SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

El artículo presenta SPGen, un modelo de aprendizaje profundo que utiliza adaptación de dominio no supervisada y componentes estocásticos para predecir con mayor precisión los patrones de mirada humana en pinturas, cerrando la brecha entre escenas naturales y obras de arte.

Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani + 1 more2026-02-26💻 cs

AutoSew: A Geometric Approach to Stitching Prediction with Graph Neural Networks

El artículo presenta AutoSew, un enfoque automático basado en geometría y redes neuronales gráficas que predice las correspondencias de costura directamente a partir de los contornos de patrones 2D, logrando un alto rendimiento sin depender de etiquetas manuales ni señales semánticas.

Pablo Ríos-Navarro, Elena Garces, Jorge Lopez-Moreno2026-02-26💻 cs

NESTOR: A Nested MOE-based Neural Operator for Large-Scale PDE Pre-Training

El artículo presenta NESTOR, un operador neuronal preentrenado a gran escala basado en un marco anidado de mezcla de expertos (MoE) que combina expertos a nivel de imagen y de token para capturar dependencias globales y locales, mejorando así la generalización y transferabilidad en la resolución de diversas ecuaciones diferenciales parciales.

Dengdi Sun, Xiaoya Zhou, Xiao Wang + 4 more2026-02-26🤖 cs.AI

AdaSpot: Spend Resolution Where It Matters for Precise Event Spotting

El artículo presenta AdaSpot, un marco eficiente que mejora la detección precisa de eventos en video al procesar la mayoría de los fotogramas a baja resolución y seleccionar adaptativamente regiones de interés clave para su análisis en alta resolución, logrando así un rendimiento superior al estado del arte con un costo computacional reducido.

Artur Xarles, Sergio Escalera, Thomas B. Moeslund + 1 more2026-02-26💻 cs

WeatherCity: Urban Scene Reconstruction with Controllable Multi-Weather Transformation

WeatherCity es un marco innovador para la reconstrucción de escenas urbanas 4D que permite la transformación controlada y de alta fidelidad a múltiples condiciones climáticas mediante una representación gaussiana especializada y un modelo físico dinámico, superando las limitaciones de los métodos existentes para aplicaciones en conducción autónoma.

Wenhua Wu, Huai Guan, Zhe Liu + 1 more2026-02-26💻 cs

Brain3D: Brain Report Automation via Inflated Vision Transformers in 3D

El artículo presenta Brain3D, un marco de visión-linguaje en tres etapas que adapta un codificador médico 2D preentrenado a una arquitectura 3D nativa para generar informes radiológicos automatizados y precisos de tumores cerebrales, superando significativamente a los enfoques basados en 2D en métricas clínicas y especificidad.

Mariano Barone, Francesco Di Serio, Giuseppe Riccio + 4 more2026-02-26💻 cs

GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

El artículo presenta GeoDiv, un marco innovador que utiliza modelos de lenguaje y visión para cuantificar la diversidad geográfica en imágenes generadas por IA, revelando sesgos sistemáticos que retratan desproporcionadamente a países como India, Nigeria y Colombia en condiciones de pobreza y deterioro.

Abhipsa Basu, Mohana Singh, Shashank Agnihotri + 2 more2026-02-26💻 cs

Lumosaic: Hyperspectral Video via Active Illumination and Coded-Exposure Pixels

Lumosaic es un sistema compacto de video hiperespectral activo que sincroniza una matriz de LEDs de banda estrecha con una cámara de exposición codificada por píxel para capturar escenas dinámicas en tiempo real, logrando una reconstrucción de video hiperespectral de 31 canales con mayor fidelidad espectral y estabilidad temporal que los sistemas pasivos existentes.

Dhruv Verma, Andrew Qiu, Roberto Rangel + 8 more2026-02-26⚡ eess

WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs

WeaveTime es un marco eficiente y agnóstico al modelo que mejora la capacidad de los VideoLLMs para el procesamiento en streaming mediante la inculcación de representaciones conscientes del orden temporal y un mecanismo de recuperación dinámica que distingue entre observaciones presentes e historia acumulada, resolviendo así la ceguera temporal y la ambigüedad en secuencias causales.

Yulin Zhang, Cheng Shi, Sibei Yang2026-02-26💻 cs

MedTri: A Platform for Structured Medical Report Normalization to Enhance Vision-Language Pretraining

El artículo presenta MedTri, un marco de normalización que convierte los informes médicos en tripletas estructuradas basadas en la anatomía para mejorar la calidad, robustez y generalización del preentrenamiento visión-lenguaje en radiología.

Yuetan Chu, Xinhua Ma, Xinran Jin + 2 more2026-02-26💻 cs

NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

El artículo presenta NoLan, un marco de inferencia sin entrenamiento que mitiga las alucinaciones de objetos en modelos de visión y lenguaje grandes al suprimir dinámicamente los priores del lenguaje del decodificador, logrando mejoras significativas en la precisión sin necesidad de reentrenamiento.

Lingfeng Ren, Weihao Yu, Runpeng Yu + 1 more2026-02-26💬 cs.CL

CASR: A Robust Cyclic Framework for Arbitrary Large-Scale Super-Resolution with Distribution Alignment and Self-Similarity Awareness

El artículo presenta CASR, un marco cíclico eficiente que aborda la superresolución a escala arbitraria mediante la reformulación de la magnificación extrema como una secuencia de transiciones de escala dentro de la distribución, utilizando los módulos SDAM y SARM para alinear las distribuciones estructurales y restaurar la consistencia de las texturas, lo que garantiza una inferencia estable y generalización superior incluso en escalas extremas.

Wenhao Guo, Zhaoran Zhao, Peng Lu + 3 more2026-02-26💻 cs

Mixed Magnification Aggregation for Generalizable Region-Level Representations in Computational Pathology

Este artículo propone un codificador de agregación a nivel de región que fusiona representaciones de múltiples aumentos mediante un preentrenamiento con modelado de enmascaramiento, logrando mejoras en la predicción de biomarcadores al capturar mejor el contexto espacial en la patología computacional.

Eric Zimmermann, Julian Viret, Michal Zelechowski + 7 more2026-02-26💻 cs

Off-The-Shelf Image-to-Image Models Are All You Need To Defeat Image Protection Schemes

Este trabajo demuestra que los modelos de generación de imágenes de uso general pueden reutilizarse mediante simples indicaciones de texto para eliminar eficazmente diversas perturbaciones protectoras, superando a los ataques especializados y revelando una vulnerabilidad crítica en los esquemas actuales de protección de imágenes.

Xavier Pleimling, Sifat Muhammad Abdullah, Gunjan Balde + 4 more2026-02-26🤖 cs.AI

WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

El artículo presenta WHOLE, un método que reconstruye holísticamente el movimiento de la mano y el objeto en el espacio mundial a partir de videos egocéntricos mediante un prior generativo que razona conjuntamente sobre sus interacciones, superando así a los enfoques que tratan ambos elementos por separado.

Yufei Ye, Jiaman Li, Ryan Rong + 1 more2026-02-26💻 cs

Towards Attributions of Input Variables in a Coalition

Este artículo aborda el desafío de particionar variables de entrada en métodos de atribución para IA explicable mediante el análisis de interacciones lógicas y la extensión del valor de Shapley, proponiendo nuevas métricas para evaluar la fidelidad de las coaliciones y resolver conflictos de atribución validados en diversos dominios.

Xinhao Zheng, Huiqi Deng, Quanshi Zhang2026-02-25🤖 cs.AI

← Anterior Siguiente →