PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning

El artículo presenta PanoEnv, un nuevo benchmark de preguntas y respuestas sobre entornos panorámicos 3D y un marco de aprendizaje por refuerzo basado en GRPO con un currículo de dos etapas, que mejora significativamente la inteligencia espacial 3D de los modelos de lenguaje visuales, logrando un rendimiento superior al de modelos mucho más grandes en tareas de razonamiento espacial.

Zekai Lin, Xu Zheng2026-02-26💻 cs

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Los autores proponen RT-RMOT, una nueva tarea de seguimiento de múltiples objetos referenciados que fusiona datos RGB y térmicos, presentando el primer conjunto de datos multimodal (RefRT) y un marco basado en modelos de lenguaje grandes (RTrack) optimizado con estrategias de aprendizaje por refuerzo para lograr un seguimiento robusto en condiciones de baja visibilidad.

Yanqiu Yu, Zhifan Jin, Sijia Chen + 4 more2026-02-26💻 cs

WeatherCity: Urban Scene Reconstruction with Controllable Multi-Weather Transformation

WeatherCity es un marco innovador para la reconstrucción de escenas urbanas 4D que permite la transformación controlada y de alta fidelidad a múltiples condiciones climáticas mediante una representación gaussiana especializada y un modelo físico dinámico, superando las limitaciones de los métodos existentes para aplicaciones en conducción autónoma.

Wenhua Wu, Huai Guan, Zhe Liu + 1 more2026-02-26💻 cs

Lumosaic: Hyperspectral Video via Active Illumination and Coded-Exposure Pixels

Lumosaic es un sistema compacto de video hiperespectral activo que sincroniza una matriz de LEDs de banda estrecha con una cámara de exposición codificada por píxel para capturar escenas dinámicas en tiempo real, logrando una reconstrucción de video hiperespectral de 31 canales con mayor fidelidad espectral y estabilidad temporal que los sistemas pasivos existentes.

Dhruv Verma, Andrew Qiu, Roberto Rangel + 8 more2026-02-26⚡ eess

WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs

WeaveTime es un marco eficiente y agnóstico al modelo que mejora la capacidad de los VideoLLMs para el procesamiento en streaming mediante la inculcación de representaciones conscientes del orden temporal y un mecanismo de recuperación dinámica que distingue entre observaciones presentes e historia acumulada, resolviendo así la ceguera temporal y la ambigüedad en secuencias causales.

Yulin Zhang, Cheng Shi, Sibei Yang2026-02-26💻 cs

CASR: A Robust Cyclic Framework for Arbitrary Large-Scale Super-Resolution with Distribution Alignment and Self-Similarity Awareness

El artículo presenta CASR, un marco cíclico eficiente que aborda la superresolución a escala arbitraria mediante la reformulación de la magnificación extrema como una secuencia de transiciones de escala dentro de la distribución, utilizando los módulos SDAM y SARM para alinear las distribuciones estructurales y restaurar la consistencia de las texturas, lo que garantiza una inferencia estable y generalización superior incluso en escalas extremas.

Wenhao Guo, Zhaoran Zhao, Peng Lu + 3 more2026-02-26💻 cs

Off-The-Shelf Image-to-Image Models Are All You Need To Defeat Image Protection Schemes

Este trabajo demuestra que los modelos de generación de imágenes de uso general pueden reutilizarse mediante simples indicaciones de texto para eliminar eficazmente diversas perturbaciones protectoras, superando a los ataques especializados y revelando una vulnerabilidad crítica en los esquemas actuales de protección de imágenes.

Xavier Pleimling, Sifat Muhammad Abdullah, Gunjan Balde + 4 more2026-02-26🤖 cs.AI