Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Este trabajo presenta un modelo de mundo de video centrado en el humano que utiliza la generación de video interactiva con control de manos y cámara para crear entornos virtuales inmersivos que responden al movimiento real del usuario, demostrando una mayor percepción de control y rendimiento en tareas en comparación con métodos anteriores.

Linxi Xie, Lisong C. Sun, Ashley Neall + 3 more2026-02-23💻 cs

Spatio-Spectroscopic Representation Learning using Unsupervised Convolutional Long-Short Term Memory Networks

Este trabajo presenta un marco de aprendizaje profundo no supervisado basado en redes neuronales convolutivas de memoria a corto y largo plazo (ConvLSTM) para extraer representaciones de características espaciales y espectroscópicas de aproximadamente 9000 galaxias del sondeo MaNGA, demostrando su eficacia al identificar características científicamente relevantes en una muestra de núcleos galácticos activos (AGN).

Kameswara Bharadwaj Mantha, Lucy Fortson, Ramanakumar Sankar + 8 more2026-02-23🔭 astro-ph

The Geometry of Noise: Why Diffusion Models Don't Need Noise Conditioning

Este artículo resuelve la paradoja de los modelos generativos autónomos al demostrar que su estabilidad se logra mediante un flujo de gradiente riemanniano sobre una Energía Marginal, donde un campo vectorial invariante en el tiempo incorpora implícitamente una métrica conforme que contrarresta las singularidades geométricas, evitando así el colapso catastrófico asociado a las parametrizaciones de predicción de ruido.

Mojtaba Sahraee-Ardakan, Mauricio Delbracio, Peyman Milanfar2026-02-23⚡ eess

Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory

El artículo presenta MemStream, un enfoque que escala el presupuesto de tokens y utiliza una estrategia de selección adaptativa junto con un sistema de expertos de mezcla sin entrenamiento para mejorar la comprensión de videos en streaming y el razonamiento en preguntas y respuestas (VQA), logrando mejoras significativas en benchmarks como CG-Bench, LVBench y VideoMME.

Vatsal Agarwal, Saksham Suri, Matthew Gwilliam + 2 more2026-02-23💻 cs

GRIHA: Synthesizing 2-Dimensional Building Layouts from Images Captured using a Smart Phone

El artículo presenta GRIHA, un marco de trabajo eficiente que genera planos de planta 2D de interiores utilizando únicamente imágenes RGB capturadas con teléfonos inteligentes y tecnología SLAM integrada (ARCore), superando así las limitaciones de hardware especializado y la necesidad de imágenes panorámicas sin oclusiones de los métodos existentes.

Shreya Goyal, Naimul Khan, Chiranjoy Chattopadhyay + 1 more2026-02-20💻 cs

Neural Point-based Volumetric Avatar: Surface-guided Neural Points for Efficient and Photorealistic Volumetric Head Avatar

Este artículo presenta {\name}, un método que utiliza puntos neuronales guiados por la superficie y mapeo UV de alta resolución para generar avatares volumétricos de cabeza fotorrealistas y dinámicos, superando las limitaciones de las técnicas anteriores en regiones faciales complejas y estructuras delgadas mediante innovaciones que mejoran la eficiencia de entrenamiento y renderizado.

Cong Wang, Di Kang, Yan-Pei Cao + 3 more2026-02-20💻 cs

Improved Single Camera BEV Perception Using Multi-Camera Training

Este artículo presenta un método de percepción BEV para inferencia con una sola cámara que, mediante el uso de una máscara moderna, un ciclo de tasa de aprendizaje y una pérdida de reconstrucción de características durante el entrenamiento con múltiples cámaras, supera el rendimiento de los modelos entrenados exclusivamente con una o seis cámaras, reduciendo las alucinaciones y mejorando la calidad del mapa.

Daniel Busch, Ido Freeman, Richard Meyes + 1 more2026-02-20💻 cs

Unlocking [CLS] Features for Continual Post-Training

Este artículo presenta TOSCA, un método de ajuste fino post-entrenamiento que utiliza módulos LuCA dispersos a nivel de token en el token [CLS] para lograr un equilibrio óptimo entre estabilidad y plasticidad en el aprendizaje continuo, logrando un rendimiento superior con una reducción de parámetros de aproximadamente 8 veces en comparación con métodos anteriores.

Murat Onur Yildirim, Elif Ceren Gok Yildirim, Joaquin Vanschoren2026-02-20🤖 cs.LG

Demographic-aware fine-grained visual recognition of pediatric wrist pathologies

Este artículo propone un modelo híbrido de convolución-transformer consciente de la demografía, que combina radiografías de muñeca con la edad y el sexo del paciente mediante enmascaramiento progresivo de metadatos, para mejorar el reconocimiento de patologías pediátricas al abordar la variabilidad anatómica normal y demostrar que la inicialización con preentrenamiento en datos de granularidad fina supera a los enfoques tradicionales.

Ammar Ahmed, Ali Shariq Imran, Zenun Kastrati + 1 more2026-02-20🤖 cs.AI