Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory

El artículo presenta MemStream, un enfoque que escala el presupuesto de tokens y utiliza una estrategia de selección adaptativa junto con un sistema de expertos de mezcla sin entrenamiento para mejorar la comprensión de videos en streaming y el razonamiento en preguntas y respuestas (VQA), logrando mejoras significativas en benchmarks como CG-Bench, LVBench y VideoMME.

Vatsal Agarwal, Saksham Suri, Matthew Gwilliam + 2 more2026-02-23💻 cs

GRIHA: Synthesizing 2-Dimensional Building Layouts from Images Captured using a Smart Phone

El artículo presenta GRIHA, un marco de trabajo eficiente que genera planos de planta 2D de interiores utilizando únicamente imágenes RGB capturadas con teléfonos inteligentes y tecnología SLAM integrada (ARCore), superando así las limitaciones de hardware especializado y la necesidad de imágenes panorámicas sin oclusiones de los métodos existentes.

Shreya Goyal, Naimul Khan, Chiranjoy Chattopadhyay + 1 more2026-02-20💻 cs

Neural Point-based Volumetric Avatar: Surface-guided Neural Points for Efficient and Photorealistic Volumetric Head Avatar

Este artículo presenta {\name}, un método que utiliza puntos neuronales guiados por la superficie y mapeo UV de alta resolución para generar avatares volumétricos de cabeza fotorrealistas y dinámicos, superando las limitaciones de las técnicas anteriores en regiones faciales complejas y estructuras delgadas mediante innovaciones que mejoran la eficiencia de entrenamiento y renderizado.

Cong Wang, Di Kang, Yan-Pei Cao + 3 more2026-02-20💻 cs

Improved Single Camera BEV Perception Using Multi-Camera Training

Este artículo presenta un método de percepción BEV para inferencia con una sola cámara que, mediante el uso de una máscara moderna, un ciclo de tasa de aprendizaje y una pérdida de reconstrucción de características durante el entrenamiento con múltiples cámaras, supera el rendimiento de los modelos entrenados exclusivamente con una o seis cámaras, reduciendo las alucinaciones y mejorando la calidad del mapa.

Daniel Busch, Ido Freeman, Richard Meyes + 1 more2026-02-20💻 cs

Unlocking [CLS] Features for Continual Post-Training

Este artículo presenta TOSCA, un método de ajuste fino post-entrenamiento que utiliza módulos LuCA dispersos a nivel de token en el token [CLS] para lograr un equilibrio óptimo entre estabilidad y plasticidad en el aprendizaje continuo, logrando un rendimiento superior con una reducción de parámetros de aproximadamente 8 veces en comparación con métodos anteriores.

Murat Onur Yildirim, Elif Ceren Gok Yildirim, Joaquin Vanschoren2026-02-20🤖 cs.LG

Demographic-aware fine-grained visual recognition of pediatric wrist pathologies

Este artículo propone un modelo híbrido de convolución-transformer consciente de la demografía, que combina radiografías de muñeca con la edad y el sexo del paciente mediante enmascaramiento progresivo de metadatos, para mejorar el reconocimiento de patologías pediátricas al abordar la variabilidad anatómica normal y demostrar que la inicialización con preentrenamiento en datos de granularidad fina supera a los enfoques tradicionales.

Ammar Ahmed, Ali Shariq Imran, Zenun Kastrati + 1 more2026-02-20🤖 cs.AI