Improved Single Camera BEV Perception Using Multi-Camera Training

Este artículo presenta un método de percepción BEV para inferencia con una sola cámara que, mediante el uso de una máscara moderna, un ciclo de tasa de aprendizaje y una pérdida de reconstrucción de características durante el entrenamiento con múltiples cámaras, supera el rendimiento de los modelos entrenados exclusivamente con una o seis cámaras, reduciendo las alucinaciones y mejorando la calidad del mapa.

Daniel Busch, Ido Freeman, Richard Meyes + 1 more2026-02-20💻 cs

Unlocking [CLS] Features for Continual Post-Training

Este artículo presenta TOSCA, un método de ajuste fino post-entrenamiento que utiliza módulos LuCA dispersos a nivel de token en el token [CLS] para lograr un equilibrio óptimo entre estabilidad y plasticidad en el aprendizaje continuo, logrando un rendimiento superior con una reducción de parámetros de aproximadamente 8 veces en comparación con métodos anteriores.

Murat Onur Yildirim, Elif Ceren Gok Yildirim, Joaquin Vanschoren2026-02-20🤖 cs.LG

Demographic-aware fine-grained visual recognition of pediatric wrist pathologies

Este artículo propone un modelo híbrido de convolución-transformer consciente de la demografía, que combina radiografías de muñeca con la edad y el sexo del paciente mediante enmascaramiento progresivo de metadatos, para mejorar el reconocimiento de patologías pediátricas al abordar la variabilidad anatómica normal y demostrar que la inicialización con preentrenamiento en datos de granularidad fina supera a los enfoques tradicionales.

Ammar Ahmed, Ali Shariq Imran, Zenun Kastrati + 1 more2026-02-20🤖 cs.AI

Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

Este trabajo presenta Bongard-RWR+, un conjunto de datos ampliado de 5.400 instancias que utiliza imágenes generadas por modelos de lenguaje visuales para representar conceptos abstractos de problemas Bongard en escenarios realistas, demostrando que, aunque los modelos actuales reconocen conceptos visuales generales, siguen teniendo dificultades significativas para discernir conceptos finos y realizar razonamiento abstracto.

Szymon Pawlonka, Mikołaj Małkiński, Jacek Mańdziuk2026-02-20🤖 cs.AI

Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model

El modelo Point Linguist (PLM) es un marco general que supera la desalineación entre los grandes modelos de lenguaje y las nubes de puntos 3D mediante la introducción de representaciones discriminativas centradas en objetos y un decodificador de reactivación geométrica, logrando así una segmentación de objetos precisa y robusta sin necesidad de pre-alineación a gran escala.

Zhuoxu Huang, Mingqi Gao, Jungong Han2026-02-20💻 cs