TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

El artículo presenta TALON, un marco de aprendizaje adaptativo en tiempo de prueba que supera las limitaciones de los métodos basados en hash para el descubrimiento de categorías al vuelo mediante la actualización dinámica de prototipos semánticos y del codificador, logrando así un mejor rendimiento en la precisión de nuevas clases y mitigando la explosión de categorías.

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

El artículo presenta DSH-Bench, un nuevo benchmark integral para la generación de imágenes basada en texto impulsada por sujetos que supera las limitaciones de evaluaciones anteriores mediante una taxonomía jerárquica de 58 categorías, una clasificación detallada de dificultad y escenarios, y una nueva métrica de consistencia de identidad (SICS) para ofrecer diagnósticos precisos y guiar el desarrollo futuro de modelos.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

El artículo presenta SAMoE-VLA, un modelo de visión-lenguaje-acción para la conducción autónoma que mejora la estabilidad y el rendimiento al adaptar la selección de expertos a representaciones estructuradas de la escena en lugar de a tokens individuales, logrando así un estado del arte en benchmarks de planificación.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

El artículo presenta MV-Fashion, un conjunto de datos de video multivista a gran escala con anotaciones detalladas y datos emparejados de prendas usadas y planas, diseñado para superar las limitaciones de los datos existentes y habilitar tareas avanzadas de moda como el probador virtual y la estimación de tallas.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

El artículo presenta Edged USLAM, un sistema híbrido de localización y mapeo simultáneo (SLAM) visual-inercial que combina un frente de atención a bordes y un módulo de profundidad basado en aprendizaje para superar las limitaciones de las cámaras de eventos en condiciones de iluminación extrema y movimiento rápido, demostrando una mayor estabilidad y precisión en misiones de UAV en comparación con métodos puramente basados en eventos o aprendizaje.

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

El artículo presenta MERLIN, un marco de entrenamiento innovador respaldado por el dataset EM-100k y el benchmark EM-Bench, diseñado para superar la escasez de datos y la fragilidad en entornos de baja relación señal-ruido, logrando así el estado del arte en modelos de lenguaje multimodal robustos para señales electromagnéticas.

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

El artículo presenta ALOOD, un método innovador que aprovecha las representaciones lingüísticas de modelos visión-lenguaje para convertir la detección de objetos fuera de distribución en LiDAR en una tarea de clasificación zero-shot, mejorando así la seguridad en la conducción autónoma al reducir las predicciones incorrectas de objetos desconocidos.

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Este estudio presenta dos estrategias de fusión multimodal, RGIF y RGMAF, que combinan el registro de imágenes con mecanismos de atención adaptativa para mejorar significativamente la detección de vehículos aéreos no tripulados (UAV) al integrar datos heterogéneos de sensores térmicos y visuales.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

El artículo presenta Video2LoRA, un marco escalable y generalizable que utiliza hiperredes ligeras para generar pesos LoRA personalizados a partir de videos de referencia, permitiendo una generación de video semánticamente alineada y eficiente (con un modelo final de menos de 150 MB) sin necesidad de entrenamiento por condición.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs