SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking

El artículo presenta SiamGM, una red siamesa innovadora que combina atención gráfica intercuadro y optimización guiada por vectores de movimiento para lograr un seguimiento de objetos en tiempo real (130 FPS) en videos satelitales, superando a los métodos actuales al mitigar eficazmente desafíos como objetivos pequeños, cambios de aspecto y oclusiones sin añadir sobrecarga computacional.

Zixiao Wen, Zhen Yang, Jiawei Li, Xiantai Xiang, Guangyao Zhou, Yuxin Hu, Yuhan Liu2026-03-10💻 cs

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

El paper propone GRD-Net, una arquitectura que combina una red generativa adversarial con un módulo de atención a regiones de interés para detectar y localizar anomalías en inspecciones visuales industriales, aprendiendo tanto de productos defectuosos sintéticos como de datos reales sin depender de algoritmos de post-procesamiento sesgados.

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

Este artículo presenta un modelo eficiente de comprensión de escenas RGB-D que utiliza un codificador de fusión mejorado, capas de atención adaptativa y una función de pérdida multi-tarea dinámica para superar limitaciones como oclusiones y bordes ambiguos, logrando un rendimiento superior en múltiples tareas de segmentación y clasificación en comparación con métodos existentes.

Guodong Sun, Junjie Liu, Gaoyang Zhang, Bo Wu, Yang Zhang2026-03-10💻 cs

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Este artículo presenta una comparación sistemática de cuatro objetivos de entrenamiento para la detección de distribuciones fuera de contexto en clasificación de imágenes, revelando que la Pérdida de Entropía Cruzada ofrece el rendimiento más consistente tanto en distribuciones cercanas como lejanas en comparación con las pérdidas de prototipo, tripletas y precisión promedio.

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

Este artículo presenta un marco de detección de anomalías semisupervisado basado en una arquitectura generativa adversarial con autoencoder residual, diseñado para inspección visual en línea de producción farmacéutica de alta velocidad que logra un alto rendimiento de detección y localización espacial dentro de las estrictas restricciones de tiempo y hardware.

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints

El artículo presenta StructAttack, un marco de ataque de una sola consulta que explota la vulnerabilidad de los modelos de visión y lenguaje grandes al ensamblar contenido malicioso a partir de bloques semánticos benignos dispuestos en estructuras visuales, logrando así eludir los mecanismos de seguridad en entornos de caja negra.

Chenxi Li, Xianggan Liu, Dake Shen, Yaosong Du, Zhibo Yao, Hao Jiang, Linyi Jiang, Chengwei Cao, Jingzhe Zhang, RanYi Peng, Peiling Bai, Xiande Huang2026-03-10🤖 cs.LG

Fast Attention-Based Simplification of LiDAR Point Clouds for Object Detection and Classification

Este artículo presenta un método de simplificación de nubes de puntos LiDAR basado en atención que, al combinar incrustación de características y muestreo aprendido, logra un equilibrio superior entre velocidad y precisión en tareas de detección y clasificación de objetos en comparación con técnicas tradicionales como el muestreo aleatorio y el muestreo del punto más lejano.

Z. Rozsa, Á. Madaras, Q. Wei, X. Lu, M. Golarits, H. Yuan, T. Sziranyi, R. Hamzaoui2026-03-10💻 cs

EmbedTalk: Triplane-Free Talking Head Synthesis using Embedding-Driven Gaussian Deformation

El artículo presenta EmbedTalk, un método de síntesis de cabezas parlantes que elimina las triplanas en favor de deformaciones impulsadas por incrustaciones aprendidas, logrando una mayor calidad de renderizado, sincronización labial y consistencia de movimiento con modelos más compactos que superan los 60 FPS en GPUs móviles.

Arpita Saggar, Jonathan C. Darling, Duygu Sarikaya, David C. Hogg2026-03-10💻 cs

Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

Este trabajo presenta un nuevo marco de representación visual implícita que codifica señales como funciones parametrizadas por adaptaciones de bajo rango en modelos generativos congelados, logrando una compresión de video perceptual de alta calidad a tasas de bits extremadamente bajas y estableciendo un puente unificado entre la compresión y la generación visual.

Jiajun He, Zongyu Guo, Zhaoyang Jia, Xiaoyi Zhang, Jiahao Li, Xiao Li, Bin Li, José Miguel Hernández-Lobato, Yan Lu2026-03-10🤖 cs.LG

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

El artículo demuestra que las alucinaciones en los modelos de visión y lenguaje surgen de un proceso de "sobreanálisis" donde las hipótesis erróneas se propagan a través de las capas internas, y propone el "Overthinking Score" como una métrica basada en la dinámica de estas capas para detectarlas con mayor precisión que los métodos tradicionales.

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan2026-03-10💻 cs

Real-Time Glottis Detection Framework via Spatial-decoupled Feature Learning for Nasal Transnasal Intubation

Este artículo presenta Mobile GlottisNet, un marco de detección de glotis ligero y eficiente diseñado para la inferencia en tiempo real en dispositivos embebidos, que utiliza mecanismos de aprendizaje de características desacopladas espacialmente para superar las limitaciones de latencia y recursos en la intubación nasotraqueal de emergencia.

Jinyu Liu, Gaoyang Zhang, Yang Zhou, Ruoyi Hao, Yang Zhang, Hongliang Ren2026-03-10💻 cs

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

Este artículo presenta una tubería de generación de datos sintéticos basada en un gemelo digital del Aeropuerto Internacional de Argel para entrenar un detector YOLO-OBB, demostrando que la combinación de estos datos con solo el 40% de las anotaciones reales iguala o supera el rendimiento de un modelo entrenado exclusivamente con datos reales completos, reduciendo así el esfuerzo de anotación entre un 25% y un 35%.

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

El artículo presenta AtomicVLA, un marco unificado de planificación y ejecución que utiliza una biblioteca de habilidades atómicas y un mecanismo de expertos guiado por habilidades para superar las limitaciones de escalabilidad y aprendizaje continuo de los modelos VLA existentes en tareas robóticas de largo horizonte.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

El artículo presenta Holi-Spatial, el primer conjunto de datos multimodal a gran escala y totalmente automatizado que evoluciona flujos de video en inteligencia espacial 3D holística mediante una tubería de curación de datos sin intervención humana, logrando mejoras significativas en la calidad de los datos y el rendimiento de los modelos de visión-lingüística en tareas de razonamiento espacial.

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong2026-03-10💻 cs