UniPAR: A Unified Framework for Pedestrian Attribute Recognition

El artículo presenta UniPAR, un marco unificado basado en Transformers que supera las limitaciones de los enfoques actuales al permitir que un único modelo procese simultáneamente datos heterogéneos (RGB, video y flujos de eventos) de múltiples conjuntos de datos, logrando un rendimiento comparable al estado del arte y una mayor robustez en entornos extremos mediante una estrategia de fusión profunda tardía.

Minghe Xu, Rouying Wu, Jiarui Xu + 5 more2026-03-06🤖 cs.AI

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Este artículo propone un marco de inferencia adaptativa para modelos de visión-lenguaje-acción que, inspirado en la cognición humana, clasifica dinámicamente la complejidad de la tarea mediante un detector basado en visión para decidir cuándo actuar, razonar o abstenerse, logrando así una asignación eficiente de recursos y una mayor seguridad operativa.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

Este trabajo presenta el marco SCDL, un módulo plug-and-play que mitiga los sesgos de supervisión y representación en la segmentación semisupervisada de imágenes médicas mediante el aprendizaje de distribuciones de características condicionales a la clase, logrando mejoras significativas en el rendimiento, especialmente para clases minoritarias, en los conjuntos de datos Synapse y AMOS.

Yingxue Su, Yiheng Zhong, Keying Zhu + 5 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

El artículo presenta SPyCer, una red neuronal semi-supervisada y guiada por principios físicos que utiliza imágenes satelitales y modelos de balance energético para estimar con mayor precisión y coherencia espacial la temperatura del aire cerca de la superficie, superando las limitaciones de las redes de sensores terrestres dispersos.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Este trabajo presenta un sistema robótico de clasificación textil impulsado por gemelos digitales que integra percepción multimodal y modelos de lenguaje visual para la detección de objetos extraños y la clasificación de prendas en entornos industriales automatizados, demostrando la viabilidad de esta tecnología mediante la evaluación de nueve modelos VLM en escenarios reales.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

El artículo presenta ICHOR, un enfoque de aprendizaje auto-supervisado basado en autoencoders enmascarados que utiliza un vasto conjunto de datos de imágenes ASL para generar representaciones robustas y generalizables que superan a los métodos existentes en tareas de clasificación diagnóstica y predicción de calidad de mapas de flujo sanguíneo cerebral.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

El artículo presenta Wiki-R1, un marco de aprendizaje por refuerzo basado en un currículo de generación de datos y muestreo que incentiva el razonamiento multimodal para la VQA basada en conocimiento, logrando nuevos resultados de vanguardia en los benchmarks Encyclopedic VQA e InfoSeek al cerrar la brecha entre el preentrenamiento y la distribución objetivo.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Este estudio demuestra que el rendimiento óptimo en la detección de cambios de distribución en Vision Transformers se logra combinando el análisis de capas intermedias y módulos específicos, donde la red feedforward es superior ante grandes desplazamientos de distribución y la atención multi-cabeza normalizada lo es ante desplazamientos débiles.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

El artículo presenta WebChain, el conjunto de datos de código abierto más grande de trazas de interacción web anotadas por humanos, diseñado para acelerar la investigación reproducible en agentes web mediante un enfoque de alineación triple y una estrategia de entrenamiento dual que logra un rendimiento superior en benchmarks de interfaces gráficas.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

El artículo presenta Fusion4CA, un método que mejora la detección 3D de objetos al explotar exhaustivamente la información visual mediante módulos de alineación contrastiva, una rama auxiliar de cámara y adaptadores cognitivos, logrando un rendimiento superior al estado del arte en el conjunto de datos nuScenes y en entornos lunares simulados con un aumento mínimo de parámetros.

Kang Luo, Xin Chen, Yangyi Xiao + 1 more2026-03-06💻 cs