Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

El artículo presenta Wiki-R1, un marco de aprendizaje por refuerzo basado en un currículo de generación de datos y muestreo que incentiva el razonamiento multimodal para la VQA basada en conocimiento, logrando nuevos resultados de vanguardia en los benchmarks Encyclopedic VQA e InfoSeek al cerrar la brecha entre el preentrenamiento y la distribución objetivo.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Este estudio demuestra que el rendimiento óptimo en la detección de cambios de distribución en Vision Transformers se logra combinando el análisis de capas intermedias y módulos específicos, donde la red feedforward es superior ante grandes desplazamientos de distribución y la atención multi-cabeza normalizada lo es ante desplazamientos débiles.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

El artículo presenta WebChain, el conjunto de datos de código abierto más grande de trazas de interacción web anotadas por humanos, diseñado para acelerar la investigación reproducible en agentes web mediante un enfoque de alineación triple y una estrategia de entrenamiento dual que logra un rendimiento superior en benchmarks de interfaces gráficas.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

El artículo presenta Fusion4CA, un método que mejora la detección 3D de objetos al explotar exhaustivamente la información visual mediante módulos de alineación contrastiva, una rama auxiliar de cámara y adaptadores cognitivos, logrando un rendimiento superior al estado del arte en el conjunto de datos nuScenes y en entornos lunares simulados con un aumento mínimo de parámetros.

Kang Luo, Xin Chen, Yangyi Xiao + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Este trabajo presenta ORMOT, una nueva tarea de seguimiento multiobjeto referencial omnidireccional, junto con el conjunto de datos ORSet y el marco ORTrack basado en modelos de visión-lingüística a gran escala, para superar las limitaciones del campo de visión de las cámaras convencionales y mejorar el seguimiento de objetos descritos por lenguaje en entornos panorámicos.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

El artículo presenta MobileFetalCLIP, un modelo de aprendizaje profundo ligero que utiliza una nueva técnica de destilación de conocimiento repulsivo selectivo para superar las limitaciones de capacidad de los modelos fundacionales, logrando un rendimiento superior en el análisis de ultrasonidos fetales en dispositivos móviles de bajo costo.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

Este artículo presenta el programador Longest Stable Prefix (LSP), un método de inferencia sin entrenamiento que acelera hasta 3,4 veces la generación de texto en Modelos de Lenguaje de Difusión al reemplazar la aceptación fragmentada de tokens por la absorción monolítica de prefijos estables, optimizando así la localidad de la memoria y reduciendo los llamados al modelo sin comprometer la calidad.

Pengxiang Li, Joey Tsai, Hongwei Xue + 2 more2026-03-06💻 cs

EdgeDAM: Real-time Object Tracking for Mobile Devices

El artículo presenta EdgeDAM, un marco de seguimiento de objetos ligero y en tiempo real para dispositivos móviles que mejora la robustez ante oclusiones y distractores mediante una memoria de distractor consciente de doble búfer y un mecanismo de estabilización de caja retenida, logrando un alto rendimiento en benchmarks como DiDi y en hardware como el iPhone 15.

Syed Muhammad Raza, Syed Murtaza Hussain Abidi, Khawar Islam + 2 more2026-03-06💻 cs