AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

El AgrI Challenge es una competencia centrada en los datos que introduce el paradigma de Validación Inter-Equipos (CTV) para demostrar que el entrenamiento colaborativo con conjuntos de datos heterogéneos recolectados independientemente mejora significativamente la generalización de los modelos de visión agrícola frente a los cambios de distribución, superando las limitaciones de los enfoques tradicionales basados en un solo origen de datos.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Este trabajo aborda la falta de conjuntos de datos de imágenes dentales individuales con descripciones integrales mediante la propuesta y evaluación de un marco basado en modelos de visión-idioma que utiliza prompts guiados para generar descripciones precisas y visualmente fundamentadas de dientes únicos en imágenes RGB.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

El artículo presenta UnSCAR, un marco de restauración de imágenes universal y escalable que utiliza una arquitectura de expertos mixtos con múltiples ramas para superar las limitaciones de interferencia y olvido catastrófico en la recuperación de imágenes bajo múltiples degradaciones, permitiendo un aprendizaje estable, una generalización robusta y un control adaptable para el usuario.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

QdaVPR: A novel query-based domain-agnostic model for visual place recognition

El artículo presenta QdaVPR, un modelo novedoso basado en consultas para el reconocimiento visual de lugares que logra un rendimiento de vanguardia en diversos escenarios con variaciones de dominio mediante un marco de aprendizaje adversarial dual y supervisión por tripletas, apoyado en datos sintéticos generados por transferencia de estilo.

Shanshan Wan, Lai Kang, Yingmei Wei, Tianrui Shen, Haixuan Wang, Chao Zuo2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

Este trabajo presenta un nuevo marco de aprendizaje por refuerzo y el benchmark AndroidWorld-Generalization para evaluar y mejorar la capacidad de generalización de agentes móviles basados en modelos de lenguaje y visión, demostrando que el entrenamiento con RL supera a los métodos supervisados en tareas no vistas, aunque la generalización a nuevas aplicaciones sigue siendo un desafío.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

El artículo presenta "Data Agent", un marco de selección de datos dinámico y de extremo a extremo que trata la selección como un problema de toma de decisiones secuencial consciente del entrenamiento, logrando acelerar significativamente el proceso de aprendizaje y reducir los costos en más del 50% sin sacrificar el rendimiento en diversas tareas y arquitecturas.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

El artículo presenta RPG-SAM, un marco de segmentación de pólipos en un solo disparo sin entrenamiento que aborda la heterogeneidad regional y de respuesta mediante la minería de prototipos ponderados por fiabilidad y la selección geométrica adaptativa, logrando una mejora del 5,56 % en mIoU en el conjunto de datos Kvasir.

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

El artículo presenta DogWeave, un marco basado en modelos que reconstruye caninos 3D de alta fidelidad a partir de una sola imagen RGB mediante la optimización de campos normales mejorados por difusión y la generación de texturas coherentes mediante inpainting condicional, superando a los métodos actuales en precisión geométrica y realismo textural.

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

Med-Evo es un marco de autoevolución en tiempo de prueba para modelos de lenguaje grandes multimodales médicos que mejora el rendimiento sin datos etiquetados adicionales mediante el aprendizaje por refuerzo sin etiquetas, utilizando etiquetado pseudo impulsado por características y una recompensa híbrida dura-blanda para generar señales de supervisión fiables a partir de datos de prueba no etiquetados.

Dunyuan Xu, Xikai Yang, Juzheng Miao, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng2026-03-10💻 cs

Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection

El artículo presenta MonoSTL, un enfoque de aprendizaje selectivo que mitiga el problema de la transferencia negativa en la detección 3D monocular mediante la alineación arquitectónica y dos nuevos módulos de destilación que integran la incertidumbre de profundidad para transferir eficazmente información de LiDAR a redes basadas en imágenes, logrando así el estado del arte en los conjuntos de datos KITTI y NuScenes.

Rui Ding, Meng Yang, Nanning Zheng2026-03-10💻 cs

Classifying Novel 3D-Printed Objects without Retraining: Towards Post-Production Automation in Additive Manufacturing

Este artículo presenta ThingiPrint, un nuevo conjunto de datos que empareja modelos CAD con fotografías reales de objetos impresos en 3D, y demuestra que un enfoque de clasificación basado en prototipos con ajuste fino contrastivo permite identificar objetos impresos en 3D sin necesidad de reentrenamiento, superando a las líneas base estándar y facilitando la automatización postproducción en la fabricación aditiva.

Fanis Mathioulakis, Gorjan Radevski, Silke GC Cleuren, Michel Janssens, Brecht Das, Koen Schauwaert, Tinne Tuytelaars2026-03-10💻 cs