AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

L'AgrI Challenge introduit un cadre de compétition axé sur les données pour la vision agricole, où douze équipes collectent indépendamment des images d'arbres afin d'évaluer et d'améliorer la généralisation des modèles via une validation inter-équipes, démontrant ainsi que l'entraînement collaboratif multi-sources réduit considérablement les écarts de performance liés aux décalages de distribution.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Ce papier présente AQuA, un nouveau jeu de données et une méthode de fine-tuning qui permettent aux modèles vision-langage de classifier les ambiguïtés visuelles en quatre niveaux et d'adopter dynamiquement des stratégies de réponse adaptées, telles que la demande de clarification ou l'énumération d'alternatives, surpassant ainsi les modèles existants dans la gestion des questions visuelles ambiguës.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Cet article propose un cadre utilisant des modèles vision-langage pour générer des légendes spécifiques à une dent unique à partir d'images dentaires, comblant ainsi le manque de jeux de données holistiques nécessaires à l'analyse dentaire avancée.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

Le papier présente UnSCAR, une architecture unifiée à mélange d'experts qui surmonte les limitations d'interférence et d'oubli catastrophique des modèles de restauration d'images universels actuels, permettant ainsi une apprentissage évolutif, une adaptation robuste à des domaines inconnus et un contrôle utilisateur sur plus de seize types de dégradations.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

QdaVPR: A novel query-based domain-agnostic model for visual place recognition

Ce papier présente QdaVPR, un nouveau modèle de reconnaissance visuelle de lieu indépendant du domaine qui utilise un cadre d'apprentissage adversaire à double niveau et une supervision par triplet sur des données augmentées par transfert de style pour atteindre des performances de pointe face à des variations de domaine importantes.

Shanshan Wan, Lai Kang, Yingmei Wei, Tianrui Shen, Haixuan Wang, Chao Zuo2026-03-10💻 cs

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Le papier présente « Data Agent », un cadre de sélection de données dynamique et end-to-end qui apprend une politique de sélection adaptative guidée par des signaux de récompense combinant difficulté et incertitude, permettant d'accélérer l'entraînement tout en préservant les performances sur divers tâches et architectures.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

Le papier présente RPG-SAM, une méthode de segmentation polypique sans entraînement qui améliore les performances en traitant l'hétérogénéité régionale et de réponse via l'extraction de prototypes pondérés par la fiabilité et la sélection adaptative géométrique, obtenant ainsi une amélioration de 5,56 % du mIoU sur le jeu de données Kvasir.

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

Le papier présente DogWeave, un cadre de reconstruction 3D haute fidélité pour les chiens à partir d'une seule image RGB, qui améliore la géométrie grâce à l'optimisation de champs de normales renforcés par diffusion et génère des textures cohérentes via une inconditionnelle partielle guidée par la structure et le style.

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

Le papier présente Med-Evo, un cadre d'auto-évolution sans étiquettes pour les modèles de langage multimodaux médicaux qui améliore les performances en utilisant un apprentissage par renforcement basé sur l'étiquetage pseudo-features et une récompense hiérarchique, éliminant ainsi le besoin de données annotées supplémentaires.

Dunyuan Xu, Xikai Yang, Juzheng Miao, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng2026-03-10💻 cs

Classifying Novel 3D-Printed Objects without Retraining: Towards Post-Production Automation in Additive Manufacturing

Cet article présente ThingiPrint, un nouveau jeu de données associant modèles CAO et photographies d'objets imprimés en 3D, et démontre qu'un modèle de vision fine-tuné par contraste permet de classifier de nouveaux objets imprimés sans réentraînement, en s'appuyant uniquement sur leurs modèles CAO.

Fanis Mathioulakis, Gorjan Radevski, Silke GC Cleuren, Michel Janssens, Brecht Das, Koen Schauwaert, Tinne Tuytelaars2026-03-10💻 cs