cs.CV articles | Gist.Science

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

L'AgrI Challenge introduit un cadre de compétition axé sur les données pour la vision agricole, où douze équipes collectent indépendamment des images d'arbres afin d'évaluer et d'améliorer la généralisation des modèles via une validation inter-équipes, démontrant ainsi que l'entraînement collaboratif multi-sources réduit considérablement les écarts de performance liés aux décalages de distribution.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

N-Tree Diffusion for Long-Horizon Wildfire Risk Forecasting

Ce papier présente NT-Diffusion, un modèle de diffusion hiérarchique qui améliore l'efficacité computationnelle et la précision des prévisions probabilistes à long terme des risques d'incendie en partageant les étapes précoces de débruitage avant de se spécialiser pour chaque horizon temporel.

Yucheng Xing, Xin Wang2026-03-10🤖 cs.LG

Task learning increases information redundancy of neural responses in macaque visual cortex

L'étude démontre que l'apprentissage de tâches chez les macaques augmente la redondance des réponses neuronales dans le cortex visuel V4, soutenant ainsi l'hypothèse bayésienne selon laquelle le cerveau optimise le traitement sensoriel par un processus d'inférence générative plutôt que discriminatif.

Shizhao Liu, Anton Pletenev, Ralf M. Haefner, Adam C. Snyder2026-03-10💻 cs

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Ce papier présente AQuA, un nouveau jeu de données et une méthode de fine-tuning qui permettent aux modèles vision-langage de classifier les ambiguïtés visuelles en quatre niveaux et d'adopter dynamiquement des stratégies de réponse adaptées, telles que la demande de clarification ou l'énumération d'alternatives, surpassant ainsi les modèles existants dans la gestion des questions visuelles ambiguës.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Interpretable Aneurysm Classification via 3D Concept Bottleneck Models: Integrating Morphological and Hemodynamic Clinical Features

Cette étude propose un cadre de modèles à goulot d'étranglement conceptuel 3D intégrant des caractéristiques morphologiques et hémodynamiques pour classifier les anévrismes intracrâniens avec une haute précision tout en garantissant une interprétabilité clinique essentielle à l'adoption médicale.

Toqa Khaled, Ahmad Al-Kabbany2026-03-10💻 cs

VIVECaption: A Split Approach to Caption Quality Improvement

Ce rapport technique présente VIVECaption, une approche systématique en deux volets combinant la création d'un jeu de données de référence et un alignement de modèle par finetuning, visant à améliorer la qualité des légendes d'images pour entraîner des modèles génératifs sans recourir à des données protégées par le droit d'auteur.

Varun Ananth, Baqiao Liu, Haoran Cai2026-03-10💻 cs

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Cet article propose un cadre utilisant des modèles vision-langage pour générer des légendes spécifiques à une dent unique à partir d'images dentaires, comblant ainsi le manque de jeux de données holistiques nécessaires à l'analyse dentaire avancée.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

Le papier présente UnSCAR, une architecture unifiée à mélange d'experts qui surmonte les limitations d'interférence et d'oubli catastrophique des modèles de restauration d'images universels actuels, permettant ainsi une apprentissage évolutif, une adaptation robuste à des domaines inconnus et un contrôle utilisateur sur plus de seize types de dégradations.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

QdaVPR: A novel query-based domain-agnostic model for visual place recognition

Ce papier présente QdaVPR, un nouveau modèle de reconnaissance visuelle de lieu indépendant du domaine qui utilise un cadre d'apprentissage adversaire à double niveau et une supervision par triplet sur des données augmentées par transfert de style pour atteindre des performances de pointe face à des variations de domaine importantes.

Shanshan Wan, Lai Kang, Yingmei Wei, Tianrui Shen, Haixuan Wang, Chao Zuo2026-03-10💻 cs

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

Ce papier présente DTPSR, un cadre de super-résolution d'images basé sur la diffusion qui améliore la qualité et le contrôle sémantique en introduisant des priors textuels désengagés selon les dimensions hiérarchique spatiale et sémantique fréquentielle, soutenus par un nouveau jeu de données nommé DisText-SR.

Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

Cet article présente AndroidWorld-Generalization, un nouveau benchmark et un système d'apprentissage par renforcement intégrant GRPO, conçus pour évaluer et améliorer la capacité de généralisation des agents mobiles basés sur des modèles vision-langage vers des tâches, modèles et applications non vus.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Le papier présente « Data Agent », un cadre de sélection de données dynamique et end-to-end qui apprend une politique de sélection adaptative guidée par des signaux de récompense combinant difficulté et incertitude, permettant d'accélérer l'entraînement tout en préservant les performances sur divers tâches et architectures.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

Le papier présente RPG-SAM, une méthode de segmentation polypique sans entraînement qui améliore les performances en traitant l'hétérogénéité régionale et de réponse via l'extraction de prototypes pondérés par la fiabilité et la sélection adaptative géométrique, obtenant ainsi une amélioration de 5,56 % du mIoU sur le jeu de données Kvasir.

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

Le papier présente DogWeave, un cadre de reconstruction 3D haute fidélité pour les chiens à partir d'une seule image RGB, qui améliore la géométrie grâce à l'optimisation de champs de normales renforcés par diffusion et génère des textures cohérentes via une inconditionnelle partielle guidée par la structure et le style.

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

Le papier présente Med-Evo, un cadre d'auto-évolution sans étiquettes pour les modèles de langage multimodaux médicaux qui améliore les performances en utilisant un apprentissage par renforcement basé sur l'étiquetage pseudo-features et une récompense hiérarchique, éliminant ainsi le besoin de données annotées supplémentaires.

Dunyuan Xu, Xikai Yang, Juzheng Miao, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng2026-03-10💻 cs

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

Ce papier présente SLNet, un réseau d'apprentissage profond ultra-léger et adaptatif géométriquement pour la reconnaissance de nuages de points 3D, qui atteint des performances compétitives sur plusieurs benchmarks avec une fraction des paramètres et de la complexité computationnelle des modèles de pointe actuels.

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG

Image Generation Models: A Technical History

Ce papier propose une enquête technique complète sur l'évolution des modèles de génération d'images, couvrant les architectures clés des VAE aux méthodes de diffusion, ainsi que les avancées récentes en vidéo et les enjeux de robustesse et de déploiement responsable.

Rouzbeh Shirvani2026-03-10💬 cs.CL

SIGMAE: A Spectral-Index-Guided Foundation Model for Multispectral Remote Sensing

Le papier présente SIGMAE, un modèle fondamental pour la télédétection multispectrale qui améliore l'apprentissage des représentations en guidant le masquage dynamique des tokens via des indices spectraux pour se concentrer sur les régions sémantiquement riches.

Xiaokang Zhang, Bo Li, Chufeng Zhou, Weikang Yu, Lefei Zhang2026-03-10💻 cs

Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection

Cet article propose MonoSTL, une méthode d'apprentissage par transfert sélectif qui atténue le problème de transfert négatif dû à l'écart modal entre LiDAR et images en intégrant l'incertitude de profondeur pour améliorer la détection 3D d'objets monoculaire.

Rui Ding, Meng Yang, Nanning Zheng2026-03-10💻 cs

Classifying Novel 3D-Printed Objects without Retraining: Towards Post-Production Automation in Additive Manufacturing

Cet article présente ThingiPrint, un nouveau jeu de données associant modèles CAO et photographies d'objets imprimés en 3D, et démontre qu'un modèle de vision fine-tuné par contraste permet de classifier de nouveaux objets imprimés sans réentraînement, en s'appuyant uniquement sur leurs modèles CAO.

Fanis Mathioulakis, Gorjan Radevski, Silke GC Cleuren, Michel Janssens, Brecht Das, Koen Schauwaert, Tinne Tuytelaars2026-03-10💻 cs

← Précédent Suivant →