cs.CV articles | Gist.Science

MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

Ce papier présente MOO, un jeu de données synthétique multi-vues de 1 000 vaches capturé sous 128 angles, conçu pour analyser l'impact des variations de point de vue dans la ré-identification animale et démontrer que les priors géométriques synthétiques améliorent significativement la généralisation des modèles vers des scénarios réels.

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

Le papier présente SPRINT, le premier cadre d'apprentissage incrémental à quelques exemples (FSCIL) conçu spécifiquement pour les données tabulaires, qui exploite le pseudo-étiquetage et l'historique des classes pour atteindre des performances de pointe tout en évitant l'oubli catastrophique.

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

Cette étude présente un cadre évolutif démontrant que les modèles d'IA générative surpassent largement les méthodes d'augmentation traditionnelles pour créer des images réalistes de conditions environnementales défavorables, validant ainsi leur utilité pour l'évaluation des systèmes d'IA.

Damian J. Ruck, Paul Vautravers, Oliver Chalkley + 1 more2026-03-05🤖 cs.LG

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Le papier présente Pointer-CAD, un cadre de génération de modèles CAO par LLM qui surmonte les limites des séquences de commandes en intégrant une sélection d'entités géométriques via des pointeurs, permettant ainsi la création de structures complexes et la réduction des erreurs topologiques grâce à un jeu de données de 575 000 modèles.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Le papier présente ArtHOI, le premier cadre de synthèse zéro-shot d'interactions humain-objet articulées qui reconstruit des scènes 4D géométriquement cohérentes à partir de vidéos générées par diffusion, surmontant ainsi les limites des méthodes existantes en matière de manipulation d'objets articulés et de réalisme physique.

Zihao Huang, Tianqi Liu, Zhaoxi Chen + 7 more2026-03-05💻 cs

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

Cette étude compare trois architectures génératives pour la création d'IRM cardiaques synthétiques et démontre que les modèles de diffusion, en particulier les DDPM, offrent le meilleur équilibre entre fidélité, utilité pour la segmentation et protection de la vie privée dans des conditions de données limitées.

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG

Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

Ce papier présente HOSO-Adapter, une méthode simple et sans validation pour l'adaptation CLIP en few-shot qui apprend automatiquement le ratio de mélange via un ensemble de rétention à un seul exemple, surpassant ainsi les approches existantes sur plusieurs jeux de données.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

Enhancing Authorship Attribution with Synthetic Paintings

Cette étude démontre que l'intégration d'images synthétiques générées par DreamBooth et Stable Diffusion améliore la précision et la généralisation des modèles d'attribution d'auteur de tableaux, en surmontant le défi du manque de données réelles.

Clarissa Loures, Caio Hosken, Luan Oliveira + 2 more2026-03-05🤖 cs.LG

Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

Cette étude propose une méthode efficace en données utilisant un seul exemple par classe et un modèle de langage pour prédire avec une grande précision la capacité des modèles fondationnels vision-langage à généraliser vers des domaines sous-représentés, offrant ainsi un outil peu coûteux pour évaluer les besoins en annotation avant l'entraînement.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

Le papier présente RANGER, un cadre innovant de génération de rapports de pathologie qui combine un mélange d'experts à portes clairsemées pour une spécialisation dynamique et un module de réordonnancement adaptatif pour affiner la récupération de connaissances, démontrant ainsi des performances supérieures sur le jeu de données PathText-BRCA.

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

Le papier présente FocusGraph, un cadre innovant pour la sélection de trames clés dans les vidéos longues en première personne, qui combine un sélecteur basé sur des légendes graphiques et une méthode d'inférence sans entraînement pour améliorer la précision des réponses tout en réduisant le temps de calcul.

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov + 4 more2026-03-05💻 cs

Helios: Real Real-Time Long Video Generation Model

Le papier présente Helios, un modèle de génération vidéo autoregressif de 14 milliards de paramètres capable de produire des vidéos à l'échelle de la minute en temps réel sur une seule carte graphique H100, tout en éliminant le dérive temporelle et en réduisant considérablement les coûts computationnels grâce à des stratégies d'entraînement innovantes et des optimisations d'infrastructure.

Shenghai Yuan, Yuanyang Yin, Zongjian Li + 3 more2026-03-05💻 cs

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Le papier présente TaxonRL, une approche d'apprentissage par renforcement utilisant des récompenses intermédiaires pour décomposer le raisonnement visuel en prédictions taxonomiques hiérarchiques, permettant ainsi d'atteindre une précision supérieure à celle des humains sur la tâche de discrimination fine d'espèces tout en garantissant l'interprétabilité des décisions.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Le papier présente ZipMap, un modèle feed-forward étatique qui réalise une reconstruction 3D bidirectionnelle en temps linéaire grâce à un entraînement au moment du test, surpassant ainsi l'efficacité des méthodes quadratiques actuelles tout en préservant, voire en améliorant, la qualité de reconstruction.

Haian Jin, Rundi Wu, Tianyuan Zhang + 4 more2026-03-05🤖 cs.AI

SimpliHuMoN: Simplifying Human Motion Prediction

Le papier présente SimpliHuMoN, un modèle transformer simple et efficace capable de prédire simultanément les trajectoires et les poses humaines avec des performances de pointe sur plusieurs benchmarks, sans nécessiter de modifications spécifiques à chaque tâche.

Aadya Agrawal, Alexander Schwing2026-03-05🤖 cs.LG

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Cet article propose les « Thought Flow Nets », une méthode inspirée de la dialectique hégélienne permettant aux modèles d'affiner leurs réponses par des itérations d'auto-correction, ce qui améliore non seulement leurs performances mais aussi la perception et les résultats des utilisateurs humains.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

Cet article présente VQA-MHUG, un nouveau jeu de données de regards humains sur les images et les questions, et démontre pour la première fois que la corrélation entre l'attention textuelle des modèles de VQA et celle des humains est un prédicteur significatif de leurs performances, soulignant ainsi le besoin d'améliorer les mécanismes d'attention textuelle dans les architectures multimodales.

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Multimodal Integration of Human-Like Attention in Visual Question Answering

Ce papier présente MULAN, une méthode novatrice qui intègre l'attention humaine multimodale (image et texte) dans un modèle de réponse aux questions visuelles (VQA) basé sur les transformers, permettant d'atteindre des performances de pointe sur le jeu de données VQAv2 avec environ 80 % de paramètres en moins que les travaux antérieurs.

Ekta Sood, Fabian Kögel, Philipp Müller + 3 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Cette étude démontre que les modèles de fondation visuels, en particulier BiomedCLIP, peuvent servir d'extracteurs de caractéristiques polyvalents et performants pour la recherche d'images médicales par le contenu en radiologie, surpassant les systèmes spécialisés sans nécessiter d'entraînement supplémentaire sur un vaste ensemble de données de 1,6 million d'images.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

Cet article présente Implicit-Zoo, un jeu de données à grande échelle de fonctions implicites neuronales pour images 2D et scènes 3D, conçu pour surmonter les limitations de ressources et de données, et qui démontre des améliorations significatives dans des tâches telles que la classification d'images, la segmentation sémantique et la régression de pose 3D.

Qi Ma, Danda Pani Paudel, Ender Konukoglu + 1 more2026-03-04💻 cs

← Précédent Suivant →