cs.CV articles | Gist.Science

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

Le papier présente ViterbiPlanNet, un cadre novateur qui intègre des connaissances procédurales explicites via une couche de Viterbi différentiable pour améliorer l'efficacité et la robustesse de la planification dans les vidéos d'instruction, surpassant les méthodes existantes avec moins de paramètres et un protocole d'évaluation unifié.

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

SSR: A Generic Framework for Text-Aided Map Compression for Localization

Ce papier propose SSR, un cadre de compression générique qui exploite les descriptions textuelles et des vecteurs d'images compacts via une technique de réplication de l'espace de similarité pour réduire considérablement les coûts de stockage et de bande passante des cartes robotiques tout en maintenant une haute précision pour la localisation.

Mohammad Omama, Po-han Li, Harsh Goel + 6 more2026-03-05💻 cs

A multi-center analysis of deep learning methods for video polyp detection and segmentation

Cette étude multicentrique évalue l'efficacité des méthodes d'apprentissage profond exploitant les données séquentielles et l'information temporelle pour améliorer la détection et la segmentation des polypes coliques lors des colonoscopies en temps réel.

Noha Ghatwary, Pedro Chavarias Solano, Mohamed Ramzy Ibrahim + 24 more2026-03-05💻 cs

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Le papier présente CubeComposer, un modèle de diffusion autorégressif spatio-temporel innovant capable de générer nativement des vidéos 360° en 4K à partir de vidéos en perspective, en surmontant les limitations de résolution des méthodes existantes grâce à une décomposition en cubemap et à des mécanismes de gestion de contexte optimisés pour une expérience VR immersive.

Lingen Li, Guangzhi Wang, Xiaoyu Li + 5 more2026-03-05🤖 cs.AI

Motion Manipulation via Unsupervised Keypoint Positioning in Face Animation

Ce papier présente MMFA, une nouvelle méthode non supervisée pour l'animation faciale qui permet un contrôle arbitraire des mouvements et l'interpolation d'expressions en découplant efficacement les informations d'identité et de mouvement grâce à un apprentissage de représentation auto-supervisé et un auto-encodeur variationnel.

Hong Li, Boyu Liu, Xuhui Liu + 1 more2026-03-05💻 cs

Dual Diffusion Models for Multi-modal Guided 3D Avatar Generation

Le papier présente PromptAvatar, un cadre innovant utilisant des modèles de diffusion duaux entraînés sur un vaste jeu de données multimodales pour générer des avatars 3D haute fidélité à partir de textes ou d'images en moins de 10 secondes, surmontant ainsi les limitations de contrôle et de vitesse des méthodes existantes.

Hong Li, Yutang Feng, Minqi Meng + 3 more2026-03-05💻 cs

CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model

Cette étude présente CRESTomics, un nouveau modèle additif à noyau intégrant une perte de cohérence et une régularisation parcimonieuse de groupe, qui analyse 500 plaques carotidiennes de l'essai CREST-2 pour identifier de manière précise et interprétable des marqueurs radiomiques liés au risque clinique élevé.

Pranav Kulkarni, Brajesh K. Lal, Georges Jreij + 11 more2026-03-05🤖 cs.AI

MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

Ce papier présente MOO, un jeu de données synthétique multi-vues de 1 000 vaches capturé sous 128 angles, conçu pour analyser l'impact des variations de point de vue dans la ré-identification animale et démontrer que les priors géométriques synthétiques améliorent significativement la généralisation des modèles vers des scénarios réels.

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

Le papier présente SPRINT, le premier cadre d'apprentissage incrémental à quelques exemples (FSCIL) conçu spécifiquement pour les données tabulaires, qui exploite le pseudo-étiquetage et l'historique des classes pour atteindre des performances de pointe tout en évitant l'oubli catastrophique.

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

Cette étude présente un cadre évolutif démontrant que les modèles d'IA générative surpassent largement les méthodes d'augmentation traditionnelles pour créer des images réalistes de conditions environnementales défavorables, validant ainsi leur utilité pour l'évaluation des systèmes d'IA.

Damian J. Ruck, Paul Vautravers, Oliver Chalkley + 1 more2026-03-05🤖 cs.LG

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Le papier présente Pointer-CAD, un cadre de génération de modèles CAO par LLM qui surmonte les limites des séquences de commandes en intégrant une sélection d'entités géométriques via des pointeurs, permettant ainsi la création de structures complexes et la réduction des erreurs topologiques grâce à un jeu de données de 575 000 modèles.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Le papier présente ArtHOI, le premier cadre de synthèse zéro-shot d'interactions humain-objet articulées qui reconstruit des scènes 4D géométriquement cohérentes à partir de vidéos générées par diffusion, surmontant ainsi les limites des méthodes existantes en matière de manipulation d'objets articulés et de réalisme physique.

Zihao Huang, Tianqi Liu, Zhaoxi Chen + 7 more2026-03-05💻 cs

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

Cette étude compare trois architectures génératives pour la création d'IRM cardiaques synthétiques et démontre que les modèles de diffusion, en particulier les DDPM, offrent le meilleur équilibre entre fidélité, utilité pour la segmentation et protection de la vie privée dans des conditions de données limitées.

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG

Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

Ce papier présente HOSO-Adapter, une méthode simple et sans validation pour l'adaptation CLIP en few-shot qui apprend automatiquement le ratio de mélange via un ensemble de rétention à un seul exemple, surpassant ainsi les approches existantes sur plusieurs jeux de données.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

Enhancing Authorship Attribution with Synthetic Paintings

Cette étude démontre que l'intégration d'images synthétiques générées par DreamBooth et Stable Diffusion améliore la précision et la généralisation des modèles d'attribution d'auteur de tableaux, en surmontant le défi du manque de données réelles.

Clarissa Loures, Caio Hosken, Luan Oliveira + 2 more2026-03-05🤖 cs.LG

Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

Cette étude propose une méthode efficace en données utilisant un seul exemple par classe et un modèle de langage pour prédire avec une grande précision la capacité des modèles fondationnels vision-langage à généraliser vers des domaines sous-représentés, offrant ainsi un outil peu coûteux pour évaluer les besoins en annotation avant l'entraînement.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

Le papier présente RANGER, un cadre innovant de génération de rapports de pathologie qui combine un mélange d'experts à portes clairsemées pour une spécialisation dynamique et un module de réordonnancement adaptatif pour affiner la récupération de connaissances, démontrant ainsi des performances supérieures sur le jeu de données PathText-BRCA.

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

Le papier présente FocusGraph, un cadre innovant pour la sélection de trames clés dans les vidéos longues en première personne, qui combine un sélecteur basé sur des légendes graphiques et une méthode d'inférence sans entraînement pour améliorer la précision des réponses tout en réduisant le temps de calcul.

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov + 4 more2026-03-05💻 cs

Helios: Real Real-Time Long Video Generation Model

Le papier présente Helios, un modèle de génération vidéo autoregressif de 14 milliards de paramètres capable de produire des vidéos à l'échelle de la minute en temps réel sur une seule carte graphique H100, tout en éliminant le dérive temporelle et en réduisant considérablement les coûts computationnels grâce à des stratégies d'entraînement innovantes et des optimisations d'infrastructure.

Shenghai Yuan, Yuanyang Yin, Zongjian Li + 3 more2026-03-05💻 cs

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Le papier présente TaxonRL, une approche d'apprentissage par renforcement utilisant des récompenses intermédiaires pour décomposer le raisonnement visuel en prédictions taxonomiques hiérarchiques, permettant ainsi d'atteindre une précision supérieure à celle des humains sur la tâche de discrimination fine d'espèces tout en garantissant l'interprétabilité des décisions.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

← Précédent Suivant →