cs.CV articles | Gist.Science

Nearest-Neighbor Density Estimation for Dependency Suppression

Cet article propose une méthode d'estimation de densité par plus proches voisins intégrée à un autoencodeur variationnel pour supprimer les dépendances indésirables dans les données, surpassant les techniques existantes en équilibrant efficacement l'effacement d'informations sensibles et la préservation de l'utilité des données.

Kathleen Anderson, Thomas Martinetz2026-03-05🤖 cs.LG

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

Ce papier présente DiverseDiT, un cadre novateur qui améliore l'apprentissage des représentations dans les Transformers de diffusion en promouvant activement la diversité des caractéristiques entre les blocs grâce à des connexions résiduelles étendues et une fonction de perte dédiée, ce qui se traduit par des gains de performance et une convergence accélérée.

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

DeNuC: Decoupling Nuclei Detection and Classification in Histopathology

Le papier présente DeNuC, une méthode efficace qui découple la détection et la classification des noyaux en histopathologie pour surmonter les limitations des modèles fondationnels, offrant ainsi des performances supérieures avec une fraction des paramètres entraînables.

Zijiang Yang, Chen Kuang, Dongmei Fu2026-03-05💻 cs

EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

L'article propose EmbodiedSplat, une méthode de type 3DGS en feed-forward qui permet la reconstruction et la compréhension sémantique open-vocabulary de scènes 3D en temps réel à partir de flux d'images, en combinant un champ de coefficients clairsemés en ligne avec un codebook CLIP global et des caractéristiques géométriques 3D.

Seungjun Lee, Zihan Wang, Yunsong Wang + 1 more2026-03-05💻 cs

A Hypertoroidal Covering for Perfect Color Equivariance

Cet article propose une architecture de réseau de neurones véritablement équivariante pour la couleur, qui résout les artefacts des méthodes précédentes en relevant les valeurs de saturation et de luminosité d'intervalles vers des cercles (un double-couverture) plutôt que de les approximer par des translations linéaires, améliorant ainsi les performances et la généralisation sur des tâches de classification fine et d'imagerie médicale.

Yulong Yang, Zhikun Xu, Yaojun Li + 1 more2026-03-05💻 cs

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

Le papier présente ViterbiPlanNet, un cadre novateur qui intègre des connaissances procédurales explicites via une couche de Viterbi différentiable pour améliorer l'efficacité et la robustesse de la planification dans les vidéos d'instruction, surpassant les méthodes existantes avec moins de paramètres et un protocole d'évaluation unifié.

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

SSR: A Generic Framework for Text-Aided Map Compression for Localization

Ce papier propose SSR, un cadre de compression générique qui exploite les descriptions textuelles et des vecteurs d'images compacts via une technique de réplication de l'espace de similarité pour réduire considérablement les coûts de stockage et de bande passante des cartes robotiques tout en maintenant une haute précision pour la localisation.

Mohammad Omama, Po-han Li, Harsh Goel + 6 more2026-03-05💻 cs

A multi-center analysis of deep learning methods for video polyp detection and segmentation

Cette étude multicentrique évalue l'efficacité des méthodes d'apprentissage profond exploitant les données séquentielles et l'information temporelle pour améliorer la détection et la segmentation des polypes coliques lors des colonoscopies en temps réel.

Noha Ghatwary, Pedro Chavarias Solano, Mohamed Ramzy Ibrahim + 24 more2026-03-05💻 cs

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Le papier présente CubeComposer, un modèle de diffusion autorégressif spatio-temporel innovant capable de générer nativement des vidéos 360° en 4K à partir de vidéos en perspective, en surmontant les limitations de résolution des méthodes existantes grâce à une décomposition en cubemap et à des mécanismes de gestion de contexte optimisés pour une expérience VR immersive.

Lingen Li, Guangzhi Wang, Xiaoyu Li + 5 more2026-03-05🤖 cs.AI

Motion Manipulation via Unsupervised Keypoint Positioning in Face Animation

Ce papier présente MMFA, une nouvelle méthode non supervisée pour l'animation faciale qui permet un contrôle arbitraire des mouvements et l'interpolation d'expressions en découplant efficacement les informations d'identité et de mouvement grâce à un apprentissage de représentation auto-supervisé et un auto-encodeur variationnel.

Hong Li, Boyu Liu, Xuhui Liu + 1 more2026-03-05💻 cs

Dual Diffusion Models for Multi-modal Guided 3D Avatar Generation

Le papier présente PromptAvatar, un cadre innovant utilisant des modèles de diffusion duaux entraînés sur un vaste jeu de données multimodales pour générer des avatars 3D haute fidélité à partir de textes ou d'images en moins de 10 secondes, surmontant ainsi les limitations de contrôle et de vitesse des méthodes existantes.

Hong Li, Yutang Feng, Minqi Meng + 3 more2026-03-05💻 cs

CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model

Cette étude présente CRESTomics, un nouveau modèle additif à noyau intégrant une perte de cohérence et une régularisation parcimonieuse de groupe, qui analyse 500 plaques carotidiennes de l'essai CREST-2 pour identifier de manière précise et interprétable des marqueurs radiomiques liés au risque clinique élevé.

Pranav Kulkarni, Brajesh K. Lal, Georges Jreij + 11 more2026-03-05🤖 cs.AI

MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

Ce papier présente MOO, un jeu de données synthétique multi-vues de 1 000 vaches capturé sous 128 angles, conçu pour analyser l'impact des variations de point de vue dans la ré-identification animale et démontrer que les priors géométriques synthétiques améliorent significativement la généralisation des modèles vers des scénarios réels.

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

Le papier présente SPRINT, le premier cadre d'apprentissage incrémental à quelques exemples (FSCIL) conçu spécifiquement pour les données tabulaires, qui exploite le pseudo-étiquetage et l'historique des classes pour atteindre des performances de pointe tout en évitant l'oubli catastrophique.

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

Cette étude présente un cadre évolutif démontrant que les modèles d'IA générative surpassent largement les méthodes d'augmentation traditionnelles pour créer des images réalistes de conditions environnementales défavorables, validant ainsi leur utilité pour l'évaluation des systèmes d'IA.

Damian J. Ruck, Paul Vautravers, Oliver Chalkley + 1 more2026-03-05🤖 cs.LG

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Le papier présente Pointer-CAD, un cadre de génération de modèles CAO par LLM qui surmonte les limites des séquences de commandes en intégrant une sélection d'entités géométriques via des pointeurs, permettant ainsi la création de structures complexes et la réduction des erreurs topologiques grâce à un jeu de données de 575 000 modèles.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Le papier présente ArtHOI, le premier cadre de synthèse zéro-shot d'interactions humain-objet articulées qui reconstruit des scènes 4D géométriquement cohérentes à partir de vidéos générées par diffusion, surmontant ainsi les limites des méthodes existantes en matière de manipulation d'objets articulés et de réalisme physique.

Zihao Huang, Tianqi Liu, Zhaoxi Chen + 7 more2026-03-05💻 cs

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

Cette étude compare trois architectures génératives pour la création d'IRM cardiaques synthétiques et démontre que les modèles de diffusion, en particulier les DDPM, offrent le meilleur équilibre entre fidélité, utilité pour la segmentation et protection de la vie privée dans des conditions de données limitées.

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG

Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

Ce papier présente HOSO-Adapter, une méthode simple et sans validation pour l'adaptation CLIP en few-shot qui apprend automatiquement le ratio de mélange via un ensemble de rétention à un seul exemple, surpassant ainsi les approches existantes sur plusieurs jeux de données.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

Enhancing Authorship Attribution with Synthetic Paintings

Cette étude démontre que l'intégration d'images synthétiques générées par DreamBooth et Stable Diffusion améliore la précision et la généralisation des modèles d'attribution d'auteur de tableaux, en surmontant le défi du manque de données réelles.

Clarissa Loures, Caio Hosken, Luan Oliveira + 2 more2026-03-05🤖 cs.LG

← Précédent Suivant →