cs.CV articles | Gist.Science

Latent Transfer Attack: Adversarial Examples via Generative Latent Spaces

Les auteurs proposent LTA, une attaque par transfert qui optimise des perturbations dans l'espace latent d'un VAE Stable Diffusion préentraîné plutôt qu'en espace pixel, générant ainsi des exemples adverses plus robustes, cohérents spatialement et efficaces contre divers modèles de vision.

Eitan Shaar, Ariel Shaulov, Yalcin Tur, Gal Chechik, Ravid Shwartz-Ziv2026-03-09💻 cs

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

Ce papier propose WMoE-CLIP, une méthode d'apprentissage de prompts pour la détection d'anomalies en zéro-shot qui améliore la généralisation en intégrant des représentations sémantiques globales via un auto-encodeur variationnel, en exploitant les décompositions en ondelettes pour affiner les embeddings textuels et en utilisant un module d'experts mixtes sensible au contexte.

Peng Chen, Chao Huang2026-03-09💻 cs

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

Le papier propose P-SLCR, une méthode d'apprentissage non supervisé pour la segmentation sémantique de nuages de points qui combine l'apprentissage de structures cohérentes et un raisonnement relationnel basé sur des prototypes, surpassant les méthodes supervisées classiques comme PointNet sur plusieurs jeux de données.

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Cette étude évalue la capacité de ChatGPT à pasticher des œuvres d'art contemporaines, révélant un écart significatif entre les similarités visuelles et la perte de dimensionnalité, de contexte et d'intentionnalité perçue par les artistes originaux, ce qui plaide pour l'adoption d'un tableau de bord de métriques complémentaires plutôt que d'une mesure unique.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

Le papier présente WorldCache, un cadre de mise en cache hétérogène qui accélère jusqu'à 3,7 fois les modèles de monde basés sur la diffusion en utilisant une prédiction de token guidée par la courbure et un saut adaptatif priorisant le chaos, tout en préservant 98 % de la qualité des simulations.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

Le papier présente K-MaT, un cadre d'apprentissage par prompt qui utilise le transport optimal de Gromov-Wasserstein pour transférer les structures décisionnelles des modèles vision-langage biomédicaux vers des modalités d'imagerie de faible qualité sans nécessiter d'images d'entraînement, surmontant ainsi les limitations des méthodes actuelles et atteignant des performances de pointe sur plusieurs tâches médicales.

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

Le papier présente le DC-DiT, un modèle de diffusion Transformer qui améliore l'efficacité et la qualité de la génération d'images en adaptant dynamiquement le nombre de tokens utilisés selon la complexité visuelle des régions et l'étape du processus de débruitage, surpassant ainsi les architectures DiT classiques tout en permettant un réentraînement minimal.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

Le papier présente LATO, une nouvelle méthode de correspondance de flux qui génère des maillages 3D explicites complexes avec une topologie préservée et une grande efficacité d'inférence en utilisant une représentation latente structurée basée sur un auto-encodeur variationnel à voxels clairsemés et un champ de déplacement de sommets.

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang2026-03-09💻 cs

Computer vision-based estimation of invertebrate biomass

Cette étude propose des méthodes de vision par ordinateur, incluant des modèles linéaires et des réseaux de neurones profonds entraînés sur des séquences d'images d'invertébrés en chute libre, pour estimer leur biomasse sèche avec une précision de 10 à 20 % d'erreur médiane, offrant ainsi une alternative rapide et non destructive aux pesées manuelles pour le suivi de la biodiversité.

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

Ce papier présente OralGPT-Plus, un modèle de langage-vision agentique qui utilise l'apprentissage par renforcement et un nouveau jeu de données nommé DentalProbe pour améliorer l'analyse diagnostique des radiographies panoramiques dentaires grâce à un raisonnement itératif et symétrique, validé par le benchmark MMOral-X.

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang2026-03-09💻 cs

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

Le papier présente Rewis3d, un cadre novateur qui améliore la segmentation sémantique faiblement supervisée en exploitant la reconstruction 3D feed-forward pour propager des annotations éparses via une cohérence géométrique, atteignant ainsi des performances de pointe sans coût supplémentaire en étiquettes ou en inférence.

Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele2026-03-09💻 cs

MoEMambaMIL: Structure-Aware Selective State Space Modeling for Whole-Slide Image Analysis

Le papier propose MoEMambaMIL, un cadre d'apprentissage profond innovant combinant des modèles à espace d'états sélectifs et une architecture à experts multiples pour analyser efficacement les images de lames entières en préservant leur structure hiérarchique spatiale.

Dongqing Xie, Yonghuang Wu2026-03-09💻 cs

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

Le papier présente CHMv2, une nouvelle carte mondiale de la hauteur des arbres à résolution métrique générée à partir d'images optiques satellitaires et du modèle DINOv3, qui offre une précision et une fidélité structurelle nettement supérieures aux produits existants grâce à l'utilisation de données d'entraînement géographiquement diversifiées et d'une méthodologie de formation optimisée.

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

Cet article propose un cadre d'entraînement « prompt group-aware » qui améliore la robustesse et la généralisation de la segmentation guidée par le texte des noyaux cellulaires en traitant la sensibilité aux formulations comme un problème de cohérence de groupe, sans modifier l'architecture ni le processus d'inférence.

Yonghuang Wu, Zhenyang Liang, Wenwen Zeng, Xuan Xie, Jinhua Yu2026-03-09🤖 cs.AI

REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

Le papier présente REACT++, un modèle de pointe pour la génération de graphes de scène en temps réel qui, en exploitant une extraction de caractéristiques efficace et une attention croisée sujet-objet dans l'espace des prototypes, atteint une vitesse d'inférence supérieure de 20 % et une précision de prédiction des relations améliorée de 10 % par rapport à la version précédente, tout en maintenant les performances de détection d'objets.

Maëlic Neau, Zoe Falomir2026-03-09💻 cs

Solving Jigsaw Puzzles in the Wild: Human-Guided Reconstruction of Cultural Heritage Fragments

Cet article propose un cadre de résolution de puzzles intégrant une boucle humaine pour reconstruire efficacement des fragments d'artefacts culturels érodés et complexes, surpassant les méthodes entièrement automatiques ou manuelles en précision et en efficacité.

Omidreza Safaei, Sinem Aslan, Sebastiano Vascon, Luca Palmieri, Marina Khoroshiltseva, Marcello Pelillo2026-03-09💻 cs

DiffInf: Influence-Guided Diffusion for Supervision Alignment in Facial Attribute Learning

Le papier présente DiffInf, un cadre d'apprentissage guidé par l'influence qui utilise la diffusion générative pour corriger les incohérences d'annotation dans les données d'entraînement et ainsi améliorer la classification des attributs faciaux sans réduire la couverture de la distribution.

Basudha Pal, Rama Chellappa2026-03-09💻 cs

Locating and Editing Figure-Ground Organization in Vision Transformers

Cette étude identifie les mécanismes internes du modèle BEiT qui résolvent l'ambiguïté figure-fond en faveur d'une complétion convexe, révélant que ce processus se cristallise dans les couches tardives et est initialement amorcé par une attention spécifique (L0H9) dont la modulation permet de basculer la perception vers une complétion concave.

Stefan Arnold, René Gröbner2026-03-09💻 cs

Physical Simulator In-the-Loop Video Generation

Ce papier présente PSIVG, un cadre innovant intégrant un simulateur physique dans le processus de génération vidéo par diffusion pour garantir le respect des lois physiques tout en préservant la qualité visuelle grâce à une optimisation de la cohérence des textures.

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

Non-invasive Growth Monitoring of Small Freshwater Fish in Home Aquariums via Stereo Vision

Cet article propose une méthode de vision stéréoscopique non invasive et consciente de la réfraction, basée sur un réseau YOLOv11-Pose, pour estimer avec précision la longueur des petits poissons d'aquarium en surmontant les distorsions optiques et en filtrant les détections de faible qualité.

Clemens Seibold, Anna Hilsmann, Peter Eisert2026-03-09💻 cs

← Précédent Suivant →