WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

Ce papier propose WMoE-CLIP, une méthode d'apprentissage de prompts pour la détection d'anomalies en zéro-shot qui améliore la généralisation en intégrant des représentations sémantiques globales via un auto-encodeur variationnel, en exploitant les décompositions en ondelettes pour affiner les embeddings textuels et en utilisant un module d'experts mixtes sensible au contexte.

Peng Chen, Chao Huang2026-03-09💻 cs

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

Le papier propose P-SLCR, une méthode d'apprentissage non supervisé pour la segmentation sémantique de nuages de points qui combine l'apprentissage de structures cohérentes et un raisonnement relationnel basé sur des prototypes, surpassant les méthodes supervisées classiques comme PointNet sur plusieurs jeux de données.

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Cette étude évalue la capacité de ChatGPT à pasticher des œuvres d'art contemporaines, révélant un écart significatif entre les similarités visuelles et la perte de dimensionnalité, de contexte et d'intentionnalité perçue par les artistes originaux, ce qui plaide pour l'adoption d'un tableau de bord de métriques complémentaires plutôt que d'une mesure unique.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

Le papier présente WorldCache, un cadre de mise en cache hétérogène qui accélère jusqu'à 3,7 fois les modèles de monde basés sur la diffusion en utilisant une prédiction de token guidée par la courbure et un saut adaptatif priorisant le chaos, tout en préservant 98 % de la qualité des simulations.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

Le papier présente K-MaT, un cadre d'apprentissage par prompt qui utilise le transport optimal de Gromov-Wasserstein pour transférer les structures décisionnelles des modèles vision-langage biomédicaux vers des modalités d'imagerie de faible qualité sans nécessiter d'images d'entraînement, surmontant ainsi les limitations des méthodes actuelles et atteignant des performances de pointe sur plusieurs tâches médicales.

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

Le papier présente le DC-DiT, un modèle de diffusion Transformer qui améliore l'efficacité et la qualité de la génération d'images en adaptant dynamiquement le nombre de tokens utilisés selon la complexité visuelle des régions et l'étape du processus de débruitage, surpassant ainsi les architectures DiT classiques tout en permettant un réentraînement minimal.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

Le papier présente LATO, une nouvelle méthode de correspondance de flux qui génère des maillages 3D explicites complexes avec une topologie préservée et une grande efficacité d'inférence en utilisant une représentation latente structurée basée sur un auto-encodeur variationnel à voxels clairsemés et un champ de déplacement de sommets.

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang2026-03-09💻 cs

Computer vision-based estimation of invertebrate biomass

Cette étude propose des méthodes de vision par ordinateur, incluant des modèles linéaires et des réseaux de neurones profonds entraînés sur des séquences d'images d'invertébrés en chute libre, pour estimer leur biomasse sèche avec une précision de 10 à 20 % d'erreur médiane, offrant ainsi une alternative rapide et non destructive aux pesées manuelles pour le suivi de la biodiversité.

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

Ce papier présente OralGPT-Plus, un modèle de langage-vision agentique qui utilise l'apprentissage par renforcement et un nouveau jeu de données nommé DentalProbe pour améliorer l'analyse diagnostique des radiographies panoramiques dentaires grâce à un raisonnement itératif et symétrique, validé par le benchmark MMOral-X.

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang2026-03-09💻 cs

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

Le papier présente Rewis3d, un cadre novateur qui améliore la segmentation sémantique faiblement supervisée en exploitant la reconstruction 3D feed-forward pour propager des annotations éparses via une cohérence géométrique, atteignant ainsi des performances de pointe sans coût supplémentaire en étiquettes ou en inférence.

Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele2026-03-09💻 cs

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

Le papier présente CHMv2, une nouvelle carte mondiale de la hauteur des arbres à résolution métrique générée à partir d'images optiques satellitaires et du modèle DINOv3, qui offre une précision et une fidélité structurelle nettement supérieures aux produits existants grâce à l'utilisation de données d'entraînement géographiquement diversifiées et d'une méthodologie de formation optimisée.

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

Le papier présente REACT++, un modèle de pointe pour la génération de graphes de scène en temps réel qui, en exploitant une extraction de caractéristiques efficace et une attention croisée sujet-objet dans l'espace des prototypes, atteint une vitesse d'inférence supérieure de 20 % et une précision de prédiction des relations améliorée de 10 % par rapport à la version précédente, tout en maintenant les performances de détection d'objets.

Maëlic Neau, Zoe Falomir2026-03-09💻 cs