EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

Ce papier propose EDITOR, une méthode efficace et interprétable d'inversion de prompts pour les modèles de diffusion texte-à-image qui, en combinant l'initialisation par un modèle de légendage, l'affinement dans l'espace latent et la conversion en texte, surpasse les approches existantes en termes de similarité d'image, d'alignement textuel et de généralisabilité pour diverses applications créatives.

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping

Le document présente FLAIR-HUB, le plus vaste jeu de données multimodales annotées à très haute résolution (20 cm) développé par l'IGN pour la cartographie des sols et des cultures en France, qui combine six sources de données hétérogènes et démontre l'efficacité de la fusion multimodale pour améliorer la précision des modèles d'apprentissage profond.

Anatol Garioud, Sébastien Giordano, Nicolas David + 1 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Ce papier présente HSG-12M, un vaste ensemble de données de 12 millions de multigraphes spatiaux dérivés des spectres énergétiques de cristaux non hermitiens, généré par le pipeline automatisé Poly2Graph pour combler le manque de benchmarks à grande échelle en physique de la matière condensée et en apprentissage géométrique.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

Le papier présente AutoV, un cadre léger qui améliore les modèles vision-langage en remplaçant l'ingénierie manuelle des prompts visuels par une récupération adaptative guidée par un classement basé sur la perte d'un modèle pré-entraîné, éliminant ainsi le besoin d'annotations manuelles tout en augmentant significativement les performances sur diverses tâches.

Yuan Zhang, Chun-Kai Fan, Sicheng Yu + 6 more2026-03-06💻 cs

Graph-Based Multi-Modal Light-weight Network for Adaptive Brain Tumor Segmentation

Cet article présente GMLN-BTS, un réseau neuronal léger basé sur des graphes pour la segmentation adaptative des tumeurs cérébrales qui, grâce à ses modules innovants d'encodage, d'interaction multimodale et de raffinement, atteint des performances de pointe avec une réduction massive de 98 % des paramètres par rapport aux modèles 3D Transformer dominants.

Guohao Huo, Ruiting Dai, Zitong Wang + 2 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

Cet article présente une méthode de navigation pour quadrotor basée sur l'apprentissage par renforcement qui, en exploitant des cartes de temps d'arrivée et une fonction de perte d'alignement de lacet, surpasse les méthodes existantes pour éviter de grands obstacles et a été validée avec succès lors de 20 vols réels en extérieur, jour et nuit, sans aucune collision.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

Le papier présente BridgeDrive, une nouvelle politique de planification de trajectoire en boucle fermée pour la conduite autonome qui utilise un pont de diffusion guidé par des ancêtres pour transformer de manière théoriquement cohérente des trajectoires grossières en plans précis, atteignant ainsi des performances de pointe sur le benchmark Bench2Drive.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Continuous Space-Time Video Super-Resolution with 3D Fourier Fields

Cet article présente une nouvelle méthode de super-résolution vidéo spatio-temporelle continue basée sur des champs de Fourier 3D (VFF) qui, en évitant le décalage explicite des trames, permet un échantillonnage flexible à n'importe quelle résolution tout en garantissant une reconstruction sans repliement spectral et en surpassant l'état de l'art en termes de netteté, de cohérence temporelle et d'efficacité computationnelle.

Alexander Becker, Julius Erbach, Dominik Narnhofer + 1 more2026-03-06💻 cs