3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Cet article propose un cadre de manipulation 3D dynamique qui intègre la modélisation du monde en 3D et des tâches d'apprentissage auto-supervisé pour doter les politiques de manipulation d'une « prévoyance 3D », améliorant ainsi considérablement leurs performances dans des tâches impliquant des mouvements en profondeur sans compromettre la vitesse d'inférence.

Yuxin He, Ruihao Zhang, Xianzu Wu + 3 more2026-03-06💻 cs

MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields

Le papier présente MedFuncta, un cadre unifié permettant l'entraînement à grande échelle de champs neuronaux sur des données médicales via une représentation latente partagée, des améliorations théoriques des activations SIREN et une stratégie d'apprentissage méta efficace, tout en libérant le code et le premier jeu de données à grande échelle dédié, MedNF.

Paul Friedrich, Florentin Bieder, Julian McGinnis + 3 more2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

Ce papier présente Noise2Ghost, une nouvelle méthode d'imagerie fantôme auto-supervisée basée sur l'apprentissage profond qui permet une reconstruction de haute qualité avec réduction du bruit sans nécessiter de données de référence propres, rendant ainsi possible l'imagerie à faible luminosité pour des applications sensibles comme l'imagerie par fluorescence X in vivo.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

Le papier présente PhysLLM, un cadre d'optimisation collaborative qui intègre des modèles de langage à grande échelle avec des composants spécifiques à la photopléthysmographie à distance pour surmonter les défis de l'éclairage et du mouvement grâce à des stratégies d'alignement sémantique et de rééquilibrage adaptatif, atteignant ainsi des performances de pointe sur plusieurs jeux de données.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

Ce papier propose EDITOR, une méthode efficace et interprétable d'inversion de prompts pour les modèles de diffusion texte-à-image qui, en combinant l'initialisation par un modèle de légendage, l'affinement dans l'espace latent et la conversion en texte, surpasse les approches existantes en termes de similarité d'image, d'alignement textuel et de généralisabilité pour diverses applications créatives.

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping

Le document présente FLAIR-HUB, le plus vaste jeu de données multimodales annotées à très haute résolution (20 cm) développé par l'IGN pour la cartographie des sols et des cultures en France, qui combine six sources de données hétérogènes et démontre l'efficacité de la fusion multimodale pour améliorer la précision des modèles d'apprentissage profond.

Anatol Garioud, Sébastien Giordano, Nicolas David + 1 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Ce papier présente HSG-12M, un vaste ensemble de données de 12 millions de multigraphes spatiaux dérivés des spectres énergétiques de cristaux non hermitiens, généré par le pipeline automatisé Poly2Graph pour combler le manque de benchmarks à grande échelle en physique de la matière condensée et en apprentissage géométrique.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

Le papier présente AutoV, un cadre léger qui améliore les modèles vision-langage en remplaçant l'ingénierie manuelle des prompts visuels par une récupération adaptative guidée par un classement basé sur la perte d'un modèle pré-entraîné, éliminant ainsi le besoin d'annotations manuelles tout en augmentant significativement les performances sur diverses tâches.

Yuan Zhang, Chun-Kai Fan, Sicheng Yu + 6 more2026-03-06💻 cs

Graph-Based Multi-Modal Light-weight Network for Adaptive Brain Tumor Segmentation

Cet article présente GMLN-BTS, un réseau neuronal léger basé sur des graphes pour la segmentation adaptative des tumeurs cérébrales qui, grâce à ses modules innovants d'encodage, d'interaction multimodale et de raffinement, atteint des performances de pointe avec une réduction massive de 98 % des paramètres par rapport aux modèles 3D Transformer dominants.

Guohao Huo, Ruiting Dai, Zitong Wang + 2 more2026-03-06💻 cs