Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Cette étude propose un système neurosymbolique capable de reconstruire des images médicales à partir de primitives visuelles pour générer des explications structurelles, surpassant les architectures d'apprentissage profond classiques en précision de classification et en transparence pour le diagnostic des anomalies histologiques.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

Le papier présente Prithvi-EO-2.0, un modèle fondamental géospatial open-source amélioré entraîné sur 4,2 millions d'échantillons temporels qui surpasse les modèles existants dans diverses tâches de télédétection et intègre une approche de science ouverte avec des experts du domaine pour des applications allant de la gestion des catastrophes à la surveillance des écosystèmes.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Le papier présente iLLaVA, une méthode novatrice qui accélère de manière end-to-end les modèles multimodaux en optimisant conjointement l'encodeur d'images et le LLM grâce à une stratégie de fusion de tokens recyclant l'information, permettant ainsi d'obtenir des gains significatifs en vitesse et en efficacité tout en surpassant les modèles plus petits.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

Le papier propose LangSurf, une méthode qui améliore la compréhension des scènes 3D en alignant précisément les champs linguistiques sur les surfaces des objets grâce à une stratégie d'entraînement conjoint et un module d'attention contextuelle hiérarchique, surpassant ainsi les méthodes existantes pour des tâches de segmentation, de suppression et d'édition d'instances.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Cet article propose une méthode permettant d'apprendre des modèles du monde symboliques abstraits à partir de démonstrations visuelles et de modèles vision-langage préentraînés, afin de résoudre par planification des tâches de prise de décision à long horizon dans des environnements robotiques complexes avec une généralisation zéro-shot.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

Le papier présente VL-Nav, une approche neuro-symbolique pour la navigation vision-langage qui combine raisonnement neuronal et guidage symbolique afin de permettre aux robots de décomposer des tâches complexes et d'explorer efficacement de grands environnements inconnus, atteignant des taux de réussite élevés dans des défis réels et simulés.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

Le papier présente Prompt-SID, un cadre d'apprentissage auto-supervisé pour le débruitage d'images uniques qui préserve les détails structurels grâce à un modèle de génération de représentations basé sur la diffusion latente et un mécanisme de réjouissance d'échelle, surpassant les méthodes existantes sur divers jeux de données synthétiques et réels.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Cet article propose un modèle d'apprentissage profond géométrique basé sur les transformers et des repères anatomiques sur des maillages tétraédriques pour améliorer le diagnostic de la maladie d'Alzheimer et prédire la positivité à l'amyloïde chez les patients à risque moyen, offrant ainsi une alternative non invasive et précise aux examens TEP coûteux.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

Le papier présente Snapmoji, un système qui génère instantanément des avatars 3D animables et personnalisables via une « dual-stylisation » combinant l'adaptation de domaine gaussienne et l'application d'un second style, tout en préservant l'identité de l'utilisateur et en permettant un rendu fluide sur mobile.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Ce papier présente SceneEval, un cadre d'évaluation et un benchmark de 500 scènes conçu pour mesurer de manière complète et interprétable la cohérence sémantique des scènes intérieures 3D générées à partir de texte, en évaluant à la fois les exigences explicites et les attentes implicites de plausibilité.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Cet article propose une méthode d'apprentissage rétrocompatible qui améliore la capacité discriminative des nouveaux modèles de recherche en assouplissant les contraintes d'alignement grâce à l'introduction de perturbations sur les prototypes des anciennes caractéristiques, évitant ainsi le coûteux processus de recalcul des embeddings.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Cet article propose une méthode unifiée pour la reconstruction 3D de deux mains à partir d'images monoculaires, combinant un encodeur d'alignement fusionnant des priors hétérogènes de modèles de vision fondamentaux pour l'alignement 2D et un modèle de diffusion sans pénétration pour garantir des interactions spatiales réalistes et robustes aux occlusions.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs