cs.CV articles | Gist.Science

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Cette étude propose un système neurosymbolique capable de reconstruire des images médicales à partir de primitives visuelles pour générer des explications structurelles, surpassant les architectures d'apprentissage profond classiques en précision de classification et en transparence pour le diagnostic des anomalies histologiques.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Input-Adaptive Generative Dynamics in Diffusion Models

Ce papier propose un cadre de diffusion adaptatif qui ajuste dynamiquement la trajectoire de génération en fonction de la complexité de chaque échantillon, permettant ainsi de réduire le nombre d'étapes d'échantillonnage tout en maintenant la qualité des images générées.

Yucheng Xing, Xiaodong Liu, Xin Wang2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

Le papier présente Prithvi-EO-2.0, un modèle fondamental géospatial open-source amélioré entraîné sur 4,2 millions d'échantillons temporels qui surpasse les modèles existants dans diverses tâches de télédétection et intègre une approche de science ouverte avec des experts du domaine pour des applications allant de la gestion des catastrophes à la surveillance des écosystèmes.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Le papier présente iLLaVA, une méthode novatrice qui accélère de manière end-to-end les modèles multimodaux en optimisant conjointement l'encodeur d'images et le LLM grâce à une stratégie de fusion de tokens recyclant l'information, permettant ainsi d'obtenir des gains significatifs en vitesse et en efficacité tout en surpassant les modèles plus petits.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Ce papier présente HarmonicEval, une métrique d'évaluation automatique sans référence capable d'agréger des scores par critère pour évaluer plusieurs tâches multimodales, et introduit le benchmark MMHE basé sur 18 000 jugements humains pour valider la généralisabilité de cette approche.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

Le papier propose LangSurf, une méthode qui améliore la compréhension des scènes 3D en alignant précisément les champs linguistiques sur les surfaces des objets grâce à une stratégie d'entraînement conjoint et un module d'attention contextuelle hiérarchique, surpassant ainsi les méthodes existantes pour des tâches de segmentation, de suppression et d'édition d'instances.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Cet article propose une méthode permettant d'apprendre des modèles du monde symboliques abstraits à partir de démonstrations visuelles et de modèles vision-langage préentraînés, afin de résoudre par planification des tâches de prise de décision à long horizon dans des environnements robotiques complexes avec une généralisation zéro-shot.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Cet article propose des stratégies de réduction de données basées sur le clustering latent pour optimiser l'entraînement adversaire semi-supervisé, permettant de réduire considérablement les besoins en données non étiquetées et le temps de calcul tout en préservant une robustesse élevée.

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Cet article propose une méthode d'estimation de terme guidé basée sur le maximum a posteriori (MAP) permettant d'adapter des modèles de diffusion préentraînés de manière agnostique aux problèmes d'inversion, améliorant ainsi la préservation des structures et la cohérence des résultats dans des tâches comme la super-résolution et l'inpainting.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

Ce papier présente la commande prédictive générative (GPC), un cadre d'apprentissage qui combine un clone de politique générative, un modèle du monde prédictif et un planificateur en ligne pour surpasser le clonage comportemental dans diverses tâches de manipulation robotique, tant en simulation que dans le monde réel.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

Le papier présente VL-Nav, une approche neuro-symbolique pour la navigation vision-langage qui combine raisonnement neuronal et guidage symbolique afin de permettre aux robots de décomposer des tâches complexes et d'explorer efficacement de grands environnements inconnus, atteignant des taux de réussite élevés dans des défis réels et simulés.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

Le papier présente Prompt-SID, un cadre d'apprentissage auto-supervisé pour le débruitage d'images uniques qui préserve les détails structurels grâce à un modèle de génération de représentations basé sur la diffusion latente et un mécanisme de réjouissance d'échelle, surpassant les méthodes existantes sur divers jeux de données synthétiques et réels.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

LaVCa: LLM-assisted Visual Cortex Captioning

L'article présente LaVCa, une méthode innovante utilisant des modèles de langage pour générer des légendes naturelles précises décrivant la sélectivité des voxels du cortex visuel, surpassant ainsi les approches précédentes en révélant des différenciations fonctionnelles fines et des représentations de concepts multiples.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Cette étude propose une méthode de classification des sous-types de gliomes atteignant une précision de 99,25 % en fusionnant des images IRM multimodales prétraitées via une architecture UNET 2D/3D et une technique de moyenne pondérée, puis en les soumettant à un modèle ResNet50.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Cet article propose LOOP, une nouvelle méthode d'apprentissage par renforcement pour le fine-tuning des modèles de diffusion texte-à-image, qui combine les techniques de réduction de variance de REINFORCE avec la robustesse de PPO afin d'optimiser le compromis entre efficacité des échantillons et performance finale.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Cet article propose un modèle d'apprentissage profond géométrique basé sur les transformers et des repères anatomiques sur des maillages tétraédriques pour améliorer le diagnostic de la maladie d'Alzheimer et prédire la positivité à l'amyloïde chez les patients à risque moyen, offrant ainsi une alternative non invasive et précise aux examens TEP coûteux.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

Le papier présente Snapmoji, un système qui génère instantanément des avatars 3D animables et personnalisables via une « dual-stylisation » combinant l'adaptation de domaine gaussienne et l'application d'un second style, tout en préservant l'identité de l'utilisateur et en permettant un rendu fluide sur mobile.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Ce papier présente SceneEval, un cadre d'évaluation et un benchmark de 500 scènes conçu pour mesurer de manière complète et interprétable la cohérence sémantique des scènes intérieures 3D générées à partir de texte, en évaluant à la fois les exigences explicites et les attentes implicites de plausibilité.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Cet article propose une méthode d'apprentissage rétrocompatible qui améliore la capacité discriminative des nouveaux modèles de recherche en assouplissant les contraintes d'alignement grâce à l'introduction de perturbations sur les prototypes des anciennes caractéristiques, évitant ainsi le coûteux processus de recalcul des embeddings.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Cet article propose une méthode unifiée pour la reconstruction 3D de deux mains à partir d'images monoculaires, combinant un encodeur d'alignement fusionnant des priors hétérogènes de modèles de vision fondamentaux pour l'alignement 2D et un modèle de diffusion sans pénétration pour garantir des interactions spatiales réalistes et robustes aux occlusions.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

← Précédent Suivant →