Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Cette étude démontre que les modèles de fondation visuels, en particulier BiomedCLIP, peuvent servir d'extracteurs de caractéristiques polyvalents et performants pour la recherche d'images médicales par le contenu en radiologie, surpassant les systèmes spécialisés sans nécessiter d'entraînement supplémentaire sur un vaste ensemble de données de 1,6 million d'images.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

Cet article présente Implicit-Zoo, un jeu de données à grande échelle de fonctions implicites neuronales pour images 2D et scènes 3D, conçu pour surmonter les limitations de ressources et de données, et qui démontre des améliorations significatives dans des tâches telles que la classification d'images, la segmentation sémantique et la régression de pose 3D.

Qi Ma, Danda Pani Paudel, Ender Konukoglu + 1 more2026-03-04💻 cs

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

L'article présente Waffle, une nouvelle stratégie d'affinement de modèles multimodaux qui améliore la génération de code HTML à partir de designs d'interface utilisateur en utilisant un mécanisme d'attention conscient de la structure et un apprentissage contrastif, surpassant ainsi les méthodes actuelles sur les benchmarks WebSight-Test et Design2Code.

Shanchao Liang, Nan Jiang, Shangshu Qian + 1 more2026-03-04💬 cs.CL

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

Cet article présente une méthode d'apprentissage non supervisé basée sur la cohérence cyclique et l'optimisation bayésienne pour la correspondance de graphes multiples, permettant d'atteindre la précision des approches supervisées dans l'annotation sémantique des cellules de *C. elegans* et de construire le premier atlas cellulaire non supervisé de cet organisme.

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Cet article présente HSSBench, un benchmark multilingue de plus de 13 000 échantillons conçu pour évaluer et stimuler les capacités de raisonnement interdisciplinaire des modèles de langage multimodaux dans le domaine des sciences humaines et sociales, comblant ainsi une lacune majeure des évaluations actuelles axées sur les STEM.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

Ce papier présente Frame Guidance, une méthode d'entraînement gratuit qui permet un contrôle précis au niveau des images dans la génération de vidéos par diffusion en utilisant des signaux tels que des images clés ou des croquis, tout en optimisant l'utilisation de la mémoire et en assurant une cohérence globale sans nécessiter de fine-tuning.

Sangwon Jang, Taekyung Ki, Jaehyeong Jo + 4 more2026-03-04🤖 cs.AI