WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

WristMIR est un cadre d'extraction de radiographies du poignet pédiatrique qui exploite des rapports radiologiques structurés et une localisation spécifique aux os pour améliorer la précision du diagnostic des fractures et l'aide à la décision clinique grâce à une recherche d'images guidée par les régions anatomiques.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs

The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

Cette étude présente le Garbage Dataset (GD), un ensemble de données public de 12 259 images couvrant 10 catégories de déchets, qui a été rigoureusement validé et utilisé pour évaluer des modèles d'apprentissage profond, démontrant que l'EfficientNetV2S atteint les meilleures performances (95,13 % de précision) tout en mettant en lumière les défis liés au déséquilibre des classes et à la complexité de l'arrière-plan pour la ségrégation automatisée des déchets.

Suman Kunwar2026-03-04💻 cs

UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

L'article UniTAF propose un cadre modulaire unifiant la synthèse vocale et la génération faciale à partir de l'audio pour faciliter le transfert de caractéristiques internes et améliorer la cohérence entre la parole et les expressions faciales, en validant ainsi la faisabilité de cette approche d'unification plutôt qu'en se concentrant sur la qualité de génération.

Qiangong Zhou, Nagasaka Tomohiro2026-03-04⚡ eess

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

CRAFT-LoRA est une méthode de personnalisation de la génération d'images qui améliore la fidélité du contenu et la cohérence stylistique grâce à un ajustement de rang contraint, une agrégation d'adaptateurs guidée par des invites et un schéma de guidance sans réentraînement, permettant ainsi un contrôle précis et une fusion stable des modules LoRA.

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Ce papier présente CFE-Bench, un nouveau benchmark multimodal évaluant les capacités de raisonnement des grands modèles de langage sur plus de 20 domaines STEM à l'aide de problèmes d'examen universitaires authentiques, révélant que même les modèles les plus avancés peinent à maintenir des états intermédiaires cohérents dans des solutions multi-étapes malgré des performances correctes sur des sous-questions isolées.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL