Composition-Grounded Data Synthesis for Visual Reasoning

Cet article présente COGS, un cadre de synthèse de données ancré sur la composition qui améliore les capacités de raisonnement des modèles de langage multimodaux préentraînés en décomposant et recomposant systématiquement des questions semences pour générer des données synthétiques, permettant ainsi des gains significatifs sur des tâches de raisonnement visuel complexes comme l'analyse de graphiques et de documents web.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

Weakly Supervised Concept Learning with Class-Level Priors for Interpretable Medical Diagnosis

Cet article propose le PCP, un cadre d'apprentissage faiblement supervisé qui utilise des priors de concepts au niveau des classes pour prédire des concepts médicaux interprétables sans annotations explicites ni modèles linguistiques, améliorant ainsi significativement la précision des concepts tout en maintenant des performances de classification compétitives sur plusieurs jeux de données médicaux.

Md Nahiduzzaman, Steven Korevaar, Alireza Bab-Hadiashar + 1 more2026-03-05💻 cs

Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation

Cet article propose un cadre novateur de concordance sémantique sensible aux contours, baptisé ESC, qui fusionne de manière résiliente les modalités événementielle et RVB pour la segmentation sémantique dans des conditions extrêmes en récodant les caractéristiques hétérogènes à l'aide d'indicateurs d'incertitude et d'un dictionnaire de contours préétabli.

Nan Bao, Yifan Zhao, Lin Zhu + 1 more2026-03-05💻 cs

Scriboora: Rethinking Human Pose Forecasting

Ce papier présente Scriboora, une étude qui établit un pipeline unifié pour la prévision de poses humaines, démontre l'efficacité de l'adaptation de modèles de traitement de la parole à cette tâche pour atteindre l'état de l'art, et évalue la robustesse des modèles face au bruit des estimateurs de pose grâce à une nouvelle variation de jeu de données et un réglage fin non supervisé.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-05💻 cs

MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

Le papier présente MatPedia, un modèle fondationnel génératif universel qui, grâce à une représentation conjointe RGB-PBR et une architecture de diffusion vidéo entraînée sur un corpus hybride, unifie la synthèse de matériaux haute fidélité et les tâches de décomposition intrinsèque pour dépasser les méthodes existantes en qualité et en diversité.

Di Luo, Shuhui Yang, Mingxin Yang + 6 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

Le papier présente VideoChat-M1, un système multi-agents innovant qui améliore la compréhension vidéo grâce à une planification collaborative de politiques apprise par renforcement, permettant aux agents d'ajuster dynamiquement leurs stratégies d'invocation d'outils et d'interagir pour atteindre des performances de pointe sur plusieurs benchmarks.

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

Cette étude propose une approche automatisée en plusieurs étapes pour détecter les fractures de la colonne cervicale en reconstruisant des volumes 3D estimés à partir de segmentations 2D orthogonales fusionnées, permettant ainsi d'obtenir des performances diagnostiques comparables à celles des radiologues experts tout en réduisant la complexité dimensionnelle du traitement.

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI

First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

Ce papier présente la première compétition internationale sur la reconnaissance biométrique des pas, qui a mobilisé 23 équipes pour évaluer des modèles sur le vaste jeu de données UNB StepUP-P150, révélant des performances prometteuses tout en soulignant les défis persistants liés à la généralisation aux variations de chaussures.

Robyn Larracy, Eve MacDonald, Angkoon Phinyomark + 5 more2026-03-05🤖 cs.LG

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

Cet article présente le CASG, un cadre d'orientation de sécurité adaptatif et sans entraînement qui résout les conflits entre catégories de contenus préjudiciables dans les modèles de diffusion texte-vers-image en identifiant dynamiquement la catégorie de risque la plus pertinente pour appliquer une guidance ciblée, réduisant ainsi significativement le taux de génération d'images nocives.

Yongli Xiang, Ziming Hong, Zhaoqing Wang + 3 more2026-03-05💻 cs

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Skullptor comble le fossé entre les modèles fondationnels rapides et les méthodes d'optimisation coûteuses en combinant une prédiction de normales multi-vues par attention croisée avec une optimisation d'inverse rendering, permettant ainsi une reconstruction 3D haute fidélité de têtes en quelques secondes avec un nombre réduit de vues.

Noé Artru, Rukhshanda Hussain, Emeline Got + 3 more2026-03-05💻 cs