Scriboora: Rethinking Human Pose Forecasting

Ce papier présente Scriboora, une étude qui établit un pipeline unifié pour la prévision de poses humaines, démontre l'efficacité de l'adaptation de modèles de traitement de la parole à cette tâche pour atteindre l'état de l'art, et évalue la robustesse des modèles face au bruit des estimateurs de pose grâce à une nouvelle variation de jeu de données et un réglage fin non supervisé.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-05💻 cs

MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

Le papier présente MatPedia, un modèle fondationnel génératif universel qui, grâce à une représentation conjointe RGB-PBR et une architecture de diffusion vidéo entraînée sur un corpus hybride, unifie la synthèse de matériaux haute fidélité et les tâches de décomposition intrinsèque pour dépasser les méthodes existantes en qualité et en diversité.

Di Luo, Shuhui Yang, Mingxin Yang + 6 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

Le papier présente VideoChat-M1, un système multi-agents innovant qui améliore la compréhension vidéo grâce à une planification collaborative de politiques apprise par renforcement, permettant aux agents d'ajuster dynamiquement leurs stratégies d'invocation d'outils et d'interagir pour atteindre des performances de pointe sur plusieurs benchmarks.

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

Cette étude propose une approche automatisée en plusieurs étapes pour détecter les fractures de la colonne cervicale en reconstruisant des volumes 3D estimés à partir de segmentations 2D orthogonales fusionnées, permettant ainsi d'obtenir des performances diagnostiques comparables à celles des radiologues experts tout en réduisant la complexité dimensionnelle du traitement.

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI

First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

Ce papier présente la première compétition internationale sur la reconnaissance biométrique des pas, qui a mobilisé 23 équipes pour évaluer des modèles sur le vaste jeu de données UNB StepUP-P150, révélant des performances prometteuses tout en soulignant les défis persistants liés à la généralisation aux variations de chaussures.

Robyn Larracy, Eve MacDonald, Angkoon Phinyomark + 5 more2026-03-05🤖 cs.LG

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

Cet article présente le CASG, un cadre d'orientation de sécurité adaptatif et sans entraînement qui résout les conflits entre catégories de contenus préjudiciables dans les modèles de diffusion texte-vers-image en identifiant dynamiquement la catégorie de risque la plus pertinente pour appliquer une guidance ciblée, réduisant ainsi significativement le taux de génération d'images nocives.

Yongli Xiang, Ziming Hong, Zhaoqing Wang + 3 more2026-03-05💻 cs

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Skullptor comble le fossé entre les modèles fondationnels rapides et les méthodes d'optimisation coûteuses en combinant une prédiction de normales multi-vues par attention croisée avec une optimisation d'inverse rendering, permettant ainsi une reconstruction 3D haute fidélité de têtes en quelques secondes avec un nombre réduit de vues.

Noé Artru, Rukhshanda Hussain, Emeline Got + 3 more2026-03-05💻 cs

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

Ce papier propose la Redistribution du Crédit Spatial (SCR), une méthode d'inférence sans entraînement qui atténue les hallucinations des modèles vision-langage en rééquilibrant les activations des patches visuels pour restaurer le contexte spatial supprimé, améliorant ainsi la fiabilité sans sacrifier la qualité de génération ni la latence.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

Improved MambdaBDA Framework for Robust Building Damage Assessment Across Disaster Domains

Cet article propose une amélioration du cadre MambaBDA pour l'évaluation des dommages aux bâtiments par imagerie satellite, intégrant une perte focale, des portes d'attention et un module d'alignement pour surmonter les déséquilibres de classes et les décalages de domaine, ce qui se traduit par des gains de performance significatifs, notamment dans des scénarios de catastrophes non vus.

Alp Eren Gençoğlu, Hazım Kemal Ekenel2026-03-05💻 cs