BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

Ce papier présente BWCache, une méthode sans entraînement qui accélère la génération vidéo par des Transformers de diffusion en réutilisant dynamiquement les caractéristiques des blocs lors des étapes intermédiaires grâce à un indicateur de similarité, permettant ainsi une accélération jusqu'à 6 fois sans compromettre la qualité visuelle.

Hanshuai Cui, Zhiqing Tang, Zhifei Xu + 3 more2026-03-03🤖 cs.AI

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Ce papier présente I2S, un cadre léger et rapide pour l'identification d'utilisateurs en temps réel dans les systèmes de réalité augmentée, qui exploite l'analyse de la pose 3D de la main et une nouvelle descripteur d'enveloppe spatiale inter-mains (IHSE) pour atteindre une précision exceptionnelle de 97,52 % lors de l'interaction humain-objet.

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

DistillKac: Few-Step Image Generation via Damped Wave Equations

Le papier présente DistillKac, un générateur d'images rapide qui utilise l'équation d'onde amortie et sa représentation stochastique de Kac pour déplacer la masse de probabilité à vitesse finie, permettant ainsi une génération de haute qualité en très peu d'évaluations tout en garantissant une stabilité numérique supérieure à celle des modèles de diffusion.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Cet article propose un cadre d'évaluation ouvert et évolutif pour les modèles de langage multimodaux (MLLM) afin d'évaluer leur compréhension des émotions visuelles via une tâche de jugement d'énoncés automatisée, révélant ainsi des progrès significatifs tout en mettant en lumière un écart persistant par rapport à la subjectivité humaine.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Le papier présente COMPASS, un cadre pratique qui améliore l'efficacité et la précision de la prédiction conformale pour les métriques de segmentation médicale en effectuant une calibration directe dans l'espace des représentations des réseaux de neurones, produisant ainsi des intervalles d'incertitude plus étroits et robustes face aux décalages de covariables.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Le papier présente CircuitSense, une nouvelle norme de référence hiérarchique évaluant la capacité des grands modèles multimodaux à passer de la compréhension visuelle de schémas de circuits à la dérivation de modèles mathématiques symboliques, révélant ainsi un écart critique entre la reconnaissance visuelle et le raisonnement analytique dans les modèles actuels.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Le papier présente DiffInk, un cadre innovant combinant un auto-encodeur variationnel (InkVAE) et un transformateur de diffusion latente (InkDiT) pour générer des lignes d'écriture manuscrite en ligne complètes avec une haute fidélité stylistique et une précision des glyphes, surpassant les méthodes actuelles en efficacité et en cohérence structurelle.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Ce papier présente EditReward, un modèle de récompense open-source entraîné sur un vaste ensemble de données de préférences humaines annotées par des experts, qui surpasse les modèles existants en alignement avec les préférences humaines et permet d'identifier des sous-ensembles de données de haute qualité pour améliorer l'entraînement des modèles d'édition d'images.

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Stylos est un cadre innovant de transfert de style 3D basé sur une seule passe avant de splatting gaussien qui génère des scènes stylisées géométriquement fidèles et cohérentes sur plusieurs vues, sans nécessiter d'optimisation par scène ni de poses précalculées, en utilisant une architecture Transformer couplée à une perte de style 3D basée sur des voxels.

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs

Culture In a Frame: C3^3B as a Comic-Based Benchmark for Multimodal Culturally Awareness

Cet article présente C³B, un nouveau benchmark multilingue et multitâche basé sur des bandes dessinées conçu pour évaluer et améliorer les capacités de conscience culturelle des modèles de langage multimodaux, en surmontant les limites des benchmarks existants grâce à une difficulté progressive et à des scénarios interculturels complexes.

Yuchen Song, Andong Chen, Wenxin Zhu + 4 more2026-03-03🤖 cs.AI