SOLAR: SVD-Optimized Lifelong Attention for Recommendation

Le papier présente SOLAR, un cadre de modélisation séquentielle pour les systèmes de recommandation qui utilise une attention optimisée par SVD pour réduire la complexité computationnelle tout en préservant la fonction softmax, permettant ainsi de gérer des séquences de comportement massives et d'améliorer significativement les performances en ligne chez Kuaishou.

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

Cette étude démontre que la combinaison de techniques d'augmentation de données, notamment les transformations affines aléatoires et les variations de couleur, optimise les performances d'un modèle Vision Transformer léger pour la reconnaissance de caractères bengalis manuscrits en palliant le manque de données.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

Synthetic-Child: An AIGC-Based Synthetic Data Pipeline for Privacy-Preserving Child Posture Estimation

Ce papier présente « Synthetic-Child », un pipeline de données synthétiques basé sur l'IA générative qui permet d'entraîner un modèle de détection de posture pour enfants avec une précision élevée et une confidentialité totale, en éliminant le besoin de photographies réelles d'enfants tout en garantissant un déploiement temps réel sur des dispositifs embarqués.

Taowen Zeng2026-03-04💻 cs

Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

Cet article propose IB-IUMAD, un nouveau cadre de détection d'anomalies multimodales incrémentielles qui résout le problème de l'oubli catastrophique en éliminant les caractéristiques redondantes et spuriaires grâce à une fusion par goulot d'étranglement de l'information et à un décodeur Mamba.

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Ce papier présente M3IRT, un cadre d'analyse basé sur la théorie de réponse à l'item multidimensionnelle et multimodale qui décompose les capacités des modèles et la difficulté des questions en composantes visuelles, textuelles et croisées, permettant ainsi d'identifier et de prioriser les questions véritablement multimodales pour améliorer la fiabilité et l'efficacité des évaluations des grands modèles de langage multimodaux.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

DREAM: Where Visual Understanding Meets Text-to-Image Generation

Le papier présente DREAM, un cadre unifié qui combine l'apprentissage de représentations visuelles et la génération d'images à partir de texte grâce à des techniques innovantes comme le réchauffement du masquage et le décodage aligné sémantiquement, permettant d'obtenir des performances supérieures à la fois en compréhension visuelle et en génération sans nécessiter de réordonnanceurs externes.

Chao Li, Tianhong Li, Sai Vidyaranya Nuthalapati + 8 more2026-03-04🤖 cs.LG

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

L'article présente VisionCreator, un modèle agent natif de génération visuelle unifiant compréhension, réflexion, planification et création, qui surpasse les modèles propriétaires plus grands grâce à des données d'entraînement spécialisées, une formation progressive et une évaluation rigoureuse sur un nouveau benchmark.

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs