Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Cet article propose une décomposition fonctionnelle en anneau de tenseurs reparamétrée, utilisant des représentations neuronales implicites et une analyse fréquentielle pour améliorer la récupération de données multidimensionnelles continues, surpassant ainsi les méthodes existantes dans des tâches telles que l'inpainting et la super-résolution.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

Ce papier propose Think-as-You-See (TaYS), un cadre unifié permettant un raisonnement par chaîne de pensée en flux continu et simultané pour les modèles de vision-langage, surpassant les approches par lots traditionnelles en réduisant la latence et en améliorant les performances sur des tâches de compréhension vidéo dynamique.

Jialiang Zhang, Junlong Tong, Junyan Lin, Hao Wu, Yirong Sun, Yunpu Ma, Xiaoyu Shen2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

Le papier présente CoEditor++, un cadre d'édition d'images sans entraînement qui améliore la consistance visuelle et le raisonnement sémantique en décomposant les instructions en étapes cognitives structurées, surpassant ainsi les modèles open-source et fermés sur des tâches d'édition générales et responsables.

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Ce papier présente Omni-C, un encodeur Transformer dense unique qui compresse des modalités hétérogènes (images, audio, texte) en apprenant des représentations partagées via un pré-entraînement contrastif, permettant ainsi de réduire considérablement la complexité computationnelle et l'empreinte mémoire par rapport aux architectures multimodales traditionnelles.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

Cet article présente une méthode de prédiction de trajectoire pilotée par jumeau numérique pour les intersections urbaines V2X, qui intègre une nouvelle fonction de perte « twin loss » pour garantir la conformité aux règles de circulation et la sécurité tout en maintenant une précision de prédiction élevée.

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

Le papier présente AutoThinkRAG, un cadre innovant qui améliore la réponse aux questions sur des documents complexes en allouant dynamiquement les chemins de raisonnement via un routeur de complexité et en découplant l'interprétation visuelle de la déduction logique pour optimiser à la fois les performances et les coûts d'inférence.

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Le papier présente DreamCAD, un cadre génératif multimodal capable de produire des modèles CAO éditables (BRep) à partir de supervisions au niveau des points sans annotations spécifiques, permettant un entraînement à grande échelle sur des millions de maillages 3D et introduisant le jeu de données CADCap-1M pour les recherches texte-CAO.

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

Cet article propose ABRA, une nouvelle méthode d'apprentissage profond qui traite la correction des effets de lot biologique comme un problème de généralisation de domaine en utilisant une augmentation de représentation par perturbation adverse pour améliorer la classification des perturbations siRNA sur des données de criblage à haut contenu.

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

Ce papier présente CBM-Suite, un cadre méthodologique qui surmonte les limitations fondamentales des modèles à goulot d'étranglement conceptuel (CBM) en proposant une métrique d'évaluation, en résolvant le problème de linéarité et en réduisant l'écart de précision, afin d'améliorer simultanément la performance et l'interprétabilité des modèles.

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Making Reconstruction FID Predictive of Diffusion Generation FID

Ce papier propose l'interpolated FID (iFID), une nouvelle métrique dérivée du rFID qui, en interpolant les représentations latentes avec leurs plus proches voisins, établit pour la première fois une forte corrélation avec le FID de génération des modèles de diffusion, contrairement au rFID classique.

Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang2026-03-09🤖 cs.LG

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Cet article propose l'« Implicit Error Counting » (IEC), une méthode d'apprentissage par renforcement sans référence qui remplace les rubriques d'évaluation par un comptage d'erreurs pondérées, démontrant ainsi son efficacité supérieure à l'approche « Rubrics as Rewards » pour le réessayage virtuel de vêtements où plusieurs réponses valides existent.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI