cs.CV articles | Gist.Science

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Cet article propose une décomposition fonctionnelle en anneau de tenseurs reparamétrée, utilisant des représentations neuronales implicites et une analyse fréquentielle pour améliorer la récupération de données multidimensionnelles continues, surpassant ainsi les méthodes existantes dans des tâches telles que l'inpainting et la super-résolution.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters

Le papier propose FastLightGen, une méthode de distillation synergique qui transforme les modèles de génération vidéo lourds en versions légères et rapides en réduisant simultanément le nombre d'étapes d'inférence et la taille du modèle, établissant ainsi un nouvel état de l'art en matière d'efficacité.

Shitong Shao, Yufei Gu, Zeke Xie2026-03-09💻 cs

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

Le papier présente VSearcher, un agent de recherche multimodal entraîné par renforcement qui transforme des modèles statiques en agents capables d'effectuer des recherches web complexes et multi-tours en temps réel, surpassant ainsi les modèles propriétaires sur des benchmarks dédiés.

Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng2026-03-09💻 cs

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

Ce papier propose Think-as-You-See (TaYS), un cadre unifié permettant un raisonnement par chaîne de pensée en flux continu et simultané pour les modèles de vision-langage, surpassant les approches par lots traditionnelles en réduisant la latence et en améliorant les performances sur des tâches de compréhension vidéo dynamique.

Jialiang Zhang, Junlong Tong, Junyan Lin, Hao Wu, Yirong Sun, Yunpu Ma, Xiaoyu Shen2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

Le papier présente CoEditor++, un cadre d'édition d'images sans entraînement qui améliore la consistance visuelle et le raisonnement sémantique en décomposant les instructions en étapes cognitives structurées, surpassant ainsi les modèles open-source et fermés sur des tâches d'édition générales et responsables.

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs

RoboLayout: Differentiable 3D Scene Generation for Embodied Agents

Le papier présente RoboLayout, une extension de LayoutVLM qui intègre des contraintes de reachabilité dans un processus d'optimisation différentiable pour générer des scènes 3D sémantiquement cohérentes et physiquement réalisables par divers agents incarnés.

Ali Shamsaddinlou2026-03-09🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Ce papier présente Omni-C, un encodeur Transformer dense unique qui compresse des modalités hétérogènes (images, audio, texte) en apprenant des représentations partagées via un pré-entraînement contrastif, permettant ainsi de réduire considérablement la complexité computationnelle et l'empreinte mémoire par rapport aux architectures multimodales traditionnelles.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Clinical-Injection Transformer with Domain-Adapted MAE for Lupus Nephritis Prognosis Prediction

Cet article propose un cadre multimodal innovant combinant un Transformer à injection clinique et un auto-encodeur masqué adapté au domaine pour prédire avec une grande précision le pronostic de la néphropathie lupique pédiatrique à partir de biopsies standardisées et de données cliniques.

Yuewen Huang, Zhitao Ye, Guangnan Feng, Fudan Zheng, Xia Gao, Yutong Lu2026-03-09🤖 cs.LG

Edges Are All You Need: Robust Gait Recognition via Label-Free Structure

Cet article propose SKETCHGAIT, un cadre de reconnaissance de la démarche robuste et sans étiquettes qui exploite les contours d'images RGB pour extraire des structures partielles denses et complémentaires aux silhouettes traditionnelles, atteignant ainsi des performances de pointe sur plusieurs jeux de données.

Chao Zhang, Zhuang Zheng, Ruixin Li, Zhanyong Mei2026-03-09💻 cs

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

Cet article présente une méthode de prédiction de trajectoire pilotée par jumeau numérique pour les intersections urbaines V2X, qui intègre une nouvelle fonction de perte « twin loss » pour garantir la conformité aux règles de circulation et la sécurité tout en maintenant une précision de prédiction élevée.

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

Le papier présente AutoThinkRAG, un cadre innovant qui améliore la réponse aux questions sur des documents complexes en allouant dynamiquement les chemins de raisonnement via un routeur de complexité et en découplant l'interprétation visuelle de la déduction logique pour optimiser à la fois les performances et les coûts d'inférence.

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Ce papier présente la méthode BISE, qui permet d'extraire des sous-réseaux exempts de biais à partir de modèles pré-entraînés standards par simple élagage, sans nécessiter de réentraînement ni de données supplémentaires.

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione2026-03-09🤖 cs.LG

Thinking with Spatial Code for Physical-World Video Reasoning

Ce papier présente « Thinking with Spatial Code », un cadre novateur qui transforme les vidéos RGB en représentations 3D explicites et temporellement cohérentes pour permettre aux grands modèles de langage de raisonner sur des questions physiques, surpassant ainsi les modèles propriétaires sur le benchmark VSI-Bench.

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille2026-03-09💻 cs

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

Cet article propose le premier cadre de vérification robuste couplée pour les détecteurs de points clés basés sur des cartes de chaleur, qui garantit la robustesse en bornant les déviations conjointes de tous les points clés via un problème de falsification résolu par programmation linéaire en nombres entiers mixtes (MILP).

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Le papier présente DreamCAD, un cadre génératif multimodal capable de produire des modèles CAO éditables (BRep) à partir de supervisions au niveau des points sans annotations spécifiques, permettant un entraînement à grande échelle sur des millions de maillages 3D et introduisant le jeu de données CADCap-1M pour les recherches texte-CAO.

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

Cet article propose ABRA, une nouvelle méthode d'apprentissage profond qui traite la correction des effets de lot biologique comme un problème de généralisation de domaine en utilisant une augmentation de représentation par perturbation adverse pour améliorer la classification des perturbations siRNA sur des données de criblage à haut contenu.

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

Cet article présente le Stabilisateur Post-Fusion (PFS), un module léger qui améliore la robustesse des détecteurs 3D multimodaux existants face aux défaillances des capteurs et aux changements de domaine en stabilisant les caractéristiques de la vue aérienne sans nécessiter de réentraînement complet.

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

Ce papier présente CBM-Suite, un cadre méthodologique qui surmonte les limitations fondamentales des modèles à goulot d'étranglement conceptuel (CBM) en proposant une métrique d'évaluation, en résolvant le problème de linéarité et en réduisant l'écart de précision, afin d'améliorer simultanément la performance et l'interprétabilité des modèles.

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Making Reconstruction FID Predictive of Diffusion Generation FID

Ce papier propose l'interpolated FID (iFID), une nouvelle métrique dérivée du rFID qui, en interpolant les représentations latentes avec leurs plus proches voisins, établit pour la première fois une forte corrélation avec le FID de génération des modèles de diffusion, contrairement au rFID classique.

Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang2026-03-09🤖 cs.LG

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Cet article propose l'« Implicit Error Counting » (IEC), une méthode d'apprentissage par renforcement sans référence qui remplace les rubriques d'évaluation par un comptage d'erreurs pondérées, démontrant ainsi son efficacité supérieure à l'approche « Rubrics as Rewards » pour le réessayage virtuel de vêtements où plusieurs réponses valides existent.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

← Précédent Suivant →