cs.CV articles | Gist.Science

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

Ce papier présente VisioMath, un nouveau benchmark de 1 800 problèmes mathématiques K-12 basé sur des diagrammes visuellement similaires, qui révèle les limites actuelles des modèles multimodaux dans le raisonnement comparatif fin et propose des stratégies d'alignement pour améliorer leur précision.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

VisualPrompter: Semantic-Aware Prompt Optimization with Visual Feedback for Text-to-Image Synthesis

Le papier présente VisualPrompter, un cadre d'ingénierie de prompts sans entraînement qui améliore l'alignement sémantique entre les descriptions utilisateurs et les images générées en utilisant un module d'autoréflexion visuelle pour identifier et intégrer des concepts manquants au niveau atomique.

Shiyu Wu, Mingzhen Sun, Weining Wang, Yequan Wang, Jing Liu2026-03-09💻 cs

SPoT: Subpixel Placement of Tokens in Vision Transformers

Le papier propose SPoT, une nouvelle stratégie de tokenisation pour les Vision Transformers qui positionne continuellement les tokens au niveau subpixel grâce à une recherche guidée par oracle, permettant ainsi de réduire considérablement le nombre de tokens nécessaires pour des prédictions précises tout en transformant la sparsité en un avantage stratégique.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

Le papier présente SPARC, un cadre innovant utilisant des autoencodeurs clairsemés alignés pour créer un espace latent unifié et compatible entre différents modèles et modalités, permettant ainsi une interprétabilité croisée directe et des applications pratiques comme la localisation guidée par le texte.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

Token Bottleneck: One Token to Remember Dynamics

Ce papier présente ToBo, une méthode d'apprentissage auto-supervisé qui condense les scènes dynamiques en un jeton unique pour capturer efficacement les dépendances temporelles et améliorer les tâches de compréhension séquentielle comme le suivi vidéo et la manipulation robotique.

Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun2026-03-09💻 cs

NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation

Ce papier présente NarrLV, le premier benchmark conçu pour évaluer de manière exhaustive la capacité des modèles de génération vidéo à long terme à exprimer des récits complexes, en introduisant de nouveaux concepts théoriques et métriques basés sur la théorie cinématographique.

X. Feng, H. Yu, M. Wu, S. Hu, J. Chen, C. Zhu, J. Wu, X. Chu, K. Huang2026-03-09💻 cs

Tomato Multi-Angle Multi-Pose Dataset for Fine-Grained Phenotyping

Ce papier présente TomatoMAP, un jeu de données complet de 64 464 images annotées de tomates acquises via un système IoT, conçu pour améliorer la phénotypage de précision grâce à des modèles d'apprentissage profond validés par une analyse comparée avec des experts humains.

Yujie Zhang, Sabine Struckmeyer, Andreas Kolb + 1 more2026-03-09💻 cs

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

Ce papier présente ExDD, un cadre novateur pour la détection de défauts industriels qui surpasse les limites des approches unilatérales en modélisant explicitement des distributions doubles via des banques de mémoire parallèles et en palliant la rareté des données grâce à une synthèse de défauts par des modèles de diffusion conditionnés textuellement.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

Gaussian Set Surface Reconstruction through Per-Gaussian Optimization

Ce papier propose GSSR, une méthode d'optimisation individuelle des gaussiennes qui, inspirée des surfaces d'ensembles de points, assure une répartition uniforme et une alignement précis des normales le long de la surface latente pour améliorer la précision géométrique et l'édition de scènes dans le cadre du 3D Gaussian Splatting.

Zhentao Huang, Di Wu, Zhenbang He, Minglun Gong2026-03-09💻 cs

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Cet article présente un système multi-agents basé sur un modèle de langage multimodal qui améliore considérablement l'extraction automatisée d'informations chimiques à partir de la littérature, surpassant l'état de l'art avec un score F1 de 76,27 % et démontrant une grande polyvalence pour divers types de tâches d'extraction.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Ce papier présente MAP, une méthode de décodage sans entraînement qui atténue les hallucinations des modèles vision-langage en traitant leurs états cachés comme une carte sémantique 2D et en utilisant des opérations d'attention à l'échelle de la carte pour améliorer la cohérence factuelle.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Ce papier présente VLMQ, un cadre de quantisation post-entraînement spécifiquement conçu pour les modèles vision-langage qui améliore les performances en identifiant et en priorisant les tokens saillants grâce à un facteur d'importance guidé par le gradient, comblant ainsi les lacunes des méthodes existantes face aux particularités des activations VLM.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

Ce papier propose SGDFuse, un modèle de diffusion conditionnelle guidé par le Segment Anything Model (SAM) qui utilise des masques sémantiques comme priors explicites pour fusionner fidèlement des images infrarouges et visibles, préservant ainsi les cibles clés et les détails texturaux tout en surpassant les méthodes existantes.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Multivariate Fields of Experts for Convergent Image Reconstruction

Ce papier présente les « multivariate fields of experts », un nouveau cadre d'apprentissage de priors d'images qui, grâce à des fonctions potentielles multivariées basées sur les enveloppes de Moreau, surpasse les modèles univariés et rivalise avec les méthodes d'apprentissage profond pour résoudre divers problèmes inverses tout en offrant une meilleure rapidité, une plus grande efficacité des paramètres et des garanties théoriques de convergence.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model

Le papier présente DianJin-OCR-R1, un modèle vision-langage amélioré par un raisonnement et une intercalation d'outils qui combine ses propres capacités de reconnaissance avec celles d'experts externes et une réanalyse visuelle pour réduire les hallucinations et surpasser les performances des modèles existants.

Qian Chen, Xianyin Zhang, Lifan Guo, Feng Chen, Chi Zhang2026-03-09💻 cs

SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

Cet article propose un cadre d'apprentissage auto-supervisé innovant pour la reconnaissance de la langue des signes, combinant une approche avec paires négatives libres et une nouvelle technique d'augmentation de données pour surmonter les limites des méthodes contrastives actuelles et améliorer la précision des représentations.

Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay2026-03-09💻 cs

RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement

Ce papier présente RED, un réseau de défloutage de mouvement guidé par des événements qui améliore la robustesse face aux données manquantes grâce à une stratégie de perturbation et à une fusion sélective des modalités après un mécanisme de disentanglement.

Yihong Leng, Siming Zheng, Jinwei Chen, Bo Li, Jiaojiao Li, Peng-Tao Jiang2026-03-09💻 cs

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Cet article propose Kernel VICReg, un cadre d'apprentissage auto-supervisé novateur qui transpose l'objectif VICReg dans un espace de Hilbert à noyau reproduisant (RKHS) pour capturer des dépendances non linéaires et améliorer les performances sur des données à structure complexe sans nécessiter d'étiquettes.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

Cet article présente C²Prompt, une nouvelle méthode d'apprentissage continu fédéré qui améliore la cohérence des connaissances par classe entre les clients grâce à un mécanisme de compensation de distribution locale et un schéma d'agrégation de prompts conscient des classes, permettant ainsi de surmonter l'oubli spatial et temporel et d'atteindre des performances de pointe.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

Cet article propose une approche de navigation pour robots quadrupèdes axée sur la décision sémantique, qui utilise une perception calibrée par la confiance et une sélection de sous-objectifs topologiques pour permettre une exploration efficace en monde ouvert sans dépendre de reconstructions géométriques denses.

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

← Précédent Suivant →