cs.CV articles | Gist.Science

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Le papier propose Graph-of-Mark (GoM), une technique de prompt visuel au niveau des pixels qui superpose des graphes de scène aux images pour améliorer la capacité de raisonnement spatial des modèles de langage multimodaux en capturant les relations entre les objets, surpassant ainsi les méthodes existantes comme Set-of-Mark.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Ce papier présente une méthode d'optimisation système pour l'inférence de modèles de génération vidéo basés sur les Diffusion Transformers, utilisant un encodage de position 3D séquentiel-parallèle avec un index temporel global pour réduire la latence et l'empreinte mémoire tout en permettant une génération vidéo quasi temps réel.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Cette étude révèle que l'approche « chaîne de pensée » (CoT) dégrade souvent les performances des modèles vision-langage en médecine en raison d'un goulot d'étranglement perceptif, et propose des interventions d'ancrage visuel pour restaurer la précision diagnostique.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Ce papier présente SJD-PV, un cadre d'accélération sans entraînement pour la génération d'images autoregressive qui améliore l'efficacité du décodage jusqu'à 30 % en vérifiant simultanément des groupes de tokens corrélés, appelés « phrases », plutôt que de les traiter individuellement.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

Le papier présente CalibFusion, une méthode de fusion Radar-Caméra basée sur des transformateurs qui affine de manière différentiable l'étalonnage extrinsèque pour améliorer la détection 2D dans les environnements aquatiques, en surmontant les défis liés aux textures limitées et aux interférences des vagues.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Cette étude démontre que l'initialisation par bruit sémantique, bien qu'efficace pour les images, n'apporte pas d'amélioration statistiquement significative aux modèles de génération vidéo par rapport au bruit gaussien standard, soulignant ainsi la nécessité de diagnostics spécifiques dans l'espace du bruit pour ce domaine.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Cet article propose une méthode d'apprentissage profond non supervisée, basée sur un autoencodeur convolutif et une nouvelle fonction de perte de distance angulaire spectrale pondérée, pour décomposer automatiquement et objectivement les images hyperspectrales infrarouges de coupes transversales de peintures à l'huile historiques, comme démontré sur le Retable de Gand.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

AutoFigure-Edit: Generating Editable Scientific Illustration

Le papier présente AutoFigure-Edit, un système intégré capable de générer à partir de textes scientifiques longs des illustrations vectorielles (SVG) entièrement modifiables et adaptables stylistiquement grâce à des images de référence, comblant ainsi les lacunes des systèmes automatisés existants en matière d'édition, de contrôle stylistique et d'efficacité.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Cette étude propose un modèle hybride de classification combinant l'apprentissage par quelques exemples (FSL) et l'intelligence artificielle explicable (XAI) pour identifier avec précision et transparence les maladies des feuilles de maïs, de riz et de blé, même avec des données annotées limitées.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Cet article propose PRPO, une méthode d'optimisation de politique relative parallèle, et MCDR-Bench, une nouvelle plateforme d'évaluation, pour surmonter les limitations actuelles des modèles LVLMs dans l'analyse approfondie de graphiques en résolvant les conflits d'entraînement et en permettant une évaluation objective des capacités de raisonnement complexe.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Ce papier présente MultiGen, un moteur de jeu basé sur la diffusion qui intègre une mémoire externe persistante et modifiable pour permettre un contrôle éditables des environnements et une génération cohérente de mondes multijoueurs interactifs.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Ce papier présente VB, un nouveau benchmark conçu pour évaluer la capacité des modèles vision-langage à déterminer la visibilité d'éléments dans une image et à savoir s'abstenir lorsque la réponse est incertaine, en utilisant des modifications minimales contrôlées pour vérifier la robustesse et la cohérence de leurs jugements.

Neil Tripathi2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

Ce papier présente RADAR, un nouveau benchmark multimodal axé sur l'analyse des écarts dans les rapports de radiologie abdominale en 3D, conçu pour évaluer la capacité des modèles à réviser et à juger des modifications apportées aux rapports préliminaires par des radiologues seniors.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Le papier présente ECHO, un cadre multi-agents qui améliore l'extraction d'événements multimédias en itérant sur une hypergraphe d'événements partagée et en appliquant une stratégie de liaison avant attribution pour réduire les erreurs de propagation et surpasser les méthodes actuelles.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Cet article présente une méthode innovante utilisant la photogrammétrie par mouvement de structure (SfM) et des algorithmes de segmentation 3D sur des images mobiles pour reconstruire et analyser la taille et la forme des granulats dans les stockpiles, offrant ainsi un outil potentiel pour le contrôle qualité sur chantier.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Le papier présente TimeSpot, un nouveau benchmark évaluant la capacité des modèles vision-langage à déduire des attributs géographiques et temporels à partir d'images réelles, révélant ainsi des lacunes significatives dans leur raisonnement spatio-temporel physique.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Le papier présente « Narrative Weaver », un cadre novateur qui résout le défi de la cohérence visuelle à long terme et du contrôle multimodal dans la génération de contenu en intégrant une planification narrative par un modèle de langage multimodal, un module de contrôle fin avec mémoire dynamique, et une stratégie d'entraînement progressive, le tout validé par un nouveau jeu de données dédié à la publicité e-commerce.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Cet article présente une nouvelle méthode d'apprentissage non supervisé combinant filtrage convolutif et réseaux de neurones pour reconstruire avec une haute résolution les images de faisceaux d'ions bruitées dans les accélérateurs de particules, permettant ainsi une détection inédite des structures de halo au-delà de sept écarts-types sans nécessiter de jeux de données d'entraînement.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Cette étude évalue l'adaptation du modèle fondamental géospatial TerraMind aux tâches d'imagerie hyperspectrale via des stratégies d'ajustement spectral, révélant que bien que l'adaptation soit possible avec une baisse de performance modérée, les modèles natifs restent supérieurs et soulignent la nécessité d'intégrer nativement les données spectrales dans les futures architectures.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

Cet article présente un cadre robuste de détection en un seul tir de volant de badminton pour robots mobiles, incluant un nouveau jeu de données annoté semi-automatiquement et un modèle YOLOv8 optimisé pour gérer les vues égocentriques dynamiques et les environnements variés.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

← Précédent Suivant →