Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Le papier propose Graph-of-Mark (GoM), une technique de prompt visuel au niveau des pixels qui superpose des graphes de scène aux images pour améliorer la capacité de raisonnement spatial des modèles de langage multimodaux en capturant les relations entre les objets, surpassant ainsi les méthodes existantes comme Set-of-Mark.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Ce papier présente SJD-PV, un cadre d'accélération sans entraînement pour la génération d'images autoregressive qui améliore l'efficacité du décodage jusqu'à 30 % en vérifiant simultanément des groupes de tokens corrélés, appelés « phrases », plutôt que de les traiter individuellement.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

Le papier présente CalibFusion, une méthode de fusion Radar-Caméra basée sur des transformateurs qui affine de manière différentiable l'étalonnage extrinsèque pour améliorer la détection 2D dans les environnements aquatiques, en surmontant les défis liés aux textures limitées et aux interférences des vagues.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Cet article propose une méthode d'apprentissage profond non supervisée, basée sur un autoencodeur convolutif et une nouvelle fonction de perte de distance angulaire spectrale pondérée, pour décomposer automatiquement et objectivement les images hyperspectrales infrarouges de coupes transversales de peintures à l'huile historiques, comme démontré sur le Retable de Gand.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

AutoFigure-Edit: Generating Editable Scientific Illustration

Le papier présente AutoFigure-Edit, un système intégré capable de générer à partir de textes scientifiques longs des illustrations vectorielles (SVG) entièrement modifiables et adaptables stylistiquement grâce à des images de référence, comblant ainsi les lacunes des systèmes automatisés existants en matière d'édition, de contrôle stylistique et d'efficacité.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Cet article propose PRPO, une méthode d'optimisation de politique relative parallèle, et MCDR-Bench, une nouvelle plateforme d'évaluation, pour surmonter les limitations actuelles des modèles LVLMs dans l'analyse approfondie de graphiques en résolvant les conflits d'entraînement et en permettant une évaluation objective des capacités de raisonnement complexe.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Le papier présente ECHO, un cadre multi-agents qui améliore l'extraction d'événements multimédias en itérant sur une hypergraphe d'événements partagée et en appliquant une stratégie de liaison avant attribution pour réduire les erreurs de propagation et surpasser les méthodes actuelles.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Cet article présente une méthode innovante utilisant la photogrammétrie par mouvement de structure (SfM) et des algorithmes de segmentation 3D sur des images mobiles pour reconstruire et analyser la taille et la forme des granulats dans les stockpiles, offrant ainsi un outil potentiel pour le contrôle qualité sur chantier.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Le papier présente TimeSpot, un nouveau benchmark évaluant la capacité des modèles vision-langage à déduire des attributs géographiques et temporels à partir d'images réelles, révélant ainsi des lacunes significatives dans leur raisonnement spatio-temporel physique.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Le papier présente « Narrative Weaver », un cadre novateur qui résout le défi de la cohérence visuelle à long terme et du contrôle multimodal dans la génération de contenu en intégrant une planification narrative par un modèle de langage multimodal, un module de contrôle fin avec mémoire dynamique, et une stratégie d'entraînement progressive, le tout validé par un nouveau jeu de données dédié à la publicité e-commerce.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Cet article présente une nouvelle méthode d'apprentissage non supervisé combinant filtrage convolutif et réseaux de neurones pour reconstruire avec une haute résolution les images de faisceaux d'ions bruitées dans les accélérateurs de particules, permettant ainsi une détection inédite des structures de halo au-delà de sept écarts-types sans nécessiter de jeux de données d'entraînement.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Cette étude évalue l'adaptation du modèle fondamental géospatial TerraMind aux tâches d'imagerie hyperspectrale via des stratégies d'ajustement spectral, révélant que bien que l'adaptation soit possible avec une baisse de performance modérée, les modèles natifs restent supérieurs et soulignent la nécessité d'intégrer nativement les données spectrales dans les futures architectures.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs