SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Ce papier présente SJD-PV, un cadre d'accélération sans entraînement pour la génération d'images autoregressive qui améliore l'efficacité du décodage jusqu'à 30 % en vérifiant simultanément des groupes de tokens corrélés, appelés « phrases », plutôt que de les traiter individuellement.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

Le papier présente CalibFusion, une méthode de fusion Radar-Caméra basée sur des transformateurs qui affine de manière différentiable l'étalonnage extrinsèque pour améliorer la détection 2D dans les environnements aquatiques, en surmontant les défis liés aux textures limitées et aux interférences des vagues.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Cet article propose une méthode d'apprentissage profond non supervisée, basée sur un autoencodeur convolutif et une nouvelle fonction de perte de distance angulaire spectrale pondérée, pour décomposer automatiquement et objectivement les images hyperspectrales infrarouges de coupes transversales de peintures à l'huile historiques, comme démontré sur le Retable de Gand.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

AutoFigure-Edit: Generating Editable Scientific Illustration

Le papier présente AutoFigure-Edit, un système intégré capable de générer à partir de textes scientifiques longs des illustrations vectorielles (SVG) entièrement modifiables et adaptables stylistiquement grâce à des images de référence, comblant ainsi les lacunes des systèmes automatisés existants en matière d'édition, de contrôle stylistique et d'efficacité.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Cet article propose PRPO, une méthode d'optimisation de politique relative parallèle, et MCDR-Bench, une nouvelle plateforme d'évaluation, pour surmonter les limitations actuelles des modèles LVLMs dans l'analyse approfondie de graphiques en résolvant les conflits d'entraînement et en permettant une évaluation objective des capacités de raisonnement complexe.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Le papier présente ECHO, un cadre multi-agents qui améliore l'extraction d'événements multimédias en itérant sur une hypergraphe d'événements partagée et en appliquant une stratégie de liaison avant attribution pour réduire les erreurs de propagation et surpasser les méthodes actuelles.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Cet article présente une méthode innovante utilisant la photogrammétrie par mouvement de structure (SfM) et des algorithmes de segmentation 3D sur des images mobiles pour reconstruire et analyser la taille et la forme des granulats dans les stockpiles, offrant ainsi un outil potentiel pour le contrôle qualité sur chantier.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Le papier présente TimeSpot, un nouveau benchmark évaluant la capacité des modèles vision-langage à déduire des attributs géographiques et temporels à partir d'images réelles, révélant ainsi des lacunes significatives dans leur raisonnement spatio-temporel physique.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Le papier présente « Narrative Weaver », un cadre novateur qui résout le défi de la cohérence visuelle à long terme et du contrôle multimodal dans la génération de contenu en intégrant une planification narrative par un modèle de langage multimodal, un module de contrôle fin avec mémoire dynamique, et une stratégie d'entraînement progressive, le tout validé par un nouveau jeu de données dédié à la publicité e-commerce.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Cet article présente une nouvelle méthode d'apprentissage non supervisé combinant filtrage convolutif et réseaux de neurones pour reconstruire avec une haute résolution les images de faisceaux d'ions bruitées dans les accélérateurs de particules, permettant ainsi une détection inédite des structures de halo au-delà de sept écarts-types sans nécessiter de jeux de données d'entraînement.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Cette étude évalue l'adaptation du modèle fondamental géospatial TerraMind aux tâches d'imagerie hyperspectrale via des stratégies d'ajustement spectral, révélant que bien que l'adaptation soit possible avec une baisse de performance modérée, les modèles natifs restent supérieurs et soulignent la nécessité d'intégrer nativement les données spectrales dans les futures architectures.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

Soft Equivariance Regularization for Invariant Self-Supervised Learning

Ce papier propose la régularisation d'équivariance douce (SER), une méthode plug-in qui découple l'apprentissage de l'invariance et de l'équivariance en appliquant cette dernière à une carte de tokens intermédiaire, améliorant ainsi les performances de l'apprentissage auto-supervisé sur la reconnaissance d'images, la robustesse aux perturbations géométriques et la détection d'objets sans nécessiter de prédictions de transformation ni d'augmenter significativement le coût computationnel.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

L'article présente HARP, une méthode d'apprentissage profond qui harmonise les données d'IRM de diffusion in vivo en s'entraînant exclusivement sur des fantômes, éliminant ainsi le besoin de cohortes humaines multi-sites complexes pour réduire la variabilité inter-scanners.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Cette étude propose d'utiliser des trajectoires de regard séquentielles comme signal de supervision pour entraîner des modèles vision-langage médicaux à raisonner visuellement de manière similaire aux radiologues, améliorant ainsi leurs performances tant en domaine qu'en dehors de celui-ci.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs