cs.CV articles | Gist.Science

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Ce papier présente SJD-PV, un cadre d'accélération sans entraînement pour la génération d'images autoregressive qui améliore l'efficacité du décodage jusqu'à 30 % en vérifiant simultanément des groupes de tokens corrélés, appelés « phrases », plutôt que de les traiter individuellement.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

Le papier présente CalibFusion, une méthode de fusion Radar-Caméra basée sur des transformateurs qui affine de manière différentiable l'étalonnage extrinsèque pour améliorer la détection 2D dans les environnements aquatiques, en surmontant les défis liés aux textures limitées et aux interférences des vagues.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Cette étude démontre que l'initialisation par bruit sémantique, bien qu'efficace pour les images, n'apporte pas d'amélioration statistiquement significative aux modèles de génération vidéo par rapport au bruit gaussien standard, soulignant ainsi la nécessité de diagnostics spécifiques dans l'espace du bruit pour ce domaine.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Cet article propose une méthode d'apprentissage profond non supervisée, basée sur un autoencodeur convolutif et une nouvelle fonction de perte de distance angulaire spectrale pondérée, pour décomposer automatiquement et objectivement les images hyperspectrales infrarouges de coupes transversales de peintures à l'huile historiques, comme démontré sur le Retable de Gand.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

AutoFigure-Edit: Generating Editable Scientific Illustration

Le papier présente AutoFigure-Edit, un système intégré capable de générer à partir de textes scientifiques longs des illustrations vectorielles (SVG) entièrement modifiables et adaptables stylistiquement grâce à des images de référence, comblant ainsi les lacunes des systèmes automatisés existants en matière d'édition, de contrôle stylistique et d'efficacité.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Cette étude propose un modèle hybride de classification combinant l'apprentissage par quelques exemples (FSL) et l'intelligence artificielle explicable (XAI) pour identifier avec précision et transparence les maladies des feuilles de maïs, de riz et de blé, même avec des données annotées limitées.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Cet article propose PRPO, une méthode d'optimisation de politique relative parallèle, et MCDR-Bench, une nouvelle plateforme d'évaluation, pour surmonter les limitations actuelles des modèles LVLMs dans l'analyse approfondie de graphiques en résolvant les conflits d'entraînement et en permettant une évaluation objective des capacités de raisonnement complexe.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Ce papier présente MultiGen, un moteur de jeu basé sur la diffusion qui intègre une mémoire externe persistante et modifiable pour permettre un contrôle éditables des environnements et une génération cohérente de mondes multijoueurs interactifs.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Ce papier présente VB, un nouveau benchmark conçu pour évaluer la capacité des modèles vision-langage à déterminer la visibilité d'éléments dans une image et à savoir s'abstenir lorsque la réponse est incertaine, en utilisant des modifications minimales contrôlées pour vérifier la robustesse et la cohérence de leurs jugements.

Neil Tripathi2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

Ce papier présente RADAR, un nouveau benchmark multimodal axé sur l'analyse des écarts dans les rapports de radiologie abdominale en 3D, conçu pour évaluer la capacité des modèles à réviser et à juger des modifications apportées aux rapports préliminaires par des radiologues seniors.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Le papier présente ECHO, un cadre multi-agents qui améliore l'extraction d'événements multimédias en itérant sur une hypergraphe d'événements partagée et en appliquant une stratégie de liaison avant attribution pour réduire les erreurs de propagation et surpasser les méthodes actuelles.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Cet article présente une méthode innovante utilisant la photogrammétrie par mouvement de structure (SfM) et des algorithmes de segmentation 3D sur des images mobiles pour reconstruire et analyser la taille et la forme des granulats dans les stockpiles, offrant ainsi un outil potentiel pour le contrôle qualité sur chantier.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Le papier présente TimeSpot, un nouveau benchmark évaluant la capacité des modèles vision-langage à déduire des attributs géographiques et temporels à partir d'images réelles, révélant ainsi des lacunes significatives dans leur raisonnement spatio-temporel physique.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Le papier présente « Narrative Weaver », un cadre novateur qui résout le défi de la cohérence visuelle à long terme et du contrôle multimodal dans la génération de contenu en intégrant une planification narrative par un modèle de langage multimodal, un module de contrôle fin avec mémoire dynamique, et une stratégie d'entraînement progressive, le tout validé par un nouveau jeu de données dédié à la publicité e-commerce.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Cet article présente une nouvelle méthode d'apprentissage non supervisé combinant filtrage convolutif et réseaux de neurones pour reconstruire avec une haute résolution les images de faisceaux d'ions bruitées dans les accélérateurs de particules, permettant ainsi une détection inédite des structures de halo au-delà de sept écarts-types sans nécessiter de jeux de données d'entraînement.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Cette étude évalue l'adaptation du modèle fondamental géospatial TerraMind aux tâches d'imagerie hyperspectrale via des stratégies d'ajustement spectral, révélant que bien que l'adaptation soit possible avec une baisse de performance modérée, les modèles natifs restent supérieurs et soulignent la nécessité d'intégrer nativement les données spectrales dans les futures architectures.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

Cet article présente un cadre robuste de détection en un seul tir de volant de badminton pour robots mobiles, incluant un nouveau jeu de données annoté semi-automatiquement et un modèle YOLOv8 optimisé pour gérer les vues égocentriques dynamiques et les environnements variés.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

Soft Equivariance Regularization for Invariant Self-Supervised Learning

Ce papier propose la régularisation d'équivariance douce (SER), une méthode plug-in qui découple l'apprentissage de l'invariance et de l'équivariance en appliquant cette dernière à une carte de tokens intermédiaire, améliorant ainsi les performances de l'apprentissage auto-supervisé sur la reconnaissance d'images, la robustesse aux perturbations géométriques et la détection d'objets sans nécessiter de prédictions de transformation ni d'augmenter significativement le coût computationnel.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

L'article présente HARP, une méthode d'apprentissage profond qui harmonise les données d'IRM de diffusion in vivo en s'entraînant exclusivement sur des fantômes, éliminant ainsi le besoin de cohortes humaines multi-sites complexes pour réduire la variabilité inter-scanners.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Cette étude propose d'utiliser des trajectoires de regard séquentielles comme signal de supervision pour entraîner des modèles vision-langage médicaux à raisonner visuellement de manière similaire aux radiologues, améliorant ainsi leurs performances tant en domaine qu'en dehors de celui-ci.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

← Précédent Suivant →