cs.CV articles | Gist.Science

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

Le papier présente CIPHER, une méthode sans entraînement qui supprime les hallucinations visuelles des modèles de langage-vision en projetant leurs états cachés hors d'un sous-espace caractéristique identifié grâce à un jeu de données de contre-factuels visuels.

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

Ce papier présente StructDamage, un ensemble de données unifié et à grande échelle comprenant environ 78 093 images de neuf types de surfaces, conçu pour améliorer la robustesse et la généralisation des modèles d'apprentissage profond dans la détection automatisée des fissures et défauts structuraux.

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

Cet article propose un réseau neuronal auto-supervisé spatial pour l'apprentissage de pics en imagerie par spectrométrie de masse, ainsi qu'une nouvelle procédure d'évaluation basée sur des masques de segmentation experte, démontrant une performance supérieure aux méthodes actuelles sur plusieurs jeux de données publics.

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

Ce papier présente IMTBench, un nouveau benchmark multi-scénarios et cross-modaux composé de 2 500 échantillons réels, conçu pour évaluer de manière holistique la qualité de la traduction, la préservation du contexte visuel et l'alignement cross-modal dans la traduction de texte en image (IIMT).

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Naïve Exposure of Generative AI Capabilities Undermines Deepfake Detection

Ce papier démontre que l'exposition naïve des capacités de raffinement d'images et de raisonnement des IA génératives commerciales, via des interfaces de chatbot accessibles, compromet fondamentalement les détecteurs de deepfakes les plus avancés en permettant aux utilisateurs non experts de créer des images authentiques et indétectables sans violer les politiques de sécurité.

Sunpill Kim, Chanwoo Hwang, Minsu Kim, Jae Hong Seo2026-03-12🤖 cs.AI

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

Cet article propose une nouvelle méthode de défloutage d'images ultra-haute définition (UHD) basée sur un flot autorégressif avec contrainte mal conditionnée, qui décompose la restauration en un processus progressif de raffinement grossier à fin et utilise l'appariement de flux pour générer des détails fins tout en garantissant une stabilité numérique et une efficacité d'inférence.

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

Cet article propose un cadre de désentanglement sémantique guidé par la vision qui, en alignant les priors visuels et en utilisant un module de fusion hybride au sein d'un transformateur de diffusion, permet une génération d'images médicales hautement contrôlable et de haute qualité pour surmonter les limites des modèles texte-à-image actuels.

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

Le papier propose STEPH, une méthode efficace de fusion de modèles via des hyperréseaux et un mélange parcimonieux de vecteurs de tâches, qui améliore la prédiction du pronostic des cancers sur des images de lames entières en transférant des connaissances généralisables entre 13 types de cancers sans nécessiter d'entraînement conjoint à grande échelle.

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime

DSFlash est un modèle à faible latence capable de générer des graphes de scène panoramiques complets en temps réel (56 images par seconde) avec une efficacité des ressources exceptionnelle, comblant ainsi le fossé entre les performances avancées et les contraintes matérielles des dispositifs périphériques.

Julian Lorenz, Vladyslav Kovganko, Elias Kohout, Mrunmai Phatak, Daniel Kienzle, Rainer Lienhart2026-03-12💻 cs

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

Cette étude évalue la sensibilité de onze modèles fondationnels promptables à la segmentation CT musculo-squelettique, révélant que leurs performances varient considérablement selon les stratégies d'incitation et les structures anatomiques, et que l'utilisation de prompts humains réels entraîne une baisse de performance par rapport aux résultats obtenus avec des prompts idéaux, rendant le choix du modèle optimal pour un usage clinique humain complexe.

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec2026-03-12🤖 cs.AI

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

Cet article propose un cadre novateur de détection de défauts en zéro-shot pour les polymères renforcés de fibres de carbone en thermographie infrarouge active, utilisant des modèles vision-langage préentraînés adaptés via un connecteur léger pour éliminer le besoin de jeux de données d'entraînement coûteux tout en obtenant des performances de localisation élevées.

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman2026-03-12⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

Cet article présente P-GSVC, un cadre unifié de splatting gaussien 2D progressif et multicouche qui permet une reconstruction d'images et de vidéos évolutive grâce à une stratégie d'entraînement conjoint surpassant les méthodes séquentielles.

Longan Wang, Yuang Shi, Wei Tsang Ooi2026-03-12💻 cs

PET-F2I: A Comprehensive Benchmark and Parameter-Efficient Fine-Tuning of LLMs for PET/CT Report Impression Generation

Ce papier présente PET-F2I, un benchmark à grande échelle et un modèle de 7B paramètres finement ajusté qui améliorent significativement la génération automatisée de résumés diagnostiques pour les examens TEP/CT en introduisant des métriques cliniques rigoureuses.

Yuchen Liu, Wenbo Zhang, Liling Peng, Yichi Zhang, Yu Fu, Xin Guo, Chao Qu, Yuan Qi, Le Xue2026-03-12💻 cs

UniStitch: Unifying Semantic and Geometric Features for Image Stitching

Le papier présente UniStitch, un cadre d'assemblage d'images pionnier qui unifie les caractéristiques géométriques et sémantiques grâce à un module Neural Point Transformer et un mélange adaptatif d'experts, surpassant ainsi les méthodes existantes en gérant efficacement des scènes complexes.

Yuan Mei, Lang Nie, Kang Liao, Yunqiu Xu, Chunyu Lin, Bin Xiao2026-03-12💻 cs

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

Ce papier propose R4-CGQA, un cadre à deux flux basé sur la récupération qui améliore l'évaluation de la qualité des images de graphisme informatique par les modèles vision-langage en s'appuyant sur un nouveau jeu de données annoté et des descriptions visuellement similaires pour fournir des jugements précis et explicables.

Zhuangzi Li, Jian Jin, Shilv Cai, Weisi Lin2026-03-12💻 cs

Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution

Ce papier présente LIDA, un cadre d'attribution d'images générées par IA sans modèle spécifique qui reformule le problème comme une tâche de recherche d'instances en utilisant des empreintes numériques basées sur les bits de faible poids et une adaptation à quelques exemples, surpassant ainsi les méthodes existantes dans des scénarios sans échantillons ou à peu d'échantillons.

Hongsong Wang, Renxi Cheng, Chaolei Han, Jie Gui2026-03-12💻 cs

Need for Speed: Zero-Shot Depth Completion with Single-Step Diffusion

Le papier présente Marigold-SSD, un cadre de complétion de profondeur en zéro coup qui utilise des priors de diffusion en une seule étape pour éliminer l'optimisation coûteuse au moment de l'inférence, offrant ainsi une perception 3D robuste et efficace avec une généralisation cross-domaine exceptionnelle.

Jakub Gregorek, Paraskevas Pegios, Nando Metzger, Konrad Schindler, Theodora Kontogianni, Lazaros Nalpantidis2026-03-12💻 cs

Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection

Cet article propose une nouvelle méthode de détection d'images synthétiques appelée « Latent Transition Discrepancy » (LTD), qui exploite les incohérences dans les transitions de caractéristiques entre les couches des réseaux de neurones pour identifier les images générées par IA avec une précision et une généralisation supérieures aux approches actuelles.

Yawen Yang, Feng Li, Shuqi Kong, Yunfeng Diao, Xinjian Gao, Zenglin Shi, Meng Wang2026-03-12💻 cs

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

Ce papier présente HyPER-GAN, un modèle d'apprentissage profond léger et rapide basé sur une architecture U-Net et une stratégie d'entraînement hybride, conçu pour améliorer en temps réel le photoréalisme des données synthétiques tout en préservant la cohérence sémantique et en réduisant les artefacts visuels.

Stefanos Pasios, Nikos Nikolaidis2026-03-12💻 cs

MUNIChus: Multilingual News Image Captioning Benchmark

Ce papier présente MUNIChus, le premier benchmark multilingue de légendage d'images d'actualités couvrant neuf langues, dont des langues à ressources limitées, afin de combler le manque de données non anglaises et d'évaluer les modèles d'état de l'art sur cette tâche complexe.

Yuji Chen, Alistair Plum, Hansi Hettiarachchi, Diptesh Kanojia, Saroj Basnet, Marcos Zampieri, Tharindu Ranasinghe2026-03-12💬 cs.CL

← Précédent Suivant →