StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

Ce papier présente StructDamage, un ensemble de données unifié et à grande échelle comprenant environ 78 093 images de neuf types de surfaces, conçu pour améliorer la robustesse et la généralisation des modèles d'apprentissage profond dans la détection automatisée des fissures et défauts structuraux.

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

Cet article propose un réseau neuronal auto-supervisé spatial pour l'apprentissage de pics en imagerie par spectrométrie de masse, ainsi qu'une nouvelle procédure d'évaluation basée sur des masques de segmentation experte, démontrant une performance supérieure aux méthodes actuelles sur plusieurs jeux de données publics.

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

Ce papier présente IMTBench, un nouveau benchmark multi-scénarios et cross-modaux composé de 2 500 échantillons réels, conçu pour évaluer de manière holistique la qualité de la traduction, la préservation du contexte visuel et l'alignement cross-modal dans la traduction de texte en image (IIMT).

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Naïve Exposure of Generative AI Capabilities Undermines Deepfake Detection

Ce papier démontre que l'exposition naïve des capacités de raffinement d'images et de raisonnement des IA génératives commerciales, via des interfaces de chatbot accessibles, compromet fondamentalement les détecteurs de deepfakes les plus avancés en permettant aux utilisateurs non experts de créer des images authentiques et indétectables sans violer les politiques de sécurité.

Sunpill Kim, Chanwoo Hwang, Minsu Kim, Jae Hong Seo2026-03-12🤖 cs.AI

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

Cet article propose une nouvelle méthode de défloutage d'images ultra-haute définition (UHD) basée sur un flot autorégressif avec contrainte mal conditionnée, qui décompose la restauration en un processus progressif de raffinement grossier à fin et utilise l'appariement de flux pour générer des détails fins tout en garantissant une stabilité numérique et une efficacité d'inférence.

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

Cet article propose un cadre de désentanglement sémantique guidé par la vision qui, en alignant les priors visuels et en utilisant un module de fusion hybride au sein d'un transformateur de diffusion, permet une génération d'images médicales hautement contrôlable et de haute qualité pour surmonter les limites des modèles texte-à-image actuels.

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

Le papier propose STEPH, une méthode efficace de fusion de modèles via des hyperréseaux et un mélange parcimonieux de vecteurs de tâches, qui améliore la prédiction du pronostic des cancers sur des images de lames entières en transférant des connaissances généralisables entre 13 types de cancers sans nécessiter d'entraînement conjoint à grande échelle.

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

Cette étude évalue la sensibilité de onze modèles fondationnels promptables à la segmentation CT musculo-squelettique, révélant que leurs performances varient considérablement selon les stratégies d'incitation et les structures anatomiques, et que l'utilisation de prompts humains réels entraîne une baisse de performance par rapport aux résultats obtenus avec des prompts idéaux, rendant le choix du modèle optimal pour un usage clinique humain complexe.

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec2026-03-12🤖 cs.AI

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

Cet article propose un cadre novateur de détection de défauts en zéro-shot pour les polymères renforcés de fibres de carbone en thermographie infrarouge active, utilisant des modèles vision-langage préentraînés adaptés via un connecteur léger pour éliminer le besoin de jeux de données d'entraînement coûteux tout en obtenant des performances de localisation élevées.

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman2026-03-12⚡ eess

PET-F2I: A Comprehensive Benchmark and Parameter-Efficient Fine-Tuning of LLMs for PET/CT Report Impression Generation

Ce papier présente PET-F2I, un benchmark à grande échelle et un modèle de 7B paramètres finement ajusté qui améliorent significativement la génération automatisée de résumés diagnostiques pour les examens TEP/CT en introduisant des métriques cliniques rigoureuses.

Yuchen Liu, Wenbo Zhang, Liling Peng, Yichi Zhang, Yu Fu, Xin Guo, Chao Qu, Yuan Qi, Le Xue2026-03-12💻 cs

Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution

Ce papier présente LIDA, un cadre d'attribution d'images générées par IA sans modèle spécifique qui reformule le problème comme une tâche de recherche d'instances en utilisant des empreintes numériques basées sur les bits de faible poids et une adaptation à quelques exemples, surpassant ainsi les méthodes existantes dans des scénarios sans échantillons ou à peu d'échantillons.

Hongsong Wang, Renxi Cheng, Chaolei Han, Jie Gui2026-03-12💻 cs

Need for Speed: Zero-Shot Depth Completion with Single-Step Diffusion

Le papier présente Marigold-SSD, un cadre de complétion de profondeur en zéro coup qui utilise des priors de diffusion en une seule étape pour éliminer l'optimisation coûteuse au moment de l'inférence, offrant ainsi une perception 3D robuste et efficace avec une généralisation cross-domaine exceptionnelle.

Jakub Gregorek, Paraskevas Pegios, Nando Metzger, Konrad Schindler, Theodora Kontogianni, Lazaros Nalpantidis2026-03-12💻 cs

Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection

Cet article propose une nouvelle méthode de détection d'images synthétiques appelée « Latent Transition Discrepancy » (LTD), qui exploite les incohérences dans les transitions de caractéristiques entre les couches des réseaux de neurones pour identifier les images générées par IA avec une précision et une généralisation supérieures aux approches actuelles.

Yawen Yang, Feng Li, Shuqi Kong, Yunfeng Diao, Xinjian Gao, Zenglin Shi, Meng Wang2026-03-12💻 cs