cs.CV artículos | Gist.Science

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

El artículo presenta CIPHER, un método sin entrenamiento que suprime las alucinaciones visuales en modelos de lenguaje-vision grandes (LVLM) proyectando sus estados ocultos fuera de un subespacio de baja dimensión identificado mediante perturbaciones de imágenes contrafactuales generadas por difusión.

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

El artículo presenta StructDamage, un nuevo conjunto de datos unificado y a gran escala que agrupa y reetiqueta más de 78.000 imágenes de nueve tipos de superficies para entrenar y evaluar modelos de aprendizaje profundo capaces de detectar y clasificar grietas y defectos estructurales con alta precisión y generalización.

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

Este artículo presenta un método de aprendizaje auto-supervisado espacial basado en autoencodificadores para la selección de picos en imágenes de espectrometría de masas, junto con una nueva evaluación basada en máscaras de segmentación experta, demostrando un rendimiento superior a los métodos actuales en la identificación de picos con estructura espacial en diversos conjuntos de datos.

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

El artículo presenta IMTBench, un nuevo benchmark de 2.500 muestras que evalúa la traducción automática de texto en imágenes (IIMT) en múltiples escenarios y idiomas mediante métricas de calidad de traducción, preservación del fondo y alineación cruzada entre el texto generado y la imagen renderizada, revelando importantes brechas de rendimiento en los sistemas actuales.

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Naïve Exposure of Generative AI Capabilities Undermines Deepfake Detection

Este trabajo demuestra que la exposición ingenua de las capacidades de refinamiento y razonamiento de los sistemas de IA generativa comercial, accesibles mediante instrucciones benignas, socava fundamentalmente a los detectores de deepfakes actuales al permitir la creación de imágenes que evaden la detección, preservan la identidad y mejoran la calidad perceptual, revelando una desconexión crítica entre los modelos de amenazas existentes y las capacidades reales de estas herramientas.

Sunpill Kim, Chanwoo Hwang, Minsu Kim, Jae Hong Seo2026-03-12🤖 cs.AI

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

Este artículo propone un nuevo método de flujo autorregresivo con restricciones mal condicionadas que descompone la restauración de imágenes UHD en un proceso progresivo de lo grueso a lo fino, utilizando Flow Matching y regularización de estabilidad numérica para lograr una recuperación detallada eficiente y estable en resoluciones de 4K o superiores.

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

Este trabajo propone un marco de desentrelado semántico guiado visualmente que, mediante una alineación latente cruzada y un módulo de fusión híbrida, supera las limitaciones de los modelos texto-imagen generales para generar imágenes médicas de alta calidad y control fino, mejorando tanto la síntesis como el rendimiento en tareas de clasificación posteriores.

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

El artículo presenta STEPH, un nuevo esquema que utiliza mezclas de vectores de tareas dispersas y redes hiperpara transferir eficientemente conocimiento generalizable entre diferentes tipos de cáncer en imágenes de diapositivas completas mediante la fusión de modelos, logrando mejoras significativas en la predicción del pronóstico sin necesidad de entrenamiento conjunto a gran escala.

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime

El artículo presenta DSFlash, un modelo de baja latencia para la generación de grafos de escena panorámicos que logra un procesamiento en tiempo real de 56 cuadros por segundo sin sacrificar el rendimiento, ofrece información contextual completa y es accesible para entrenarse en hardware antiguo y limitado.

Julian Lorenz, Vladyslav Kovganko, Elias Kohout, Mrunmai Phatak, Daniel Kienzle, Rainer Lienhart2026-03-12💻 cs

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

Este estudio evalúa la sensibilidad de once modelos fundacionales para la segmentación de imágenes médicas de musculo-esqueléticas, revelando que el rendimiento varía significativamente según la estrategia de prompt y la anatomía, y que el uso de prompts humanos reduce el rendimiento en comparación con los prompts ideales, lo que complica la selección del modelo óptimo para entornos clínicos reales.

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec2026-03-12🤖 cs.AI

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

Este trabajo presenta un marco novedoso de análisis cognitivo de defectos en polímeros reforzados con fibra de carbono (CFRP) mediante termografía infrarroja activa y modelos de visión-linguaje, que elimina la necesidad de conjuntos de datos de entrenamiento específicos mediante el uso de adaptadores ligeros para lograr una detección y localización de defectos subsuperficiales en configuración *zero-shot*.

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman2026-03-12⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

El artículo presenta P-GSVC, el primer marco de salpicadura gaussiana 2D progresiva en capas que ofrece una solución unificada para la representación escalable de imágenes y videos mediante una estrategia de entrenamiento conjunto que mejora significativamente la calidad de la reconstrucción progresiva en comparación con los métodos secuenciales.

Longan Wang, Yuang Shi, Wei Tsang Ooi2026-03-12💻 cs

PET-F2I: A Comprehensive Benchmark and Parameter-Efficient Fine-Tuning of LLMs for PET/CT Report Impression Generation

El artículo presenta PET-F2I, un nuevo benchmark de 41.000 informes y un modelo de lenguaje eficiente (PET-F2I-7B) que supera a los modelos existentes en la generación de impresiones diagnósticas para imágenes PET/CT mediante métricas clínicas innovadoras y ajuste fino de parámetros.

Yuchen Liu, Wenbo Zhang, Liling Peng, Yichi Zhang, Yu Fu, Xin Guo, Chao Qu, Yuan Qi, Le Xue2026-03-12💻 cs

UniStitch: Unifying Semantic and Geometric Features for Image Stitching

El artículo presenta UniStitch, un marco innovador que unifica características geométricas y semánticas mediante los módulos Neural Point Transformer y Adaptive Mixture of Experts para superar a los métodos actuales en la costura de imágenes.

Yuan Mei, Lang Nie, Kang Liao, Yunqiu Xu, Chunyu Lin, Bin Xiao2026-03-12💻 cs

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

El artículo R4-CGQA aborda la evaluación de la calidad de imágenes de gráficos por computadora mediante la creación de un nuevo dataset con descripciones detalladas y la propuesta de un marco de dos corrientes basado en recuperación que mejora significativamente la capacidad de los modelos de lenguaje visuales para juzgar y explicar la calidad visual.

Zhuangzi Li, Jian Jin, Shilv Cai, Weisi Lin2026-03-12💻 cs

Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution

Este trabajo presenta LIDA, un marco de atribución de imágenes generadas por IA independiente del modelo que reformula el problema como una tarea de recuperación de instancias mediante un módulo de generación de huellas dactilares de bajo nivel de bits y adaptación con pocos ejemplos, logrando un rendimiento superior en la detección y atribución de deepfakes en escenarios sin datos previos o con pocos ejemplos.

Hongsong Wang, Renxi Cheng, Chaolei Han, Jie Gui2026-03-12💻 cs

Need for Speed: Zero-Shot Depth Completion with Single-Step Diffusion

El artículo presenta Marigold-SSD, un marco de finalización de profundidad de un solo paso que aprovecha los fuertes priores de difusión para lograr una percepción 3D robusta y eficiente sin necesidad de optimización en tiempo de prueba, superando a los métodos existentes en generalización y velocidad de inferencia.

Jakub Gregorek, Paraskevas Pegios, Nando Metzger, Konrad Schindler, Theodora Kontogianni, Lazaros Nalpantidis2026-03-12💻 cs

Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection

Este trabajo propone un nuevo método de detección de imágenes sintéticas llamado "discrepancia de transición latente" (LTD), que aprovecha las inconsistencias en la coherencia estructural y la atención semántica entre capas de redes neuronales para lograr una detección más precisa, generalizable y robusta frente a imágenes generadas por IA.

Yawen Yang, Feng Li, Shuqi Kong, Yunfeng Diao, Xinjian Gao, Zenglin Shi, Meng Wang2026-03-12💻 cs

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

El artículo presenta HyPER-GAN, un modelo generativo ligero basado en parches híbridos que mejora la fotorealidad de datos sintéticos en tiempo real mediante una estrategia de entrenamiento que combina imágenes emparejadas y parches del mundo real, superando a los métodos actuales en latencia, realismo visual y consistencia semántica.

Stefanos Pasios, Nikos Nikolaidis2026-03-12💻 cs

MUNIChus: Multilingual News Image Captioning Benchmark

El artículo presenta MUNIChus, el primer benchmark multilingüe de descripción de imágenes de noticias que abarca nueve idiomas, incluidos varios de recursos limitados, para evaluar y fomentar el desarrollo de modelos avanzados en este campo.

Yuji Chen, Alistair Plum, Hansi Hettiarachchi, Diptesh Kanojia, Saroj Basnet, Marcos Zampieri, Tharindu Ranasinghe2026-03-12💬 cs.CL

← Anterior Siguiente →