cs.CV artigos | Gist.Science

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

O artigo apresenta o CIPHER, um método livre de treinamento que suprime alucinações induzidas por visão em Modelos de Linguagem e Visão de Grande Escala (LVLMs) ao projetar estados ocultos intermediários para fora de um subespaço de baixa dimensão característico, identificado através de um conjunto de dados contrafactual (OHC-25K) gerado por difusão.

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

O artigo apresenta o StructDamage, um novo conjunto de dados unificado e em grande escala contendo aproximadamente 78.093 imagens de nove tipos de superfícies, criado para superar as limitações de generalização dos métodos atuais de detecção automática de fissuras e defeitos estruturais e promover pesquisas reprodutíveis e robustas.

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

Este artigo propõe uma rede neural autoencoder de aprendizado auto-supervisionado espacial para a seleção de picos em imagens de espectrometria de massa, acompanhada de um novo procedimento de avaliação baseado em máscaras de segmentação anotadas por especialistas, demonstrando superioridade sobre métodos atuais em diversos conjuntos de dados públicos.

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

O artigo apresenta o IMTBench, um novo benchmark multi-cenário e multi-modal composto por 2.500 amostras que avalia a qualidade da tradução de texto em imagens, a preservação do contexto visual e a consistência entre o texto traduzido e a renderização final, revelando lacunas significativas de desempenho nos sistemas atuais.

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Naïve Exposure of Generative AI Capabilities Undermines Deepfake Detection

Este trabalho demonstra que a exposição ingênua das capacidades de refinamento e raciocínio de sistemas de IA generativa comercial, acessíveis por meio de prompts benignos, mina fundamentalmente os detectores de deepfake modernos ao permitir a criação de imagens que evitam a detecção, preservam a identidade e possuem alta qualidade perceptual, revelando uma lacuna crítica entre os modelos de ameaça atuais e as capacidades reais dessas ferramentas.

Sunpill Kim, Chanwoo Hwang, Minsu Kim, Jae Hong Seo2026-03-12🤖 cs.AI

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

Este artigo propõe um novo método de fluxo autoregressivo com restrição de condicionamento ruim para desfoque de imagens em ultra-alta definição, decompondo a restauração em um processo progressivo de baixo para alto resolução e utilizando correspondência de fluxo com regularização para equilibrar a recuperação de detalhes finos e a eficiência de inferência em resoluções de 4K ou superiores.

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

Este artigo propõe um framework de desentrelaçamento semântico guiado visualmente que supera as limitações dos modelos texto-para-imagem na síntese de imagens médicas, utilizando alinhamento latente cross-modal e um módulo de fusão híbrida para garantir controle granular e alta qualidade na geração de dados.

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

O artigo propõe o STEPH, um novo esquema baseado em hiper-redes que utiliza a mistura esparsa de vetores de tarefas para transferir conhecimento generalizável entre diferentes tipos de câncer em imagens de lâminas inteiras (WSI), melhorando significativamente a precisão prognóstica e a eficiência computacional em comparação com métodos existentes.

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime

O artigo apresenta o DSFlash, um modelo de baixa latência e eficiente em recursos para geração de gráficos de cena panóptica que processa fluxos de vídeo a 56 quadros por segundo sem comprometer o desempenho, tornando-o ideal para dispositivos de borda e pesquisadores com limitações computacionais.

Julian Lorenz, Vladyslav Kovganko, Elias Kohout, Mrunmai Phatak, Daniel Kienzle, Rainer Lienhart2026-03-12💻 cs

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

Este estudo avalia a sensibilidade de 11 modelos fundamentais de segmentação de imagens a prompts humanos em tomografias computadorizadas musculoesqueléticas, revelando que o desempenho varia significativamente entre modelos e estratégias de prompt, e que a performance reportada com prompts ideais tende a superestimar os resultados em cenários reais guiados por humanos.

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec2026-03-12🤖 cs.AI

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

Este trabalho apresenta um novo framework guiado por linguagem para análise cognitiva de defeitos em compósitos de fibra de carbono usando termografia infravermelha ativa e modelos visão-linguagem pré-treinados, permitindo a detecção e localização de defeitos subsuperficiais em cenários zero-shot sem a necessidade de conjuntos de dados de treinamento específicos.

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman2026-03-12⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

O artigo apresenta o P-GSVC, um novo framework de splatting gaussiano 2D progressivo e em camadas que oferece uma solução unificada para reconstrução escalável de imagens e vídeos, utilizando uma estratégia de treinamento conjunto que supera métodos sequenciais ao garantir compatibilidade entre camadas e melhorar significativamente a qualidade da reconstrução.

Longan Wang, Yuang Shi, Wei Tsang Ooi2026-03-12💻 cs

PET-F2I: A Comprehensive Benchmark and Parameter-Efficient Fine-Tuning of LLMs for PET/CT Report Impression Generation

O artigo apresenta o PET-F2I-41K, um grande benchmark e um modelo de linguagem (PET-F2I-7B) ajustado de forma eficiente para gerar impressões diagnósticas precisas em relatórios de PET/CT, superando os modelos existentes ao introduzir métricas clínicas específicas e demonstrar superioridade em completude e confiabilidade factual.

Yuchen Liu, Wenbo Zhang, Liling Peng, Yichi Zhang, Yu Fu, Xin Guo, Chao Qu, Yuan Qi, Le Xue2026-03-12💻 cs

UniStitch: Unifying Semantic and Geometric Features for Image Stitching

O artigo apresenta o UniStitch, um framework inovador que unifica características geométricas e semânticas por meio de módulos como o Neural Point Transformer e o Adaptive Mixture of Experts, superando significativamente os métodos existentes de costura de imagens ao combinar as vantagens das abordagens tradicionais e baseadas em aprendizado.

Yuan Mei, Lang Nie, Kang Liao, Yunqiu Xu, Chunyu Lin, Bin Xiao2026-03-12💻 cs

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

O artigo R4-CGQA aborda a avaliação de qualidade de imagens de computação gráfica ao criar um novo conjunto de dados com descrições textuais e propor um framework de duas correntes baseado em recuperação (retrieval-augmented generation) que melhora significativamente a capacidade dos modelos de linguagem visuais de avaliar e explicar a qualidade dessas imagens.

Zhuangzi Li, Jian Jin, Shilv Cai, Weisi Lin2026-03-12💻 cs

Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution

Este artigo apresenta o LIDA, um novo paradigma de atribuição de imagens geradas por IA que, ao formular o problema como uma tarefa de recuperação de instâncias em vez de classificação e utilizar um módulo de impressão digital baseado em bits de baixa profundidade, alcança desempenho superior e é independente do modelo, funcionando eficazmente em cenários de poucos ou nenhum exemplo.

Hongsong Wang, Renxi Cheng, Chaolei Han, Jie Gui2026-03-12💻 cs

Need for Speed: Zero-Shot Depth Completion with Single-Step Diffusion

O artigo apresenta o Marigold-SSD, um novo framework de completude de profundidade em zero-shot que utiliza um modelo de difusão de passo único com fusão tardia para alcançar inferência rápida e robusta, eliminando a necessidade de otimização no tempo de teste e reduzindo significativamente o custo computacional.

Jakub Gregorek, Paraskevas Pegios, Nando Metzger, Konrad Schindler, Theodora Kontogianni, Lazaros Nalpantidis2026-03-12💻 cs

Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection

Este artigo propõe o método de Discrepância de Transição Latente (LTD), que detecta imagens sintéticas analisando as inconsistências nas transições de características entre camadas de redes neurais, superando assim os métodos existentes em precisão e generalização para dados não vistos.

Yawen Yang, Feng Li, Shuqi Kong, Yunfeng Diao, Xinjian Gao, Zenglin Shi, Meng Wang2026-03-12💻 cs

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

O artigo apresenta o HyPER-GAN, uma rede generativa adversarial leve baseada em U-Net que utiliza uma estratégia de treinamento híbrida com patches reais para melhorar a fotorealidade e a consistência semântica de dados sintéticos em tempo real, superando os métodos atuais em latência e qualidade visual.

Stefanos Pasios, Nikos Nikolaidis2026-03-12💻 cs

MUNIChus: Multilingual News Image Captioning Benchmark

O artigo apresenta o MUNIChus, o primeiro benchmark multilíngue para legendagem de imagens de notícias, que abrange nove idiomas (incluindo línguas de recursos limitados) e avalia diversos modelos de ponta para impulsionar o desenvolvimento e a avaliação de sistemas nessa área.

Yuji Chen, Alistair Plum, Hansi Hettiarachchi, Diptesh Kanojia, Saroj Basnet, Marcos Zampieri, Tharindu Ranasinghe2026-03-12💬 cs.CL

← Anterior Próximo →