cs.CV artigos | Gist.Science

Tracing Copied Pixels and Regularizing Patch Affinity in Copy Detection

Este artigo apresenta o PixTrace e o CopyNCE, duas inovações que utilizam o rastreamento explícito de coordenadas de pixels e uma perda de contraste geometricamente guiada para melhorar a detecção de cópias em imagens, alcançando desempenho superior e maior interpretabilidade em comparação com métodos existentes.

Yichen Lu, Siwei Nie, Minlong Lu + 3 more2026-02-26🤖 cs.AI

Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers

O artigo propõe o DCAG, um método sem treinamento que controla a intensidade de edição em modelos Diffusion Transformer manipulando simultaneamente os canais de Chave e Valor da atenção, resultando em maior precisão e fidelidade em tarefas de edição de imagem.

Guandong Li2026-02-26🤖 cs.AI

Hyperbolic Busemann Neural Networks

Este trabalho apresenta as Redes Neurais Busemann Hiperbólicas (HBNN), que elevam componentes fundamentais como regressão logística multinomial e camadas totalmente conectadas para o espaço hiperbólico usando funções de Busemann, oferecendo uma interpretação unificada e demonstrando melhorias em eficácia e eficiência em diversas tarefas de aprendizado de máquina.

Ziheng Chen, Bernhard Schölkopf, Nicu Sebe2026-02-26🤖 cs.AI

GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning

O artigo propõe o GS-CLIP, um framework de detecção de anomalias 3D zero-shot que supera as limitações das abordagens atuais ao integrar prompts textuais ricos em priores geométricos e uma aprendizagem de representação sinérgica que funde características de imagens renderizadas e de profundidade para identificar defeitos com maior precisão.

Zehao Deng, An Liu, Yan Wang2026-02-26💻 cs

TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

O artigo apresenta o TherA, um framework inovador que combina um modelo de linguagem visual termicamente consciente com um tradutor baseado em difusão latente para gerar imagens infravermelhas térmicas realistas e controláveis a partir de imagens RGB, superando as limitações de abordagens anteriores ao incorporar princípios físicos térmicos e permitindo síntese diversificada com base em condições ambientais e de objetos.

Dong-Guw Lee, Tai Hyoung Rhee, Hyunsoo Jang + 3 more2026-02-26💻 cs

Exploiting Label-Independent Regularization from Spatial Dependencies for Whole Slide Image Analysis

Este artigo propõe um novo framework de Aprendizado Multi-Instância (MIL) para análise de imagens de lâminas inteiras que utiliza regularização espacial independente de rótulos para superar os desafios de supervisão esparsa e instabilidade de otimização, demonstrando melhorias significativas em relação aos métodos atuais.

Weiyi Wu, Xinwen Xu, Chongyang Gao + 3 more2026-02-26💻 cs

RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space

O RAYNOVA é um modelo de mundo autoregressivo em escala e tempo que opera no espaço de raios para gerar vídeos multiview de direção com alta generalização e eficiência, eliminando a necessidade de priores geométricos 3D explícitos.

Yichen Xie, Chensheng Peng, Mazen Abdelfattah + 6 more2026-02-26💻 cs

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Este trabalho apresenta o MMHNet, uma rede hierárquica multimodal aprimorada que utiliza Mamba não causal para permitir a geração de áudio longo (superior a 5 minutos) a partir de vídeos, demonstrando que modelos treinados em instâncias curtas podem generalizar eficazmente para durações maiores sem necessidade de treinamento específico nesses intervalos.

Christian Simon, Masato Ishii, Wei-Yao Wang + 8 more2026-02-26🤖 cs.AI

Uncertainty-Aware Diffusion Model for Multimodal Highway Trajectory Prediction via DDIM Sampling

Este trabalho apresenta o cVMDx, um modelo de difusão aprimorado que utiliza amostragem DDIM para prever trajetórias viárias multimodais com alta precisão e incerteza, reduzindo o tempo de inferência em até 100 vezes em comparação com abordagens anteriores.

Marion Neumeier, Niklas Roßberg, Michael Botsch + 1 more2026-02-26🤖 cs.LG

Scaling View Synthesis Transformers

Este artigo apresenta um estudo sistemático sobre as leis de escalabilidade para transformadores de síntese de visão, introduzindo o Modelo de Síntese de Visão Escalável (SVSM), uma arquitetura codificador-decodificador que alcança desempenho superior com menor custo computacional, superando modelos anteriores e estabelecendo uma nova fronteira de eficiência em síntese de novas vistas.

Evan Kim, Hyunwoo Ryu, Thomas W. Mitchel + 1 more2026-02-26🤖 cs.AI

RelA-Diffusion: Relativistic Adversarial Diffusion for Multi-Tracer PET Synthesis from Multi-Sequence MRI

O artigo apresenta o RelA-Diffusion, um novo framework baseado em difusão adversarial relativista que utiliza sequências de ressonância magnética T1 e T2-FLAIR para sintetizar com alta fidelidade imagens de PET multi-tracador, superando métodos existentes na captura de detalhes anatômicos e patológicos.

Minhui Yu, Yongheng Sun, David S. Lalush + 3 more2026-02-26⚡ eess

Towards Controllable Video Synthesis of Routine and Rare OR Events

Este trabalho apresenta um framework de difusão de vídeo para cirurgias que permite a síntese controlada de eventos rotineiros e raros a partir de representações geométricas abstratas, superando as limitações de dados para treinar e validar modelos de inteligência artificial na detecção de violações de campo estéril e outros eventos críticos de segurança.

Dominik Schneider, Lalithkumar Seenivasan, Sampath Rapuri + 8 more2026-02-26⚡ eess

MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation

O artigo apresenta o MMLoP, um framework de aprendizado de prompts multi-modal que utiliza fatoração de baixo posto para adaptar modelos visão-linguagem como o CLIP a tarefas downstream com apenas 11,5 mil parâmetros treináveis, alcançando um equilíbrio superior entre precisão e eficiência e superando métodos existentes com milhões de parâmetros.

Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh + 1 more2026-02-26🤖 cs.LG

Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation

Este trabalho propõe um pipeline sem treinamento para Segmentação Temporal de Ações de Vocabulário Aberto e Zero-Shot (OVTAS), utilizando a similaridade entre embebedamentos de frames e rótulos de ações de Modelos Visão-Linguagem (VLMs) para superar as limitações de vocabulários fechados, validando sua eficácia através de uma análise sistemática em 14 VLMs diversos.

Asim Unmesh, Kaki Ramesh, Mayank Patel + 2 more2026-02-26💻 cs

WildSVG: Towards Reliable SVG Generation Under Real-Word Conditions

O artigo apresenta o WildSVG, um novo benchmark composto por conjuntos de dados naturais e sintéticos para avaliar a extração de gráficos vetoriais escaláveis (SVG) a partir de imagens do mundo real, demonstrando que, embora os modelos multimodais atuais ainda tenham desempenho insuficiente em cenários complexos, métodos de refinamento iterativo oferecem um caminho promissor para superar essas limitações.

Marco Terral, Haotian Zhang, Tianyang Zhang + 8 more2026-02-26💻 cs

Automating Timed Up and Go Phase Segmentation and Gait Analysis via the tugturn Markerless 3D Pipeline

Este artigo apresenta o \textit{tugturn.py}, um pipeline automatizado em Python para análise 3D sem marcadores do teste Timed Up and Go (TUG), que realiza segmentação de fases, detecção de eventos de marcha e cálculo de métricas de estabilidade e coordenação intersegmentar, gerando relatórios reprodutíveis para uso clínico e de pesquisa.

Abel Gonçalves Chinaglia, Guilherme Manna Cesar, Paulo Roberto Pereira Santiago2026-02-26💻 cs

PSF-Med: Measuring and Explaining Paraphrase Sensitivity in Medical Vision Language Models

O artigo apresenta o benchmark PSF-Med para medir a sensibilidade a paráfrases em Modelos de Linguagem e Visão Médica, identificando mecanismos neurais específicos que causam inconsistências nas respostas e demonstrando que a supressão controlada desses mecanismos reduz significativamente essas falhas com custo mínimo de precisão.

Binesh Sadanandan, Vahid Behzadan2026-02-26🤖 cs.LG

Causal Decoding for Hallucination-Resistant Multimodal Large Language Models

Este artigo propõe um framework de decodificação causal que intervém diretamente nos mecanismos de geração para reduzir alucinações de objetos em Modelos de Linguagem Multimodal, alcançando taxas de fidelidade superiores sem comprometer a qualidade geral da resposta.

Shiwei Tan, Hengyi Wang, Weiyi Qin + 3 more2026-02-26🤖 cs.AI

Adversarial Robustness of Deep Learning-Based Thyroid Nodule Segmentation in Ultrasound

Este estudo avalia a robustez adversarial de modelos de segmentação de nódulos tireoidianos em ultrassom, demonstrando que ataques baseados no domínio espacial podem ser parcialmente mitigados por técnicas de pré-processamento, enquanto perturbações no domínio de frequência permanecem resistentes a essas defesas.

Nicholas Dietrich, David McShannon2026-02-26🤖 cs.AI

Perceptual Quality Optimization of Image Super-Resolution

Este artigo propõe a Efficient-PBAN, uma rede de atenção bidirecional eficiente que otimiza a super-resolução de imagens para a qualidade perceptual humana, utilizando um novo conjunto de dados e uma métrica de perda diferenciável para superar o compromisso tradicional entre fidelidade e qualidade visual.

Wei Zhou, Yixiao Li, Hadi Amirpour + 4 more2026-02-26⚡ eess

← Anterior Próximo →