cs.CV artigos | Gist.Science

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

O artigo apresenta o SAVE, um método de aprendizado de representação de vídeo que supera os atuais métodos de ponta ao incorporar uma ramificação dedicada para processar o conteúdo de fala e utilizar o soft-ALBEF para alinhamento precoce entre visão e áudio, resultando em melhorias significativas em cinco benchmarks de recuperação vídeo-texto.

Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li2026-03-10💻 cs

SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

O artigo apresenta o SRNeRV, um novo framework recursivo em escala que utiliza um esquema de compartilhamento híbrido para reduzir significativamente a redundância de parâmetros em Representações Neurais Implícitas (INRs) de vídeo, alcançando melhor desempenho na relação taxa-distorção ao reutilizar módulos invariantes à escala.

Jia Wang, Jun Zhu, Xinfeng Zhang2026-03-10💻 cs

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

O artigo apresenta o GarmentPainter, um framework eficiente que utiliza um modelo de difusão guiado por características do personagem e mapas de posição UV para sintetizar texturas de roupas 3D de alta fidelidade e consistentes, superando métodos existentes sem exigir alinhamento espacial rígido ou modificações na arquitetura do modelo.

Jinbo Wu, Xiaobo Gao, Xing Liu, Chen Zhao, Jialun Liu2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Este estudo utiliza métodos de aprendizado profundo avançados e imagens ultra-widefield para avaliar a qualidade de imagem, detectar retinopatia diabética referível e edema macular diabético, demonstrando o alto desempenho de modelos como Vision Transformers e a eficácia da fusão de características e representações no domínio da frequência.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

O artigo apresenta o SiMO, um método inovador de percepção colaborativa multimodal que, através da fusão adaptativa LAMMA e de uma estratégia de treinamento específica, resolve problemas de incompatibilidade semântica e competição entre modalidades, garantindo desempenho robusto mesmo quando sensores críticos como o LiDAR falham.

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng2026-03-10💻 cs

Topologically Stable Hough Transform

Este artigo propõe uma reformulação topologicamente estável da Transformada de Hough para detecção de linhas em nuvens de pontos, substituindo o esquema de votação discretizado por uma função de pontuação contínua cujas características persistentes, identificadas via homologia persistente, geram um conjunto de linhas candidatas calculadas eficientemente por um novo algoritmo.

Stefan Huber, Kristóf Huszár, Michael Kerber, Martin Uray2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

O artigo propõe o DynamicVGGT, um framework unificado de feed-forward que estende a percepção 3D estática para a reconstrução dinâmica 4D em direção autônoma, utilizando atenção temporal consciente do movimento e um cabeçalho de Gaussian Splatting 3D para modelar e otimizar o movimento de pontos com alta precisão.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

O artigo apresenta o WaDi, um novo framework de destilação para síntese de imagem em um único passo que, baseado na descoberta de que as mudanças na direção dos pesos são mais críticas que as de norma, utiliza o adaptador LoRaD para alcançar desempenho de ponta com apenas 10% dos parâmetros treináveis.

Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Este trabalho propõe um método de aprendizado livre para o rastreamento de pose 6D de objetos que funde fluxo óptico baseado em eventos para propagação de pose com uma correção baseada em templates, superando as limitações de câmeras RGB-D em cenários dinâmicos de alta velocidade.

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

Prototype-Guided Concept Erasure in Diffusion Models

O artigo "Prototype-Guided Concept Erasure in Diffusion Models" propõe um método que utiliza protótipos derivados da geometria de incorporação latente para identificar e condicionar negativamente representações internas, permitindo a eliminação confiável de conceitos amplos e complexos em modelos de difusão sem comprometer a qualidade da imagem gerada.

Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

O artigo propõe o OSCAR, um método baseado em representações implícitas neurais que realiza a reconstrução completa da anatomia vertebral a partir de imagens de ultrassom parciais sem necessidade de rótulos anatómicos, superando os desafios de sombreamento acústico e obtendo uma melhoria de 80% no desempenho em comparação com os métodos mais avançados.

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

Novel Semantic Prompting for Zero-Shot Action Recognition

O artigo apresenta o SP-CLIP, um framework leve que aprimora o reconhecimento de ações zero-shot ao utilizar prompts semânticos estruturados em múltiplos níveis de abstração para alinhar representações de vídeo com descrições textuais ricas, sem a necessidade de modificar os codificadores visuais ou aprender parâmetros adicionais.

Salman Iqbal, Waheed Rehman2026-03-10💻 cs

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

O artigo propõe uma abordagem de geração de imagens de CT a partir de texto que utiliza a recuperação de casos clínicos relacionados para fornecer orientação anatômica explícita via ControlNet, melhorando a fidelidade e a consistência clínica dos modelos generativos volumétricos sem depender de anotações de referência.

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Este artigo apresenta um novo método de ajuste fino que melhora a robustez de Vision Transformers (ViTs) sob mudanças de distribuição ao orientar o raciocínio do modelo para conceitos semânticos de nível de partes, utilizando máscaras geradas automaticamente por LLMs e VLMs para reduzir a dependência de correlações espúrias.

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

O artigo apresenta o HDR-NSFF, um novo paradigma que substitui a fusão tradicional de imagens 2D por uma modelagem espaço-temporal 4D contínua para reconstruir campos de radiância de alta faixa dinâmica a partir de vídeos monoculares com exposições alternadas, superando artefatos de fantasmas e garantindo consistência temporal em cenas dinâmicas.

Shin Dong-Yeon, Kim Jun-Seong, Kwon Byung-Ki, Tae-Hyun Oh2026-03-10💻 cs

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

O artigo apresenta o SlowBA, um ataque de backdoor inovador que compromete a eficiência de agentes de interface gráfica baseados em modelos de linguagem e visão (VLM) ao induzir cadeias de raciocínio excessivamente longas sob gatilhos específicos, aumentando significativamente a latência de resposta sem prejudicar a precisão das tarefas.

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Este estudo compara o desempenho humano e de IA no reconhecimento de ações em primeira pessoa, revelando que humanos dependem de pistas espaciais críticas e esparsas para identificar ações, enquanto os modelos atuais degradam-se de forma mais gradual, baseando-se excessivamente em contextos e características de baixo nível, o que evidencia uma divergência fundamental na robustez e nos mecanismos de reconhecimento entre ambos.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Este trabalho apresenta um framework geral para avaliar a qualidade de mapas de calor em aprendizado de múltiplas instâncias (MIL) para patologia digital, demonstrando que métodos como perturbação, LRP e IG superam os baseados em atenção e permitem validação biológica e descoberta de estratégias de modelos sem necessidade de rótulos adicionais.

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

Local-Global Prompt Learning via Sparse Optimal Transport

O artigo apresenta o SOT-GLP, um método de aprendizado de prompts que combina alinhamento global e local utilizando transporte ótimo esparso para particionar regiões visuais salientes entre prompts específicos de classe, alcançando desempenho superior em classificação com poucos exemplos e detecção de dados fora de distribuição ao preservar a geometria nativa do modelo CLIP.

Deniz Kizaro\u{g}lu, Ülku Tuncer Küçüktas, Emre Çakmakyurdu, Alptekin Temizel2026-03-10💻 cs

$\Delta$ VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

O artigo apresenta o $\Delta$ VLA, um modelo de Visão-Linguagem-Ação que supera as abordagens preditivas tradicionais ao gerar ações baseadas na variação do conhecimento do mundo em relação a um prior explícito, utilizando um extrator de prior, quantização latente e atenção condicional para alcançar desempenho superior e maior eficiência em tarefas robóticas.

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs

← Anterior Próximo →

cs.CV