cs.CV artigos | Gist.Science

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

O artigo apresenta o SemVID, um framework de poda de tokens sem treinamento que otimiza a eficiência e mantém a precisão na localização temporal de vídeos, preservando evidências críticas e conexões entre quadros essenciais para a compreensão semântica.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

Este artigo propõe o uso de primitivas de Gabor, que modulam envelopes gaussianos para representar frequências espaciais arbitrárias, combinadas com uma decomposição temporal de baixo posto, para reconstruir imagens de ressonância magnética cardíaca acelerada com maior eficiência e interpretabilidade física do que métodos existentes.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

OWL: A Novel Approach to Machine Perception During Motion

O artigo apresenta o OWL, uma nova abordagem analítica baseada no tempo que utiliza apenas pistas visuais de movimento para realizar mapeamento 3D escalado e reconstrução de cena em tempo real, sem depender de conhecimento prévio do ambiente ou do movimento da câmera.

Daniel Raviv, Juan D. Yepes2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

Este artigo apresenta um novo framework de inpainting longitudinal baseado em modelos de difusão que utiliza contexto temporal e atenção a regiões específicas para reparar lesões em ressonâncias magnéticas cerebrais com alta fidelidade perceptual, estabilidade temporal e eficiência computacional, superando significativamente os métodos existentes.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

O artigo apresenta o MultiHaystack, o primeiro benchmark de grande escala projetado para avaliar a recuperação e o raciocínio multimodais em corpora heterogêneos contendo mais de 46.000 documentos, imagens e vídeos, revelando que o desempenho dos modelos de linguagem multimodais cai drasticamente quando exigidos a localizar evidências em meio a grandes conjuntos de dados, em vez de receberem as informações diretamente.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Interpretable Perception and Reasoning for Audiovisual Geolocation

Este artigo apresenta o framework AVG, que supera os desafios da geolocalização global precisa ao combinar um novo benchmark audiovisual com um sistema de três estágios que utiliza percepção interpretável de "átomos acústicos", raciocínio multimodal e previsão de precisão em variedades esféricas para resolver ambiguidades visuais através de pistas sonoras.

Yiyang Su, Xiaoming Liu2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

O artigo apresenta o Any2Full, um framework de uma única etapa e agnóstico a padrões que reformula a conclusão de profundidade como uma adaptação de escala baseada em prompts de um modelo pré-treinado de estimativa de profundidade monocromática, superando métodos existentes em robustez e eficiência ao eliminar a necessidade de alinhamento explícito em duas etapas.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Interpretable Motion Artificat Detection in structural Brain MRI

Este trabalho propõe um framework leve e interpretável para a detecção de artefatos de movimento em ressonância magnética cerebral estrutural, combinando características DHoGM tridimensionais e bidimensionais para alcançar alta precisão e robustez na avaliação automática de qualidade em diferentes sites de aquisição.

Naveetha Nithianandam, Prabhjot Kaur, Anil Kumar Sao2026-03-09💻 cs

Unlocking ImageNet's Multi-Object Nature: Automated Large-Scale Multilabel Annotation

Este artigo apresenta um pipeline automatizado que converte o conjunto de treinamento do ImageNet em um dataset multilabel sem anotações humanas, utilizando descoberta de objetos auto-supervisionada para gerar rótulos que melhoram significativamente a precisão de classificação e a transferência de aprendizado em comparação com o esquema de rótulo único tradicional.

Junyu Chen, Md Yousuf Harun, Christopher Kanan2026-03-09💻 cs

From Phase Grounding to Intelligent Surgical Narratives

Este artigo propõe um método baseado em CLIP para gerar automaticamente linhas do tempo e narrativas cirúrgicas estruturadas a partir de vídeos, alinhando quadros visuais com descrições textuais de gestos para reduzir a necessidade de anotação manual por cirurgiões.

Ethan Peterson, Huixin Zhan2026-03-09💻 cs

Uni-LVC: A Unified Method for Intra- and Inter-Mode Learned Video Compression

O artigo apresenta o Uni-LVC, um método unificado de compressão de vídeo aprendida que integra modos intra e inter em um único modelo, utilizando atenção cruzada e um classificador sensível à confiabilidade para superar as limitações de modelos anteriores e alcançar desempenho superior em eficiência de compressão e flexibilidade de codificação.

Yichi Zhang, Ruoyu Yang, Fengqing Zhu2026-03-09💻 cs

Full Dynamic Range Sky-Modelling For Image Based Lighting

O artigo apresenta o Icarus, um modelo de céu para todas as condições meteorológicas baseado em aprendizado profundo que gera mapas de ambiente de Alto Alcance Dinâmico (HDR) com alta precisão fotorealista, superando as limitações atuais na modelagem da região solar e permitindo o controle interativo de formações solares e de nuvens para Iluminação Baseada em Imagem (IBL).

Ian J. Maquignaz2026-03-09🤖 cs.LG

Bridging Domains through Subspace-Aware Model Merging

O artigo propõe o método SCORE, que resolve conflitos de subespaço entre modelos treinados em domínios distintos ao projetá-los em uma base ortogonal compartilhada, melhorando significativamente a generalização de domínio em tarefas de fusão de modelos.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

O artigo apresenta o LayerBind, um método sem treinamento e plug-and-play para Transformers de Difusão que permite controle preciso de layout regional e ordem de oclusão na geração de imagens a partir de texto, utilizando inicialização de instâncias em camadas e "enfermagem" semântica para garantir flexibilidade e qualidade.

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

O artigo apresenta o BM25-V, um método de recuperação de imagens que aplica a pontuação Okapi BM25 a ativações esparsas de "palavras visuais" derivadas de um Autoencoder Esparsos (SAE) em features de Vision Transformers, oferecendo uma abordagem eficiente, interpretável e de alta precisão que rivaliza com métodos densos ao utilizar um índice invertido para selecionar candidatos e um reordenamento posterior.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction

Este artigo apresenta um framework diagnóstico espectral que revela que a consistência estrutural espectral, e não o aprimoramento de detalhes espaciais, é o fator determinante para a qualidade da reconstrução 3D em pipelines de 2D para 3D, demonstrando que métodos clássicos de interpolação frequentemente superam upsamplers aprendíveis nessa tarefa.

Ling Xiao, Yuliang Xiu, Yue Chen, Guoming Wang, Toshihiko Yamasaki2026-03-09💻 cs

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

O artigo apresenta o EventGeM, um pipeline state-of-the-art para reconhecimento visual de lugares baseado em eventos que combina correspondência global e local de características com estimativa de profundidade para alcançar localização precisa em tempo real em diversas condições de iluminação e plataformas robóticas.

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Training-free Latent Inter-Frame Pruning with Attention Recovery

O artigo propõe o framework LIPAR, uma técnica livre de treinamento que acelera a geração de vídeo ao eliminar redundâncias temporais em latentes e recuperar a atenção para evitar artefatos, aumentando o throughput em 1,45 vezes sem comprometer a qualidade.

Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu2026-03-09💻 cs

Margin and Consistency Supervision for Calibrated and Robust Vision Models

O artigo apresenta o MaCS (Margin and Consistency Supervision), um framework de regularização simples e agnóstico à arquitetura que, ao combinar uma penalidade de margem no espaço de logits com um regularizador de consistência, melhora significativamente a calibração e a robustez de modelos de visão computacional sem comprometer a precisão ou exigir alterações estruturais.

Salim Khazem2026-03-09🤖 cs.AI

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

Este trabalho propõe uma arquitetura unificada e fisicamente consistente para processamento conjunto de imagens e parâmetros de Stokes, que supera as limitações de métodos existentes ao alcançar desempenho de ponta em diversas tarefas de restauração de imagens polarimétricas degradadas (como ruído, desfoque e artefatos de mosaico) sem a necessidade de redes específicas para cada tipo de degradação.

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs

← Anterior Próximo →