cs.CV artigos | Gist.Science

Large Multimodal Models as General In-Context Classifiers

Este artigo demonstra que os Grandes Modelos Multimodais (LMMs), quando equipados com a capacidade de aprendizado em contexto e o método proposto CIRCLE para refinar exemplos, podem superar os modelos contrastivos tradicionais em tarefas de classificação tanto em cenários de mundo fechado quanto aberto, posicionando-se como classificadores unificados e flexíveis.

Marco Garosi, Matteo Farina, Alessandro Conti + 2 more2026-02-27💻 cs

Skarimva: Skeleton-based Action Recognition is a Multi-view Application

O artigo Skarimva demonstra que o uso de múltiplas câmeras para triangulação de esqueletos 3D mais precisos melhora significativamente o reconhecimento de ações baseado em esqueletos, sugerindo que a qualidade dos dados de entrada é um fator limitante e que configurações multi-visão devem se tornar o padrão em pesquisas futuras.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-02-27💻 cs

Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

O artigo apresenta o GUIPruner, um framework sem treinamento que otimiza agentes de GUI de alta resolução ao eliminar redundâncias espaciais e temporais através de redimensionamento adaptativo e poda estruturada, alcançando aceleração significativa e redução de custos computacionais sem comprometer a precisão.

Zhou Xu, Bowen Zhou, Qi Wang + 2 more2026-02-27🤖 cs.AI

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

O artigo apresenta o RaWMPC, um framework unificado de controle preditivo baseado em modelo de mundo que, ao prever consequências e avaliar riscos explicitamente sem depender de demonstrações de especialistas, permite que veículos autônomos tomem decisões seguras e generalizáveis em cenários raros ou fora da distribuição dos dados de treinamento.

Jiangxin Sun, Feng Xue, Teng Long + 4 more2026-02-27🤖 cs.AI

Decomposing Private Image Generation via Coarse-to-Fine Wavelet Modeling

Este trabalho propõe um framework de privacidade diferencial baseado em wavelets que finetuna um modelo em coeficientes de baixa frequência para capturar estruturas globais sensíveis e utiliza um modelo de super-resolução público para adicionar detalhes de alta frequência, alcançando um melhor equilíbrio entre privacidade e qualidade na geração de imagens.

Jasmine Bayrooti, Weiwei Kong, Natalia Ponomareva + 3 more2026-02-27💻 cs

LineGraph2Road: Structural Graph Reasoning on Line Graphs for Road Network Extraction

O artigo apresenta o LineGraph2Road, uma nova estrutura que melhora a extração de redes viárias a partir de imagens de satélite ao formular a previsão de conectividade como uma classificação binária em um grafo euclidiano esparsificado e aplicar um Transformer de Grafos sobre seu grafo de linhas para capturar dependências de longo alcance e topologias complexas, alcançando resultados state-of-the-art em métricas topológicas e de precisão.

Zhengyang Wei, Renzhi Jing, Yiyi He + 1 more2026-02-27💻 cs

PGVMS: A Prompt-Guided Unified Framework for Virtual Multiplex IHC Staining with Pathological Semantic Learning

O artigo apresenta o PGVMS, um quadro unificado guiado por prompts que supera desafios na coloração IHC virtual multiplexa ao empregar aprendizado semântico patológico, estratégias de aprendizado conscientes de proteínas e consistência de protótipos para gerar representações IHC precisas a partir de imagens H&E, mesmo utilizando apenas dados de treinamento uniplex.

Fuqiang Chen, Ranran Zhang, Wanming Hu + 6 more2026-02-27💻 cs

Towards Long-Form Spatio-Temporal Video Grounding

Este artigo propõe o ART-STVG, uma arquitetura de Transformer autoregressiva com bancos de memória seletiva e um design de localização espacial-temporal em cascata, projetada para superar as limitações dos métodos existentes ao localizar alvos em vídeos longos e complexos de forma eficiente.

Xin Gu, Bing Fan, Jiali Yao + 5 more2026-02-27💻 cs

ManifoldGD: Training-Free Hierarchical Manifold Guidance for Diffusion-Based Dataset Distillation

O artigo apresenta o ManifoldGD, uma abordagem de distilação de dados livre de treinamento que utiliza um guia hierárquico baseado em variedades latentes para sintetizar conjuntos de dados compactos e representativos com alta fidelidade e diversidade, superando métodos existentes sem a necessidade de re-treinamento de modelos.

Ayush Roy, Wei-Yang Alex Lee, Rudrasis Chakraborty + 1 more2026-02-27🤖 cs.LG

PRIMA: Pre-training with Risk-integrated Image-Metadata Alignment for Medical Diagnosis via LLM

O artigo apresenta o PRIMA, um quadro de trabalho inovador que integra conhecimento médico específico e alinhamento multimodal entre imagens e metadados clínicos para melhorar o diagnóstico médico, superando os métodos atuais sem exigir grandes volumes de dados ou recursos computacionais massivos.

Yiqing Wang, Chunming He, Ming-Chen Lu + 4 more2026-02-27💻 cs

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

O artigo propõe uma abordagem de adaptação em tempo de teste baseada em recuperação e poucos exemplos que combina características textuais e visuais para reduzir significativamente a lacuna de desempenho entre a segmentação zero-shot e a supervisionada, mantendo a capacidade de segmentação de vocabulário aberto.

Tilemachos Aravanis, Vladan Stojnić, Bill Psomas + 2 more2026-02-27💻 cs

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

O estudo demonstra que o viés de relato nos dados de treinamento de Modelos Visuais-Linguísticos impede o desenvolvimento de habilidades de raciocínio (como espacial, temporal, negação e contagem), mostrando que o aumento de escala não supera essa limitação e que a curadoria intencional de dados com informações tácitas é essencial para corrigi-la.

Amita Kamath, Jack Hessel, Khyathi Chandu + 3 more2026-02-27💬 cs.CL

Sensor Generalization for Adaptive Sensing in Event-based Object Detection via Joint Distribution Training

Este artigo aborda as lacunas na variabilidade de dados e na análise de parâmetros de câmeras de eventos, oferecendo uma compreensão profunda de como os parâmetros intrínsecos afetam a detecção de objetos e utilizando essas descobertas para desenvolver modelos downstream com robustez agnóstica ao sensor.

Aheli Saha, René Schuster, Didier Stricker2026-02-27💻 cs

A Dataset is Worth 1 MB

O artigo propõe o método PLADA, que reduz drasticamente o custo de transmissão de dados ao substituir o envio de imagens por apenas rótulos pseudo-rotulados de um conjunto de referência pré-carregado, permitindo que agentes treinem modelos locais com eficiência e alta precisão usando menos de 1 MB de dados.

Elad Kimchi Shoshani, Leeyam Gabay, Yedid Hoshen2026-02-27🤖 cs.LG

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

O artigo apresenta o SeeThrough3D, um modelo de geração de imagens baseado em texto que utiliza uma representação de cena 3D oclusiva e transparente para permitir o controle preciso de layouts 3D e a síntese realista de oclusões entre objetos.

Vaibhav Agrawal, Rishubh Parihar, Pradhaan Bhat + 2 more2026-02-27🤖 cs.AI

VGG-T $^3$ : Offline Feed-Forward 3D Reconstruction at Scale

O artigo apresenta o VGG-T $^3$ , um modelo de reconstrução 3D offline escalável que supera as limitações de custo computacional quadrático dos métodos existentes ao condensar a representação geométrica em um MLP de tamanho fixo via treinamento no momento do teste, permitindo uma reconstrução de grandes coleções de imagens com velocidade linear e alta precisão.

Sven Elflein, Ruilong Li, Sérgio Agostinho + 4 more2026-02-27💻 cs

MediX-R1: Open Ended Medical Reinforcement Learning

O artigo apresenta o MediX-R1, um framework de Aprendizado por Reforço que otimiza modelos de linguagem multimodais para gerar respostas médicas abertas e clinicamente fundamentadas, utilizando um sistema de recompensas composto e uma avaliação baseada em LLM para superar as limitações dos formatos de múltipla escolha tradicionais.

Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed + 5 more2026-02-27💻 cs

Improving Denoising Diffusion Models via Simultaneous Estimation of Image and Noise

Este artigo apresenta um modelo de difusão que melhora a velocidade e a qualidade da geração de imagens ao reparametrizar o processo de difusão para permitir a resolução eficiente de EDOs de alta ordem e ao estimar simultaneamente a imagem original e o ruído para garantir atualizações mais estáveis.

Zhenkai Zhang, Krista A. Ehinger, Tom Drummond2026-02-26🤖 cs.AI

Real-Time Motion Detection Using Dynamic Mode Decomposition

Este trabalho propõe um algoritmo simples e interpretável para detecção de movimento em vídeo em tempo real, fundamentado na Decomposição de Modo Dinâmico (DMD), que correlaciona a evolução de características de vídeo com os autovalores resultantes da aplicação do método a segmentos de vídeo, demonstrando sua eficácia em cenários de segurança através de curvas ROC e validação cruzada.

Marco Mignacca, Simone Brugiapaglia, Jason J. Bramburger2026-02-26💻 cs

A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning

Este artigo apresenta uma revisão abrangente e sistemática sobre o aprimoramento de imagens subaquáticas baseadas em aprendizado profundo, cobrindo modelos físicos, algoritmos recentes, uma avaliação comparativa justa em múltiplos benchmarks e direções futuras para a pesquisa na área.

Xiaofeng Cong, Yu Zhao, Jie Gui + 2 more2026-02-26💻 cs

← Anterior Próximo →

cs.CV