cs.CV artigos | Gist.Science

MPFlow: Multi-modal Posterior-Guided Flow Matching for Zero-Shot MRI Reconstruction

O artigo apresenta o MPFlow, um framework de reconstrução de ressonância magnética (MRI) zero-shot baseado em fluxo retificado que utiliza um pré-treinamento auto-supervisionado multi-modal (PAMRI) para guiar a geração com dados auxiliares, resultando em uma reconstrução mais eficiente e fiel à anatomia com redução significativa de alucinações tumorais.

Seunghoi Kim, Chen Jin, Henry F. J. Tregidgo + 2 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

Este artigo identifica e quantifica o viés "Ordem-Espaço" (OTS) em modelos de geração de imagens, demonstrando que a ordem de menção das entidades no texto influencia indevidamente o layout espacial, e propõe estratégias de intervenção que mitigam esse problema sem comprometer a qualidade da geração.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Glass Segmentation with Fusion of Learned and General Visual Features

Este artigo apresenta uma nova arquitetura para segmentação de superfícies de vidro que combina características visuais gerais de um modelo DINOv3 congelado com características específicas aprendidas por um modelo Swin, alcançando resultados state-of-the-art em quatro conjuntos de dados com velocidade de inferência competitiva.

Risto Ojala, Tristan Ellison, Mo Chen2026-03-05💻 cs

QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment

O artigo propõe o QD-PCQA, um novo framework de adaptação de domínio que melhora a generalização na avaliação de qualidade de nuvens de pontos sem referência, utilizando estratégias de alinhamento condicional ponderado por ranking e aumento de características guiado pela qualidade para transferir conhecimento perceptual de imagens para nuvens de pontos.

Guohua Zhang, Jian Jin, Meiqin Liu + 2 more2026-03-05💻 cs

PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

O artigo apresenta o PROSPECT, um agente de navegação unificado e em streaming que combina compreensão semântica com representação latente preditiva para alcançar desempenho superior e robustez em tarefas de navegação visão-linguagem de longo horizonte.

Zehua Fan, Wenqi Lyu, Wenxuan Song + 12 more2026-03-05🤖 cs.AI

DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation

O artigo apresenta o DAGE, uma arquitetura de transformador de duplo fluxo que separa a coerência global dos detalhes finos para estimar com precisão geometria e poses de câmera em vídeos e múltiplas visões, alcançando novos recordes de estado da arte com alta resolução e consistência.

Tuan Duc Ngo, Jiahui Huang, Seoung Wug Oh + 4 more2026-03-05💻 cs

WSI-INR: Implicit Neural Representations for Lesion Segmentation in Whole-Slide Images

O artigo propõe o WSI-INR, um novo framework sem patches baseado em Representações Neurais Implícitas que modela imagens de lâminas inteiras como funções contínuas para superar a fragmentação espacial e as variações de resolução, alcançando uma segmentação de lesões patológicas significativamente mais robusta e precisa do que os métodos tradicionais.

Yunheng Wu, Wenqi Huang, Liangyi Wang + 4 more2026-03-05💻 cs

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

O artigo apresenta o KFRA, um agente de raciocínio visual de granularidade fina que integra detecção de vocabulário aberto, recuperação na web e um mecanismo de acoplamento entre recuperação e fundamentação espacial para superar as limitações de taxonomias fechadas, alcançando maior precisão e interpretabilidade em cenários de conjunto aberto.

Junhan Chen, Zilu Zhou, Yujun Tong + 3 more2026-03-05💻 cs

LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving

O DriveMVS é um novo framework de estereoscopia multi-visão que utiliza observações esparsas de LiDAR como prompts geométricos e um decodificador espaço-temporal para alcançar precisão métrica, consistência temporal e generalização entre domínios superiores para a percepção de direção autônoma.

Qihao Sun, Jiarun Liu, Ziqian Ni + 5 more2026-03-05💻 cs

Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling

Este artigo propõe um novo framework para detecção de objetos pequenos em fundos complexos, que integra amostragem descendente com wavelets de Haar, modelagem de relações globais e atenção híbrida multiescala para superar a degradação de características e melhorar a precisão de localização, superando os métodos atuais no benchmark RGBT-Tiny.

Wenguang Tao, Xiaotian Wang, Tian Yan + 2 more2026-03-05💻 cs

TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration

O artigo apresenta o TAP, um framework livre de treinamento que acelera a inferência de modelos de difusão ao selecionar adaptativamente, para cada token e passo de amostragem, o preditor mais eficiente com base em uma sonda de baixo custo, alcançando grandes ganhos de velocidade sem perda perceptível de qualidade.

Haowei Zhu, Tingxuan Huang, Xing Wang + 7 more2026-03-05🤖 cs.LG

When and Where to Reset Matters for Long-Term Test-Time Adaptation

Este artigo propõe um esquema de reinicialização adaptativa e seletiva, combinado com um regularizador sensível à importância e um mecanismo de ajuste dinâmico, para mitigar o colapso do modelo e preservar o conhecimento essencial durante a adaptação contínua em tempo de teste de longo prazo.

Taejun Lim, Joong-Won Hwang, Kibok Lee2026-03-05🤖 cs.AI

Separators in Enhancing Autoregressive Pretraining for Vision Mamba

O artigo apresenta o método STAR, que utiliza separadores especiais para permitir o pré-treinamento autoregressivo de sequências muito longas no Vision Mamba, resultando em um modelo (STAR-B) com desempenho competitivo de 83,5% de precisão no ImageNet-1k.

Hanpeng Liu, Zidan Wang, Shuoxi Zhang + 2 more2026-03-05🤖 cs.AI

Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

Este artigo apresenta um framework leve e robusto baseado no YOLOv10 para detecção de objetos subaquáticos, que integra um módulo de aprimoramento adaptativo, um mecanismo de atenção de dupla pooling sequencial e uma função de perda FGIoU, alcançando desempenho superior em conjuntos de dados de referência enquanto mantém uma arquitetura compacta adequada para sistemas com recursos limitados.

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

Vector-Quantized Soft Label Compression for Dataset Distillation

Este artigo apresenta um método de compressão de rótulos suaves usando um autoencoder vetorial quantizado (VQAE) para reduzir drasticamente os custos de armazenamento em processos de destilação de conjuntos de dados, alcançando uma compressão 30 a 40 vezes maior em benchmarks como ImageNet-1K sem comprometer significativamente o desempenho do modelo.

Ali Abbasi, Ashkan Shahbazi, Hamed Pirsiavash + 1 more2026-03-05💻 cs

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

Este artigo propõe o método de Adaptação de Prompt Consciente da Estrutura (SPA), que utiliza a consistência de estruturas locais no espaço de embeddings para adaptar prompts de aprendizado zero-shot composicional de vocabulário fechado para aberto, permitindo a generalização eficaz para atributos e objetos não vistos por meio de analogias semânticas.

Yihang Duan, Jiong Wang, Pengpeng Zeng + 5 more2026-03-05💻 cs

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Este artigo identifica o fenômeno de "Localização Preguiçosa da Atenção" durante o início frio multimodal e propõe o framework AVAR, que utiliza ancoragem visual e objetivos guiados pela atenção para superar essa limitação, resultando em ganhos significativos de desempenho em raciocínio multimodal sem necessidade de retreinamento complexo.

Ruilin Luo, Chufan Shi, Yizhen Zhang + 10 more2026-03-05🤖 cs.AI

Universal Pansharpening Foundation Model

O artigo apresenta o FoundPS, um modelo fundamental universal para fusão de imagens multiespectrais e pancromáticas que supera as limitações de generalização dos métodos existentes ao utilizar transformadores intercalados por modalidade e pontes de difusão latente, validado em um novo benchmark abrangente chamado PSBench.

Hebaixu Wang, Jing Zhang, Haonan Guo + 4 more2026-03-05💻 cs

All-in-One Image Restoration via Causal-Deconfounding Wavelet-Disentangled Prompt Network

O artigo propõe a CWP-Net, uma rede que utiliza atenção em wavelets e prompts para realizar restauração de imagem "tudo-em-um" eficaz, desentrelaçando características semânticas e de degradação para eliminar correlações espúrias e estimativas enviesadas, superando assim os métodos atuais.

Bingnan Wang, Bin Qin, Jiangmeng Li + 3 more2026-03-05💻 cs

DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

O DeepScan é um framework sem necessidade de treinamento que melhora o raciocínio fundamentado visualmente em Grandes Modelos de Linguagem e Visão (LVLMs) através de uma abordagem de baixo para cima que combina varredura hierárquica, reenfocamento e raciocínio aprimorado por evidências, alcançando desempenho superior em tarefas de compreensão visual detalhada sem custos adicionais de adaptação.

Yangfu Li, Hongjian Zhan, Jiawei Chen + 3 more2026-03-05💻 cs

← Anterior Próximo →