MPFlow: Multi-modal Posterior-Guided Flow Matching for Zero-Shot MRI Reconstruction

O artigo apresenta o MPFlow, um framework de reconstrução de ressonância magnética (MRI) zero-shot baseado em fluxo retificado que utiliza um pré-treinamento auto-supervisionado multi-modal (PAMRI) para guiar a geração com dados auxiliares, resultando em uma reconstrução mais eficiente e fiel à anatomia com redução significativa de alucinações tumorais.

Seunghoi Kim, Chen Jin, Henry F. J. Tregidgo + 2 more2026-03-05🤖 cs.AI

QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment

O artigo propõe o QD-PCQA, um novo framework de adaptação de domínio que melhora a generalização na avaliação de qualidade de nuvens de pontos sem referência, utilizando estratégias de alinhamento condicional ponderado por ranking e aumento de características guiado pela qualidade para transferir conhecimento perceptual de imagens para nuvens de pontos.

Guohua Zhang, Jian Jin, Meiqin Liu + 2 more2026-03-05💻 cs

WSI-INR: Implicit Neural Representations for Lesion Segmentation in Whole-Slide Images

O artigo propõe o WSI-INR, um novo framework sem patches baseado em Representações Neurais Implícitas que modela imagens de lâminas inteiras como funções contínuas para superar a fragmentação espacial e as variações de resolução, alcançando uma segmentação de lesões patológicas significativamente mais robusta e precisa do que os métodos tradicionais.

Yunheng Wu, Wenqi Huang, Liangyi Wang + 4 more2026-03-05💻 cs

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

O artigo apresenta o KFRA, um agente de raciocínio visual de granularidade fina que integra detecção de vocabulário aberto, recuperação na web e um mecanismo de acoplamento entre recuperação e fundamentação espacial para superar as limitações de taxonomias fechadas, alcançando maior precisão e interpretabilidade em cenários de conjunto aberto.

Junhan Chen, Zilu Zhou, Yujun Tong + 3 more2026-03-05💻 cs

Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling

Este artigo propõe um novo framework para detecção de objetos pequenos em fundos complexos, que integra amostragem descendente com wavelets de Haar, modelagem de relações globais e atenção híbrida multiescala para superar a degradação de características e melhorar a precisão de localização, superando os métodos atuais no benchmark RGBT-Tiny.

Wenguang Tao, Xiaotian Wang, Tian Yan + 2 more2026-03-05💻 cs

Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

Este artigo apresenta um framework leve e robusto baseado no YOLOv10 para detecção de objetos subaquáticos, que integra um módulo de aprimoramento adaptativo, um mecanismo de atenção de dupla pooling sequencial e uma função de perda FGIoU, alcançando desempenho superior em conjuntos de dados de referência enquanto mantém uma arquitetura compacta adequada para sistemas com recursos limitados.

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

Este artigo propõe o método de Adaptação de Prompt Consciente da Estrutura (SPA), que utiliza a consistência de estruturas locais no espaço de embeddings para adaptar prompts de aprendizado zero-shot composicional de vocabulário fechado para aberto, permitindo a generalização eficaz para atributos e objetos não vistos por meio de analogias semânticas.

Yihang Duan, Jiong Wang, Pengpeng Zeng + 5 more2026-03-05💻 cs

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Este artigo identifica o fenômeno de "Localização Preguiçosa da Atenção" durante o início frio multimodal e propõe o framework AVAR, que utiliza ancoragem visual e objetivos guiados pela atenção para superar essa limitação, resultando em ganhos significativos de desempenho em raciocínio multimodal sem necessidade de retreinamento complexo.

Ruilin Luo, Chufan Shi, Yizhen Zhang + 10 more2026-03-05🤖 cs.AI

DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

O DeepScan é um framework sem necessidade de treinamento que melhora o raciocínio fundamentado visualmente em Grandes Modelos de Linguagem e Visão (LVLMs) através de uma abordagem de baixo para cima que combina varredura hierárquica, reenfocamento e raciocínio aprimorado por evidências, alcançando desempenho superior em tarefas de compreensão visual detalhada sem custos adicionais de adaptação.

Yangfu Li, Hongjian Zhan, Jiawei Chen + 3 more2026-03-05💻 cs