AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

O artigo "AgilePruner" apresenta um estudo empírico que revela as limitações dos métodos de poda de tokens visuais baseados apenas em atenção ou diversidade, propondo uma estratégia adaptativa que ajusta dinamicamente a poda conforme a complexidade da imagem para melhorar a eficiência e reduzir alucinações em Modelos Grandes Visuais-Linguísticos (LVLMs).

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

O desafio MAMA-MIA estabeleceu um benchmark de grande escala com dados de múltiplos centros para avaliar e promover o desenvolvimento de sistemas de inteligência artificial mais generalizáveis e equitativos na segmentação de tumores e previsão de resposta ao tratamento em ressonância magnética mamária.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

O artigo apresenta o FoSS, um novo framework de dupla ramificação que integra modelagem no domínio da frequência e estados espaciais seletivos para prever trajetórias em direção autônoma com alta precisão e incerteza multimodal, superando os métodos existentes ao reduzir significativamente a complexidade computacional e o número de parâmetros.

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs

Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis

Este artigo propõe um novo quadro de aprendizado multi-tarefa para análise de ultrassom mamário que supera as limitações das abordagens convencionais através de uma interação bidirecional em múltiplos níveis entre os decodificadores e um mecanismo de coordenação adaptativa baseado em incerteza, resultando em segmentação de lesões e classificação de tecidos mais precisas e robustas.

Abdullah Al Shafi, Md Kawsar Mahmud Khan Zunayed, Safin Ahmmed + 2 more2026-03-03🤖 cs.AI

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Este estudo demonstra que o Aprendizado por Reforço (RL) otimiza principalmente a distribuição de saída e a eficiência de amostragem em Modelos Visuais-Linguísticos médicos quando já existe um suporte significativo induzido pelo Ajuste Fino Supervisionado (SFT), propondo uma estratégia de treinamento que combina SFT e RL para alcançar alto desempenho em benchmarks de VQA médica.

Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh + 4 more2026-03-03💻 cs

AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models

O artigo apresenta o AG-VAS, um novo framework de segmentação de anomalias visuais zero-shot que expande o vocabulário de Modelos Multimodais Grandes com tokens âncora semânticos e um módulo de alinhamento para superar limitações na localização precisa de anomalias, alcançando desempenho superior em diversos benchmarks industriais e médicos.

Zhen Qu, Xian Tao, Xiaoyi Bao + 4 more2026-03-03🤖 cs.AI

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

Este trabalho apresenta uma avaliação comparativa entre métodos de aprendizado supervisionado e modelos de visão de vocabulário aberto para a compreensão de cenas pós-desastre, concluindo que, embora os modelos de vocabulário aberto ofereçam flexibilidade, o aprendizado supervisionado permanece a abordagem mais confiável para a segmentação e detecção precisas em cenários complexos e com objetos pequenos.

Anna Michailidou, Georgios Angelidis, Vasileios Argyriou + 2 more2026-03-03💻 cs

You Only Need One Stage: Novel-View Synthesis From A Single Blind Face Image

O artigo apresenta o NVB-Face, um método inovador de estágio único que gera imagens de faces consistentes sob novos ângulos diretamente a partir de uma única imagem facial degradada, superando as limitações das abordagens tradicionais de dois estágios ao extrair características diretamente da imagem cega e utilizá-las em um modelo de difusão para criar representações latentes 3D.

Taoyue Wang, Xiang Zhang, Xiaotian Li + 2 more2026-03-03🤖 cs.AI

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

O artigo propõe o método AOT (Token Anchors via Local and Global Optimal Transport), uma abordagem sem treinamento que otimiza a eficiência dos Modelos de Linguagem Grande para Vídeo ao reduzir tokens redundantes agregando contextos locais e globais através de transporte ótimo, preservando assim a fidelidade visual e temporal em benchmarks de vídeos curtos e longos.

Jinlong Li, Liyuan Jiang, Haonan Zhang + 1 more2026-03-03💻 cs

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

O artigo apresenta o SeaVIS, o primeiro framework online para segmentação de instâncias áudio-visuais que supera as limitações dos métodos atuais ao utilizar fusão causal de atenção cruzada e aprendizado contrastivo guiado por áudio para associar e rastrear instâncias sonoras em fluxos de vídeo contínuos, garantindo precisão mesmo quando os objetos estão silenciosos.

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

Este estudo demonstra que a utilidade da mistura global de tokens em restauração de MRI é dependente da tarefa, sendo menos vantajosa em reconstrução acelerada e super-resolução devido às restrições físicas e de dados, mas superior em tarefas de remoção de ruído heterocedástico que exigem estimativa espacial de confiabilidade.

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

Este artigo apresenta o Deepfake Forensics Adapter (DFA), uma rede de duplo fluxo inovadora que integra um modelo CLIP pré-treinado com adaptadores de características globais, um fluxo de anomalias locais e um classificador de fusão interativa para alcançar detecção generalizável e de ponta de deepfakes, superando métodos anteriores em benchmarks desafiadores como o DFDC.

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs