LLaDA-MedV: Exploring Large Language Diffusion Models for Biomedical Image Understanding

Este artigo apresenta o LLaDA-MedV, o primeiro modelo de difusão de linguagem grande adaptado para a compreensão de imagens biomédicas, que supera os modelos autoregressivos existentes em tarefas de conversação visual e perguntas e respostas, estabelecendo novos patamares de desempenho e oferecendo insights sobre estratégias de treinamento e inferência.

Xuanzhao Dong, Wenhui Zhu, Xiwen Chen + 5 more2026-02-26💻 cs

Voxel Densification for Serialized 3D Object Detection: Mitigating Sparsity via Pre-serialization Expansion

Este artigo propõe o Módulo de Densificação de Voxel (VDM), uma abordagem inovadora que expande espacialmente os voxels antes da serialização para mitigar a esparsidade e melhorar a detecção de objetos 3D em frameworks baseados em Transformers e Modelos de Espaço de Estado, alcançando resultados superiores em múltiplos benchmarks.

Qifeng Liu, Dawei Zhao, Yabo Dong + 6 more2026-02-26💻 cs

MedicalPatchNet: A Patch-Based Self-Explainable AI Architecture for Chest X-ray Classification

O artigo apresenta o MedicalPatchNet, uma arquitetura de IA autoexplicável baseada em patches para classificação de radiografias de tórax que, mantendo desempenho comparável aos modelos de ponta, oferece localizações de patologias mais precisas e transparentes, eliminando a necessidade de técnicas de explicação pós-hoc e aumentando a confiança clínica.

Patrick Wienholt, Christiane Kuhl, Jakob Nikolas Kather + 2 more2026-02-26🤖 cs.LG

Uncovering Grounding IDs: How External Cues Shape Multimodal Binding

Este artigo propõe o conceito de "Grounding IDs" como identificadores latentes induzidos por pistas externas que, ao alinhar objetos com suas respectivas partições no espaço de embedding e reduzir a lacuna entre modalidades, explicam mecanicamente como estruturas visuais melhoram a ligação multimodal e reduzem alucinações em modelos de linguagem e visão grandes.

Hosein Hasani, Amirmohammad Izadi, Fatemeh Askari + 4 more2026-02-26🤖 cs.AI

Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

Este estudo demonstra que o uso da entropia semântica discreta para filtrar perguntas com alta inconsistência semântica melhora significativamente a precisão de modelos de linguagem visão-linguagem de caixa-preta na resposta a questões visuais em radiologia, oferecendo uma estratégia eficaz para detectar e reduzir alucinações em aplicações clínicas.

Patrick Wienholt, Sophie Caselitz, Robert Siepmann + 6 more2026-02-26💻 cs

Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models

O artigo apresenta o QTSplus, um módulo leve de seleção de tokens visuais que, ao analisar dinamicamente a complexidade da consulta textual e preservar a ordem temporal, reduz drasticamente a latência e o custo computacional na compreensão de vídeos longos por modelos multimodais, mantendo ou até melhorando a precisão em tarefas de localização e ordenação.

Siyou Li, Huanan Wu, Juexi Shao + 10 more2026-02-26💻 cs

RobustGait: Robustness Analysis for Appearance Based Gait Recognition

O artigo apresenta o RobustGait, um framework abrangente que avalia a robustez de sistemas de reconhecimento de marcha baseados em aparência frente a diversas perturbações do mundo real, revelando a sensibilidade desses modelos a vieses na extração de silhuetas e propondo estratégias de treinamento para melhorar seu desempenho em cenários de implantação.

Reeshoon Sayera, Akash Kumar, Sirshapan Mitra + 2 more2026-02-26💻 cs

Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning

Este artigo apresenta um quadro unificado para a navegação aérea visão-linguagem que permite a UAVs navegar em ambientes urbanos complexos baseando-se exclusivamente em instruções de linguagem natural e observações monoculares RGB, alcançando desempenho superior através de uma abordagem de previsão de próximo token que otimiza conjuntamente a percepção espacial, o raciocínio de trajetória e a previsão de ações.

Huilin Xu, Zhuoyang Liu, Yixiang Luomei + 1 more2026-02-26🤖 cs.AI

KD-OCT: Efficient Knowledge Distillation for Clinical-Grade Retinal OCT Classification

Este artigo apresenta o KD-OCT, um novo framework de distilação de conhecimento que comprime um modelo ConvNeXtV2-Large pesado em um modelo EfficientNet-B2 leve, mantendo desempenho diagnóstico clínico de alta precisão para a classificação de OCT retiniano e permitindo a implantação em tempo real para triagem de degeneração macular relacionada à idade.

Erfan Nourbakhsh, Nasrin Sanjari, Ali Nourbakhsh2026-02-26🤖 cs.AI