Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning

Este artigo apresenta um quadro unificado para a navegação aérea visão-linguagem que permite a UAVs navegar em ambientes urbanos complexos baseando-se exclusivamente em instruções de linguagem natural e observações monoculares RGB, alcançando desempenho superior através de uma abordagem de previsão de próximo token que otimiza conjuntamente a percepção espacial, o raciocínio de trajetória e a previsão de ações.

Huilin Xu, Zhuoyang Liu, Yixiang Luomei + 1 more2026-02-26🤖 cs.AI

KD-OCT: Efficient Knowledge Distillation for Clinical-Grade Retinal OCT Classification

Este artigo apresenta o KD-OCT, um novo framework de distilação de conhecimento que comprime um modelo ConvNeXtV2-Large pesado em um modelo EfficientNet-B2 leve, mantendo desempenho diagnóstico clínico de alta precisão para a classificação de OCT retiniano e permitindo a implantação em tempo real para triagem de degeneração macular relacionada à idade.

Erfan Nourbakhsh, Nasrin Sanjari, Ali Nourbakhsh2026-02-26🤖 cs.AI

FigEx2: Visual-Conditioned Panel Detection and Captioning for Scientific Compound Figures

O artigo apresenta o FigEx2, um framework visual-condicionado que localiza e gera legendas para painéis individuais em figuras compostas científicas, utilizando um módulo de fusão gateado à prova de ruído e uma estratégia de otimização em estágios com aprendizado por reforço para alcançar alto desempenho e transferência zero-shot em diversos domínios científicos.

Jifeng Song, Arun Das, Pan Wang + 3 more2026-02-26💬 cs.CL

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

O artigo apresenta o LatentLens, um método interpretável que mapeia representações latentes de tokens visuais em descrições naturais ao compará-las com um corpus textual, demonstrando que a maioria desses tokens é altamente interpretável em todas as camadas de Modelos de Linguagem Multimodais e superando as limitações de técnicas existentes como o LogitLens.

Benno Krojer, Shravan Nayak, Oscar Mañas + 4 more2026-02-26🤖 cs.AI

HetroD: A High-Fidelity Drone Dataset and Benchmark for Autonomous Driving in Heterogeneous Traffic

O artigo apresenta o HetroD, um conjunto de dados e benchmark de alta fidelidade baseado em drones que aborda os desafios da condução autónoma em tráfego heterogéneo dominado por utilizadores vulneráveis da estrada, fornecendo trajetórias detalhadas e demonstrando que os modelos atuais têm dificuldades significativas em prever e planear manobras não estruturadas nestes cenários complexos.

Yu-Hsiang Chen, Wei-Jer Chang, Christian Kotulla + 7 more2026-02-26💻 cs

TIPS Over Tricks: Simple Prompts for Effective Zero-shot Anomaly Detection

O artigo apresenta o TIPS, uma abordagem de detecção de anomalias em cenários zero-shot que utiliza um modelo de visão-linguagem treinado com objetivos espacialmente conscientes e prompts desacoplados para superar as limitações de alinhamento e sensibilidade do CLIP, alcançando melhor desempenho em detecção e localização sem depender de módulos auxiliares complexos.

Alireza Salehi, Ehsan Karami, Sepehr Noey + 4 more2026-02-26💻 cs

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

O V-Retrver é um framework de recuperação multimodal baseado em agentes que supera as limitações dos métodos atuais ao permitir que modelos de linguagem grandes realizem raciocínio intercalado, alternando entre geração de hipóteses e verificação visual ativa por meio de ferramentas externas, resultando em ganhos significativos de precisão e confiabilidade.

Dongyang Chen, Chaoyang Wang, Dezhao Su + 6 more2026-02-26💻 cs

Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT

Este estudo demonstra que, embora os modelos de fundação apresentem sensibilidade superior na detecção de lesões intestinais em TC abdominal, sua especificidade é severamente comprometida pela heterogeneidade de patologias negativas (como lesões de órgãos sólidos), indicando que a adaptação por meio de treinamento específico é necessária antes da implementação clínica.

Jineel H Raythatha, Shuchang Ye, Jeremy Hsu + 1 more2026-02-26⚡ eess

Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods

Este artigo propõe um framework de decomposição tensorial multi-visão que utiliza embeddings do TimeSformer para analisar vídeos de cruzamentos ferroviários, revelando que a localização geográfica é um determinante mais forte dos padrões comportamentais dos motoristas do que o horário do dia e permitindo a identificação de assinaturas comportamentais distintas para intervenções de segurança direcionadas.

Dawon Ahn, Het Patel, Aemal Khattak + 2 more2026-02-26🤖 cs.LG