VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving

O artigo apresenta o VGGDrive, uma nova arquitetura que integra modelos de fundação 3D maduros a Modelos Visão-Linguagem (VLMs) por meio de um mecanismo de ativação geométrica de cruzamento de visão (CVGE), superando as limitações atuais e aprimorando significativamente o desempenho em diversas tarefas de direção autônoma, como percepção de risco, previsão de movimento e planejamento de trajetória.

Jie Wang, Guang Li, Zhijian Huang + 4 more2026-02-25💻 cs

FLIM Networks with Bag of Feature Points

Este estudo apresenta o FLIM-BoFP, um método aprimorado para redes FLIM que substitui o agrupamento de patches por uma única etapa de agrupamento baseada em pontos de características, resultando em uma estimativa de filtros mais rápida e eficiente para detecção de objetos salientes, como parasitas em imagens de microscopia óptica, sem a necessidade de retropropagação ou anotação extensiva.

João Deltregia Martinelli, Marcelo Luis Rodrigues Filho, Felipe Crispim da Rocha Salvagnini + 3 more2026-02-25💻 cs

MUSE: Harnessing Precise and Diverse Semantics for Few-Shot Whole Slide Image Classification

O artigo apresenta o MUSE, um framework estocástico para classificação de imagens de lâminas inteiras (WSI) em cenários de poucos exemplos, que supera as limitações de métodos anteriores ao refinar semanticamente os priors de forma específica para cada amostra e enriquecer a supervisão através da integração estocástica de múltiplas visões textuais geradas por modelos de linguagem, resultando em maior precisão e diversidade de alinhamento visual-semantic.

Jiahao Xu, Sheng Huang, Xin Zhang + 3 more2026-02-25💻 cs

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models

O artigo apresenta o SpatiaLQA, um novo benchmark com mais de 9.600 pares de perguntas e respostas derivadas de cenas reais para avaliar o raciocínio lógico-espacial em Modelos Visão-Linguagem (VLMs), demonstrando que os modelos atuais têm dificuldades nessa tarefa e propondo um método de raciocínio assistido por grafos de cena recursivos para superar essas limitações.

Yuechen Xie, Xiaoyan Zhang, Yicheng Shan + 6 more2026-02-25🤖 cs.LG

LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

O artigo apresenta o LST-SLAM, um sistema de SLAM estéreo térmico inovador que supera os desafios de ambientes dinâmicos em grande escala através da combinação de aprendizado de características auto-supervisionado, rastreamento de movimento em dois níveis e otimização de pose global, demonstrando superioridade em robustez e precisão em comparação com sistemas existentes.

Zeyu Jiang, Kuan Xu, Changhao Chen2026-02-25💻 cs

Dropping Anchor and Spherical Harmonics for Sparse-view Gaussian Splatting

O artigo apresenta o DropAnSH-GS, um método inovador para *Gaussian Splatting* 3D que combate o *overfitting* em condições de poucas vistas ao eliminar simultaneamente Gaussians vizinhos de âncoras selecionadas e descartar coeficientes harmônicos esféricos de alta ordem, resultando em representações mais robustas e modelos comprimíveis com desempenho superior.

Shuangkang Fang, I-Chao Shen, Xuanyang Zhang + 5 more2026-02-25💻 cs

Estimation of Confidence Bounds in Binary Classification using Wilson Score Kernel Density Estimation

Este artigo apresenta o Wilson Score Kernel Density Classification, um método inovador baseado em kernels para estimar limites de confiança em classificações binárias que oferece desempenho comparável aos Processos Gaussianos com menor complexidade computacional, permitindo sua aplicação como cabeçalho de classificação em modelos de visão foundation.

Thorbjørn Mosekjær Iversen, Zebin Duan, Frederik Hagelskjær2026-02-25🤖 cs.LG

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Este artigo apresenta o CHAIN, um benchmark interativo 3D e baseado em física que avalia a capacidade de modelos de visão e linguagem de raciocinar sobre estruturas físicas e planejar sequências de ações, revelando que os modelos atuais ainda têm dificuldades significativas em internalizar restrições causais e geométricas para resolver problemas de longo prazo.

Yuhao Wu, Maojia Song, Yihuai Lan + 8 more2026-02-25💻 cs

MIP Candy: A Modular PyTorch Framework for Medical Image Processing

O MIP Candy é um framework modular e de código aberto baseado em PyTorch que simplifica o processamento de imagens médicas ao oferecer um pipeline completo e flexível, permitindo que pesquisadores implementem fluxos de trabalho funcionais com um único método enquanto mantêm controle granular sobre componentes como configuração de camadas, validação cruzada e rastreamento de experimentos.

Tianhao Fu, Yucheng Chen2026-02-25🤖 cs.AI