Communication-Inspired Tokenization for Structured Image Representations

O artigo apresenta o COMiT, um framework de tokenização discreta inspirado na comunicação humana que, através de um processo iterativo de observação e atualização recorrente dentro de um orçamento fixo de tokens, gera representações visuais estruturadas e centradas em objetos, superando métodos anteriores em generalização composicional e raciocínio relacional.

Aram Davtyan, Yusuf Sahin, Yasaman Haghighi + 4 more2026-02-25🤖 cs.AI

OrthoDiffusion: A Generalizable Multi-Task Diffusion Foundation Model for Musculoskeletal MRI Interpretation

O artigo apresenta o OrthoDiffusion, um modelo fundacional de difusão generalizável e auto-supervisionado que, ao ser pré-treinado em milhares de ressonâncias magnéticas de joelho não rotuladas, alcança desempenho superior e robusto em tarefas de segmentação e diagnóstico de múltiplas anomalias musculoesqueléticas, demonstrando alta eficiência mesmo com poucos dados rotulados e capacidade de transferência para outras articulações.

Tian Lan, Lei Xu, Zimu Yuan + 8 more2026-02-25🤖 cs.AI

Federated Learning for Cross-Modality Medical Image Segmentation via Augmentation-Driven Generalization

Este trabalho propõe uma abordagem de aprendizado federado para segmentação de imagens médicas entre diferentes modalidades, demonstrando que a técnica de aumento de dados de intensidade não linear global (GIN) supera outras estratégias ao permitir que modelos treinados em dados de uma única modalidade (como CT ou MRI) generalizem eficazmente para outras, alcançando desempenho comparável ao treinamento centralizado sem comprometer a privacidade dos dados.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25💻 cs

Real-time Motion Segmentation with Event-based Normal Flow

Este artigo propõe um quadro de segmentação de movimento em tempo real para visão baseada em eventos que utiliza fluxo normal denso como representação intermediária para formular o problema como uma minimização de energia resolvida por cortes de grafos, alcançando uma aceleração de quase 800 vezes em comparação com métodos existentes ao reduzir a complexidade computacional e manter alta precisão.

Sheng Zhong, Zhongyang Ren, Xiya Zhu + 3 more2026-02-25💻 cs

VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving

O artigo apresenta o VGGDrive, uma nova arquitetura que integra modelos de fundação 3D maduros a Modelos Visão-Linguagem (VLMs) por meio de um mecanismo de ativação geométrica de cruzamento de visão (CVGE), superando as limitações atuais e aprimorando significativamente o desempenho em diversas tarefas de direção autônoma, como percepção de risco, previsão de movimento e planejamento de trajetória.

Jie Wang, Guang Li, Zhijian Huang + 4 more2026-02-25💻 cs

FLIM Networks with Bag of Feature Points

Este estudo apresenta o FLIM-BoFP, um método aprimorado para redes FLIM que substitui o agrupamento de patches por uma única etapa de agrupamento baseada em pontos de características, resultando em uma estimativa de filtros mais rápida e eficiente para detecção de objetos salientes, como parasitas em imagens de microscopia óptica, sem a necessidade de retropropagação ou anotação extensiva.

João Deltregia Martinelli, Marcelo Luis Rodrigues Filho, Felipe Crispim da Rocha Salvagnini + 3 more2026-02-25💻 cs

MUSE: Harnessing Precise and Diverse Semantics for Few-Shot Whole Slide Image Classification

O artigo apresenta o MUSE, um framework estocástico para classificação de imagens de lâminas inteiras (WSI) em cenários de poucos exemplos, que supera as limitações de métodos anteriores ao refinar semanticamente os priors de forma específica para cada amostra e enriquecer a supervisão através da integração estocástica de múltiplas visões textuais geradas por modelos de linguagem, resultando em maior precisão e diversidade de alinhamento visual-semantic.

Jiahao Xu, Sheng Huang, Xin Zhang + 3 more2026-02-25💻 cs

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models

O artigo apresenta o SpatiaLQA, um novo benchmark com mais de 9.600 pares de perguntas e respostas derivadas de cenas reais para avaliar o raciocínio lógico-espacial em Modelos Visão-Linguagem (VLMs), demonstrando que os modelos atuais têm dificuldades nessa tarefa e propondo um método de raciocínio assistido por grafos de cena recursivos para superar essas limitações.

Yuechen Xie, Xiaoyan Zhang, Yicheng Shan + 6 more2026-02-25🤖 cs.LG

LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

O artigo apresenta o LST-SLAM, um sistema de SLAM estéreo térmico inovador que supera os desafios de ambientes dinâmicos em grande escala através da combinação de aprendizado de características auto-supervisionado, rastreamento de movimento em dois níveis e otimização de pose global, demonstrando superioridade em robustez e precisão em comparação com sistemas existentes.

Zeyu Jiang, Kuan Xu, Changhao Chen2026-02-25💻 cs

Dropping Anchor and Spherical Harmonics for Sparse-view Gaussian Splatting

O artigo apresenta o DropAnSH-GS, um método inovador para *Gaussian Splatting* 3D que combate o *overfitting* em condições de poucas vistas ao eliminar simultaneamente Gaussians vizinhos de âncoras selecionadas e descartar coeficientes harmônicos esféricos de alta ordem, resultando em representações mais robustas e modelos comprimíveis com desempenho superior.

Shuangkang Fang, I-Chao Shen, Xuanyang Zhang + 5 more2026-02-25💻 cs