XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

O artigo apresenta o XPoint, uma arquitetura auto-supervisionada e modular baseada em Espaço de Estado Visual (VMamba) que supera os desafios de registro de imagens multiespectrais ao permitir adaptação rápida entre diferentes modalidades sem necessidade de dados rotulados, superando os métodos atuais em precisão de correspondência e registro.

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

O artigo propõe o método FiLo++, uma abordagem para detecção e localização de anomalias em cenários de zero-shot e few-shot que supera as limitações das descrições genéricas e do emparelhamento simples de patches ao integrar descrições textuais de alto nível geradas por LLMs com um mecanismo de localização deformável baseado no Grounding DINO.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Deep generative computed perfusion-deficit mapping of ischaemic stroke

Este estudo demonstra que a inferência generativa profunda aplicada a mapas de perfusão computados a partir de angiografias por tomografia computadorizada (CTA) permite localizar com alta fidelidade os substratos neurais de déficits clínicos em AVC isquêmico agudo, revelando novas relações anatômicas e oferecendo valor clínico e científico para a fenotipagem precoce antes da intervenção.

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Este trabalho demonstra que, embora o modelo CLIP apresente comportamento de "saco de palavras" na alinhamento cruzado de modalidades, as informações de ligação entre atributos e objetos já estão codificadas em suas representações unimodais e podem ser recuperadas de forma eficiente por meio de uma simples transformação linear, sem a necessidade de re-treinamento dos codificadores.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

O artigo apresenta o WorldSense, o primeiro benchmark projetado para avaliar a compreensão de vídeos multimodais que integra simultaneamente áudio, vídeo e texto, destacando-se pela forte sincronização entre modalidades, diversidade de tarefas e anotações de alta qualidade para revelar as limitações atuais dos modelos de IA em cenários do mundo real.

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Este artigo propõe um quadro de adaptação robusto para Modelos Multimodais de Grande Escala que supera as limitações de métodos existentes, alcançando desempenho superior e maior generalização na detecção de memes de ódio, ao mesmo tempo que preserva as capacidades gerais do modelo e melhora a interpretabilidade através de explicações de alta qualidade.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL