The Geometry of Transfer: Unlocking Medical Vision Manifolds for Training-Free Model Ranking

Este artigo propõe um novo framework de estimativa de transferibilidade baseado em topologia, composto por divergência global de representação, consistência topológica local e fusão adaptativa, que supera significativamente os métodos existentes ao permitir a seleção eficiente e sem treinamento de modelos fundamentais médicos para tarefas de segmentação.

Jiaqi Tang, Shaoyang Zhang, Xiaoqi Wang + 3 more2026-03-02🤖 cs.AI

Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos

Este trabalho propõe o STE-VLN, uma abordagem que aprimora a navegação visão-linguagem em ambientes não vistos ao integrar o YE-KG, um novo grafo de conhecimento espaço-temporal multimodal derivado de vídeos reais, permitindo que agentes recuperem sequências de eventos causais para resolver instruções vagas e tarefas de longo horizonte com maior eficácia.

Haoxuan Xu, Tianfu Li, Wenbo Chen + 4 more2026-03-02💻 cs

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

O artigo apresenta o CC-VQA, um método inovador e sem necessidade de treinamento para a Resposta Visual a Perguntas Baseada em Conhecimento (KB-VQA) que mitiga conflitos de conhecimento através da análise visual-semantic e da codificação guiada por correlação, alcançando desempenho superior em benchmarks como E-VQA, InfoSeek e OK-VQA.

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Este artigo apresenta o NV-CoT, um novo framework que permite que modelos de linguagem multimodal realizem raciocínio visual por meio da geração direta de coordenadas numéricas contínuas, superando as limitações de métodos baseados em texto ou patches fixos e demonstrando melhorias significativas em precisão de localização, acurácia e velocidade de convergência.

Kesen Zhao, Beier Zhu, Junbao Zhou + 3 more2026-03-02💻 cs

Clinically-aligned ischemic stroke segmentation and ASPECTS scoring on NCCT imaging using a slice-gated loss on foundation representations

Este artigo apresenta um framework de segmentação de AVC isquêmico e pontuação ASPECTS em TC não contrastada que integra representações de modelos foundation com uma perda de porta consciente do território (TAGL) para impor consistência anatômica entre os níveis basais e supraganglionares, resultando em desempenho superior sem aumentar a complexidade na inferência.

Hiba Azeem, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

O artigo apresenta o Venus, um novo framework e conjunto de dados (AesGuide) que capacita Modelos de Linguagem Multimodais a fornecer orientação estética acionável e realizar recortes estéticos otimizados, superando as limitações atuais dos modelos existentes na identificação de problemas e no refinamento de composições fotográficas.

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

O artigo apresenta o MINT, um framework inovador de transferência de conhecimento que alinha representações de fala a um espaço de biomarcadores neurais derivados de ressonância magnética durante o treinamento, permitindo a triagem precoce da doença de Alzheimer com a precisão de métodos multimodais, mas sem a necessidade de exames de imagem na fase de inferência.

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

O artigo apresenta o SR3R, um novo framework feed-forward que reformula a reconstrução 3D de super-resolução ao mapear diretamente vistas de baixa resolução esparsas para representações 3DGS de alta resolução, permitindo a aprendizagem autônoma de detalhes de alta frequência e uma generalização robusta em cenas não vistas, superando os métodos atuais de otimização por cena.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

O artigo apresenta o SteerVAD, um novo framework que supera as limitações dos modelos de linguagem multimodal congelados na detecção de anomalias em vídeos ao identificar e ativamente corrigir representações latentes específicas por meio de um controlador hierárquico, alcançando desempenho superior com apenas 1% dos dados de treinamento.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs