Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Este artigo apresenta o NV-CoT, um novo framework que permite que modelos de linguagem multimodal realizem raciocínio visual por meio da geração direta de coordenadas numéricas contínuas, superando as limitações de métodos baseados em texto ou patches fixos e demonstrando melhorias significativas em precisão de localização, acurácia e velocidade de convergência.

Kesen Zhao, Beier Zhu, Junbao Zhou + 3 more2026-03-02💻 cs

Clinically-aligned ischemic stroke segmentation and ASPECTS scoring on NCCT imaging using a slice-gated loss on foundation representations

Este artigo apresenta um framework de segmentação de AVC isquêmico e pontuação ASPECTS em TC não contrastada que integra representações de modelos foundation com uma perda de porta consciente do território (TAGL) para impor consistência anatômica entre os níveis basais e supraganglionares, resultando em desempenho superior sem aumentar a complexidade na inferência.

Hiba Azeem, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

O artigo apresenta o Venus, um novo framework e conjunto de dados (AesGuide) que capacita Modelos de Linguagem Multimodais a fornecer orientação estética acionável e realizar recortes estéticos otimizados, superando as limitações atuais dos modelos existentes na identificação de problemas e no refinamento de composições fotográficas.

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

O artigo apresenta o MINT, um framework inovador de transferência de conhecimento que alinha representações de fala a um espaço de biomarcadores neurais derivados de ressonância magnética durante o treinamento, permitindo a triagem precoce da doença de Alzheimer com a precisão de métodos multimodais, mas sem a necessidade de exames de imagem na fase de inferência.

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

O artigo apresenta o SR3R, um novo framework feed-forward que reformula a reconstrução 3D de super-resolução ao mapear diretamente vistas de baixa resolução esparsas para representações 3DGS de alta resolução, permitindo a aprendizagem autônoma de detalhes de alta frequência e uma generalização robusta em cenas não vistas, superando os métodos atuais de otimização por cena.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

O artigo apresenta o SteerVAD, um novo framework que supera as limitações dos modelos de linguagem multimodal congelados na detecção de anomalias em vídeos ao identificar e ativamente corrigir representações latentes específicas por meio de um controlador hierárquico, alcançando desempenho superior com apenas 1% dos dados de treinamento.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Este artigo apresenta um framework unificado para a reconstrução 3D de alta fidelidade de roupas a partir de imagens monoculares e vídeos, combinando Padrões de Costura Implícitos com um modelo difusivo generativo para aprender prios de forma em espaço UV e garantir consistência temporal, superando métodos existentes na reconstrução de roupas justas e folgadas com detalhes geométricos realistas.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Este trabalho apresenta o Quant Experts (QE), um método de pós-treinamento para quantização de Modelos Visuais-Linguísticos que utiliza uma arquitetura de Mixture of Experts adaptativa e consciente de tokens para compensar erros de quantização de forma dinâmica, melhorando a precisão em modelos de 2B a 70B parâmetros sem necessidade de retreinamento completo.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

O artigo apresenta o AgenticOCR, um paradigma de parseamento dinâmico e orientado a consultas que otimiza a recuperação aumentada por geração (RAG) multimodal ao extrair seletivamente apenas as regiões relevantes de documentos visuais complexos, superando as limitações do processamento de páginas inteiras e melhorando significativamente a eficiência e a precisão na compreensão de documentos longos.

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL