Toward Real-world Infrared Image Super-Resolution: A Unified Autoregressive Framework and Benchmark Dataset

O artigo apresenta o Real-IISR, um novo framework autoregressivo unificado e o conjunto de dados FLIR-IISR para super-resolução de imagens infravermelhas em cenários reais, projetados para superar as limitações de simulações anteriores ao reconstruir estruturas térmicas e de fundo com consistência física através de módulos de orientação térmico-estrutural e correção de viés de degradação.

Yang Zou, Jun Ma, Zhidong Jiao + 3 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Este comentário de panorama avalia a família GPT-5 como raciocinador clínico multimodal, demonstrando avanços significativos na síntese de dados textuais e de imagem que superam o GPT-4o, mas revelando que, embora represente um progresso em direção ao raciocínio integrado, os modelos generalistas ainda não substituem sistemas especializados em tarefas críticas de percepção como neurorradiologia e mamografia.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Este artigo apresenta o DSA-SRGS, o primeiro framework de gaussian splatting com super-resolução para reconstrução dinâmica de angiografia por subtração digital (DSA) a partir de vistas esparsas, que integra aprendizado de textura multi-fidelidade e densificação radiativa sub-pixel para recuperar detalhes vasculares finos e superar as limitações de resolução das abordagens existentes.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery

O artigo propõe o RMK RetinaNet, um detector de objetos orientados para imagens de sensoriamento remoto que supera limitações de campo receptivo, fusão de características e regressão angular através de um bloco de kernel multi-escala, atenção contextual direcional, um caminho bottom-up e um módulo de codificação de ângulo de Euler, alcançando desempenho robusto e competitivo em múltiplas escalas e orientações.

Huiran Sun2026-03-06💻 cs

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

O artigo apresenta o MASQuant, um novo framework de quantização pós-treinamento para Modelos de Linguagem Multimodais (MLLMs) que resolve problemas de desalinhamento e invariância computacional entre modalidades através de suavização específica por modalidade e compensação baseada em SVD, alcançando desempenho competitivo em modelos duais e tri-ais.

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

O artigo apresenta o Meta-D, uma arquitetura que utiliza metadados categóricos de exames de ressonância magnética para orientar a extração de características, melhorando significativamente a detecção de tumores cerebrais e a segmentação em cenários com modalidades ausentes ao estabilizar representações e reduzir parâmetros do modelo.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

Este artigo demonstra que, ao corrigir lacunas de domínio por meio de um novo conjunto de dados de alta qualidade e aumentação de dados sensível ao sensor, um modelo leve treinado com polarização supera os modelos fundacionais baseados apenas em RGB na estimativa de normais de superfície, oferecendo ganhos significativos em eficiência de dados e parâmetros.

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Este artigo apresenta o MPCAttack, um novo framework de ataque adversarial colaborativo multi-paradigma que melhora a transferabilidade de exemplos adversariais contra Modelos de Linguagem Grandes Multimodais (MLLMs) ao agregar representações semânticas de imagens e textos para otimização conjunta, superando os métodos existentes em diversos benchmarks.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction

O artigo apresenta o GloSplat, um framework que realiza otimização conjunta de pose e aparência durante o treinamento de 3D Gaussian Splatting, preservando rastros explícitos de características SfM como âncoras geométricas para evitar a deriva de pose e alcançar reconstruções 3D mais rápidas e precisas, superando tanto os métodos baseados em COLMAP quanto os que dispensam sua utilização.

Tianyu Xiong, Rui Li, Linjie Li + 1 more2026-03-06💻 cs