SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

O artigo apresenta o SR3R, um novo framework feed-forward que reformula a reconstrução 3D de super-resolução ao mapear diretamente vistas de baixa resolução esparsas para representações 3DGS de alta resolução, permitindo a aprendizagem autônoma de detalhes de alta frequência e uma generalização robusta em cenas não vistas, superando os métodos atuais de otimização por cena.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

O artigo apresenta o SteerVAD, um novo framework que supera as limitações dos modelos de linguagem multimodal congelados na detecção de anomalias em vídeos ao identificar e ativamente corrigir representações latentes específicas por meio de um controlador hierárquico, alcançando desempenho superior com apenas 1% dos dados de treinamento.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Este artigo apresenta um framework unificado para a reconstrução 3D de alta fidelidade de roupas a partir de imagens monoculares e vídeos, combinando Padrões de Costura Implícitos com um modelo difusivo generativo para aprender prios de forma em espaço UV e garantir consistência temporal, superando métodos existentes na reconstrução de roupas justas e folgadas com detalhes geométricos realistas.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Este trabalho apresenta o Quant Experts (QE), um método de pós-treinamento para quantização de Modelos Visuais-Linguísticos que utiliza uma arquitetura de Mixture of Experts adaptativa e consciente de tokens para compensar erros de quantização de forma dinâmica, melhorando a precisão em modelos de 2B a 70B parâmetros sem necessidade de retreinamento completo.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

O artigo apresenta o AgenticOCR, um paradigma de parseamento dinâmico e orientado a consultas que otimiza a recuperação aumentada por geração (RAG) multimodal ao extrair seletivamente apenas as regiões relevantes de documentos visuais complexos, superando as limitações do processamento de páginas inteiras e melhorando significativamente a eficiência e a precisão na compreensão de documentos longos.

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

O artigo apresenta o UMPIRE, uma nova estrutura de quantificação de incerteza sem treinamento para Modelos de Linguagem Multimodal (MLLMs) que calcula o volume semântico ajustado à incoerência das respostas, superando as métricas existentes na detecção de erros e calibração de incerteza em diversas modalidades e cenários desafiadores.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL