Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection

Este trabalho propõe um framework eficiente para detecção de anomalias não supervisionada que utiliza um modelo autoregressivo espacial para capturar dependências contextuais entre embeddings do DINOv3, eliminando a necessidade de bancos de memória volumosos e reduzindo significativamente o custo computacional e de memória durante a inferência.

Ertunc Erdil, Nico Schulthess, Guney Tombak + 1 more2026-03-04💻 cs

VIRGi: View-dependent Instant Recoloring of 3D Gaussians Splats

O artigo apresenta o VIRGi, um método inovador que permite a recolorização rápida e fotorealista de cenas modeladas por 3D Gaussian Splatting, preservando efeitos dependentes da visão como reflexos especulares, através de uma arquitetura que separa componentes de cor e um esquema de ajuste fino que propaga edições de uma única imagem em apenas dois segundos.

Alessio Mazzucchelli, Ivan Ojeda-Martin, Fernando Rivas-Manzaneque + 3 more2026-03-04💻 cs

Kling-MotionControl Technical Report

O Kling-MotionControl é um framework unificado baseado em DiT que utiliza uma estratégia de dividir e conquistar para gerar animações de personagens realistas e expressivas, garantindo estabilidade estrutural e detalhamento fino, generalização entre diferentes identidades, preservação fiel da aparência e aceleração de inferência, superando soluções comerciais e de código aberto em fidelidade e controle.

Kling Team, Jialu Chen, Yikang Ding + 21 more2026-03-04💻 cs

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

O artigo apresenta o COP-GEN, um modelo de difusão latente baseado em transformadores que gera distribuições estocásticas de dados de observação terrestre multimodais, superando as limitações dos modelos determinísticos ao capturar a variabilidade física e permitir traduções flexíveis entre sensores sem necessidade de retreinamento específico.

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci + 2 more2026-03-04💻 cs

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

O artigo apresenta o UniG2U-Bench, um benchmark abrangente que revela que, embora os modelos multimodais unificados geralmente tenham desempenho inferior aos modelos de linguagem e visão puros na maioria das tarefas, a geração intermediária melhora significativamente a compreensão em cenários específicos que exigem inteligência espacial, resolução de ilusões visuais ou raciocínio multi-etapa.

Zimo Wen, Boxiu Li, Wanbo Zhang + 11 more2026-03-04🤖 cs.AI

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

O LoGeR é uma nova arquitetura que supera as limitações de memória e complexidade dos modelos geométricos existentes, permitindo a reconstrução 3D densa e globalmente consistente em vídeos de longuíssima duração (até milhares de quadros) através de um módulo de memória híbrido que combina treinamento no tempo de teste e atenção de janela deslizante.

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Este artigo investiga o pré-treinamento multimodal nativo utilizando o framework Transfusion, revelando que a combinação de representações visuais unificadas (RAE) com uma arquitetura Mixture-of-Experts (MoE) resolve a assimetria de escalabilidade entre visão e linguagem, permitindo a emergência de capacidades de modelagem de mundo e sinergia entre modalidades.

Shengbang Tong, David Fan, John Nguyen + 18 more2026-03-04💻 cs