Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

O artigo apresenta o Stereo-Talker, um sistema inovador de síntese de vídeo humano 3D acionado por áudio que gera vídeos realistas com sincronização labial precisa e gestos expressivos, utilizando priores de modelos de linguagem para enriquecer a diversidade dos movimentos e um mecanismo de Mixture-of-Experts guiado por priores para garantir estabilidade e controle contínuo de viewpoint.

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

O artigo apresenta o CLAP, um método de pré-treinamento não supervisionado que une aprendizado de representações 3D de imagens e nuvens de pontos através de amostragem de curvatura e protótipos aprendíveis, superando limitações computacionais e alcançando ganhos de desempenho significativos em tarefas de percepção 3D.

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

O artigo apresenta o JiSAM, um método plug-and-play que combina aumento por jitter, um backbone consciente do domínio e alinhamento setorial baseado em memória para permitir que modelos de percepção de direção autônoma atinjam desempenho comparável ao treinado com todos os dados reais utilizando apenas 2,5% de dados reais rotulados e dados sintéticos, superando assim o custo de anotação e o problema de casos extremos.

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Autoregressive Image Generation with Randomized Parallel Decoding

O artigo apresenta o ARPG, um modelo de geração de imagens autoregressivo inovador que utiliza um mecanismo de decodificação paralela aleatória e um quadro de decodificação desacoplado para superar as limitações de eficiência e generalização dos métodos convencionais, permitindo inferência rápida, redução de memória e capacidades zero-shot como preenchimento e expansão de resolução.

Haopeng Li, Jinyue Yang, Guoqi Li + 1 more2026-03-02💻 cs

Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving

Este trabalho propõe uma abordagem inovadora baseada em modelos de difusão para gerar dados sintéticos de cenas 3D semânticas realistas sem depender de projeções ou modelos desacoplados, demonstrando que o uso desses dados sintéticos no treinamento de redes de segmentação semântica melhora o desempenho do modelo e reduz a necessidade de anotação manual de dados reais.

Lucas Nunes, Rodrigo Marcuzzi, Jens Behley + 1 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

O artigo apresenta o KARMMA, um framework de destilação de conhecimento multimodal para reconhecimento de ações egocêntricas que, ao não exigir alinhamento de modalidades durante o treinamento e ser robusto a entradas faltantes, permite a implantação eficiente em robôs com configurações de sensores variadas e recursos computacionais reduzidos.

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

O artigo apresenta o FermatSyn, um novo método para síntese de imagens médicas multimodais que combina um codificador baseado no SAM2, um módulo de downsampling residual hierárquico e uma estratégia de varredura em espiral de Fermat bidirecional para superar as limitações de consistência anatômica global e detalhe local, demonstrando desempenho superior e utilidade clínica em diversos conjuntos de dados.

Feng Yuan2026-03-02⚡ eess

On the use of Graphs for Satellite Image Time Series

Este artigo examina a integração de métodos baseados em grafos na análise de séries temporais de imagens de satélite, apresentando um pipeline versátil para modelar interações espaciais e temporais em nível de objeto, com revisões abrangentes e estudos de caso que demonstram seu potencial para mapeamento de cobertura do solo e previsão de recursos hídricos.

Corentin Dufourg, Charlotte Pelletier, Stéphane May + 1 more2026-03-02💻 cs

OmniFall: From Staged Through Synthetic to Wild, A Unified Multi-Domain Dataset for Robust Fall Detection

O artigo apresenta o OmniFall, um benchmark unificado e multi-domínio que combina dados de quedas encenadas, sintéticas e reais (in-the-wild) com anotações densas padronizadas, permitindo o desenvolvimento e avaliação de modelos robustos de detecção de quedas que generalizam para ambientes não controlados enquanto preservam a privacidade.

David Schneider, Zdravko Marinov, Zeyun Zhong + 5 more2026-03-02💻 cs