JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

O artigo apresenta o JiSAM, um método plug-and-play que combina aumento por jitter, um backbone consciente do domínio e alinhamento setorial baseado em memória para permitir que modelos de percepção de direção autônoma atinjam desempenho comparável ao treinado com todos os dados reais utilizando apenas 2,5% de dados reais rotulados e dados sintéticos, superando assim o custo de anotação e o problema de casos extremos.

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Autoregressive Image Generation with Randomized Parallel Decoding

O artigo apresenta o ARPG, um modelo de geração de imagens autoregressivo inovador que utiliza um mecanismo de decodificação paralela aleatória e um quadro de decodificação desacoplado para superar as limitações de eficiência e generalização dos métodos convencionais, permitindo inferência rápida, redução de memória e capacidades zero-shot como preenchimento e expansão de resolução.

Haopeng Li, Jinyue Yang, Guoqi Li + 1 more2026-03-02💻 cs

Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving

Este trabalho propõe uma abordagem inovadora baseada em modelos de difusão para gerar dados sintéticos de cenas 3D semânticas realistas sem depender de projeções ou modelos desacoplados, demonstrando que o uso desses dados sintéticos no treinamento de redes de segmentação semântica melhora o desempenho do modelo e reduz a necessidade de anotação manual de dados reais.

Lucas Nunes, Rodrigo Marcuzzi, Jens Behley + 1 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

O artigo apresenta o KARMMA, um framework de destilação de conhecimento multimodal para reconhecimento de ações egocêntricas que, ao não exigir alinhamento de modalidades durante o treinamento e ser robusto a entradas faltantes, permite a implantação eficiente em robôs com configurações de sensores variadas e recursos computacionais reduzidos.

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

O artigo apresenta o FermatSyn, um novo método para síntese de imagens médicas multimodais que combina um codificador baseado no SAM2, um módulo de downsampling residual hierárquico e uma estratégia de varredura em espiral de Fermat bidirecional para superar as limitações de consistência anatômica global e detalhe local, demonstrando desempenho superior e utilidade clínica em diversos conjuntos de dados.

Feng Yuan2026-03-02⚡ eess

On the use of Graphs for Satellite Image Time Series

Este artigo examina a integração de métodos baseados em grafos na análise de séries temporais de imagens de satélite, apresentando um pipeline versátil para modelar interações espaciais e temporais em nível de objeto, com revisões abrangentes e estudos de caso que demonstram seu potencial para mapeamento de cobertura do solo e previsão de recursos hídricos.

Corentin Dufourg, Charlotte Pelletier, Stéphane May + 1 more2026-03-02💻 cs

OmniFall: From Staged Through Synthetic to Wild, A Unified Multi-Domain Dataset for Robust Fall Detection

O artigo apresenta o OmniFall, um benchmark unificado e multi-domínio que combina dados de quedas encenadas, sintéticas e reais (in-the-wild) com anotações densas padronizadas, permitindo o desenvolvimento e avaliação de modelos robustos de detecção de quedas que generalizam para ambientes não controlados enquanto preservam a privacidade.

David Schneider, Zdravko Marinov, Zeyun Zhong + 5 more2026-03-02💻 cs

LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

O artigo propõe o LLM-EMF, uma abordagem inovadora para recomendação sequencial multodomínio que integra conhecimento de Grandes Modelos de Linguagem e dados multimodais (texto e imagem) por meio de um mecanismo de atenção múltipla, demonstrando superioridade em quatro conjuntos de dados de comércio eletrônico ao capturar preferências complexas de usuários.

Wangyu Wu, Zhenhong Chen, Wenqiao Zhang + 5 more2026-03-02💻 cs

Knowledge-Guided Machine Learning: Illustrating the use of Explainable Boosting Machines to Identify Overshooting Tops in Satellite Imagery

Este trabalho demonstra o uso de Máquinas de Reforço Explicáveis (EBMs) em uma colaboração humano-máquina para identificar topos de nuvens penetrantes em imagens de satélite, utilizando técnicas de aprendizado de máquina guiado por conhecimento para extrair características escalares e criar um modelo meteorológico totalmente interpretável que incorpora estratégias humanas, mesmo que com uma precisão ligeiramente inferior a abordagens mais complexas.

Nathan Mitchell, Lander Ver Hoef, Imme Ebert-Uphoff + 4 more2026-03-02🤖 cs.LG