Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

O artigo apresenta o MambaDance, uma nova abordagem para geração de dança que substitui os modelos Transformer por uma arquitetura baseada em Mamba dentro de um processo de difusão em duas etapas e utiliza uma representação de batida musical baseada em Gaussiana para gerar movimentos sincronizados e coerentes em sequências de qualquer duração.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Este artigo apresenta um framework em cascata de dois estágios que gera vídeos complexos de movimentos humanos a partir de descrições textuais, combinando um modelo autoregressivo texto-para-esqueleto para criar sequências de poses e um modelo de difusão vídeo-para-poses com codificador de referência adaptativo, apoiado por um novo conjunto de dados sintético para superar as limitações atuais no controle temporal e na preservação de aparência.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

O artigo apresenta o QualiTeacher, um novo quadro de trabalho que transforma o problema das pseudo-rótulos imperfeitos na restauração de imagens do mundo real ao condicionar explicitamente o modelo de estudante à qualidade estimada desses rótulos, permitindo assim aprender um manifold de restauração graduado que evita artefatos e extrapola para gerar resultados de qualidade superior.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Este artigo apresenta uma solução robusta para o 10º Desafio de Reconhecimento de Expressão da ABAW, utilizando um framework multimodal com atenção cruzada segura e dropout de modalidade para lidar eficazmente com oclusões, dados ausentes e desequilíbrio de classes, alcançando 60,79% de precisão no conjunto de validação Aff-Wild2.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

Distributed Coordination Algorithms with Efficient Communication for Open Multi-Agent Systems with Dynamic Communication Links and Processing Delays

Este artigo propõe e analisa três algoritmos de consenso de média quantizada eficientes em comunicação para sistemas multiagente abertos com ligações dinâmicas e atrasos de processamento, estabelecendo condições topológicas para convergência em tempo finito e demonstrando robustez através de simulações numéricas.

Jiaqi Hu, Karl H. Johansson, Apostolos I. Rikos2026-03-10💻 cs

Trajectory Tracking Control Design for Autonomous Helicopters with Guaranteed Error Bounds

Este artigo apresenta uma estrutura sistemática para calcular limites de erro de rastreamento de trajetória com garantias formais para helicópteros autônomos, utilizando conjuntos invariantes positivos robustos (RPI) para definir zonas de segurança certificadas e comparar três arquiteturas de controle quanto à sua conservadorismo e desempenho.

Philipp Schitz, Johann C. Dauer, Paolo Mercorelli2026-03-10💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

O artigo apresenta o WhispEar, um framework bidirecional que utiliza a geração de sussurros pseudo-paralelos a partir de fala normal para escalar o treinamento de conversão de sussurro para fala normal, alcançando desempenho superior e disponibilizando o maior corpus paralelo bilíngue (chinês-inglês) existente.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng Wu2026-03-10💻 cs

See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

Este artigo apresenta o "See & Switch", um quadro interativo de ensino e execução para robôs que utiliza percepção visual baseada em câmeras olho-na-mão para selecionar automaticamente ramificações em tarefas condicionais e detectar contextos anômalos, permitindo uma programação por demonstração escalável e independente do modo de entrada, conforme validado em tarefas de manipulação e estudos com usuários.

Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

O artigo apresenta o ImageEdit-R1, um framework multiagente que utiliza aprendizado por reforço para coordenar agentes especializados em visão e linguagem, superando as limitações de modelos existentes ao tratar a edição de imagem como um problema de tomada de decisão sequencial para executar instruções complexas e contextuais com maior precisão.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

CinemaWorld: Generative Augmented Reality with LLMs and 3D Scene Generation for Movie Augmentation

O artigo apresenta o CinemaWorld, um sistema de realidade aumentada generativa que utiliza modelos de linguagem grandes e inteligência artificial para transformar cenas de filmes 2D em conteúdo 3D dinâmico e sincronizado no ambiente físico do usuário, demonstrando através de estudos que essa tecnologia aumenta a imersão e o prazer na experiência cinematográfica.

Keiichi Ihara, DaeHo Lee, Manato Abe, Hye-Young Jo, Ryo Suzuki2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Este artigo apresenta uma nova arquitetura de classificação plug-and-play que utiliza um Modelo de Visão e Linguagem de Grande Escala (LVLM) para realizar modelagem relacional conjunta entre imagens de drones e satélites, aprimorando significativamente a precisão da geolocalização por meio de uma função de perda relacional inovadora que fornece supervisão granular.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs