SGG-R3^{\rm 3}: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

O artigo apresenta o SGG-R³, um framework de raciocínio estruturado que combina ajuste fino supervisionado com aumento de relações e aprendizado por reforço com otimização de política de sequência em grupo, para gerar gráficos de cena completos e não enviesados, superando os desafios de distribuição de cauda longa e esparsidade de relações.

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Este artigo apresenta o EcoG-Bench, um novo benchmark bilingue e rigoroso para avaliar a capacidade de modelos de linguagem multimodais de associar comandos deícticos a gestos de apontamento em tempo real, revelando uma grande lacuna de desempenho entre humanos e IAs devido a limitações nas interfaces multimodais que dificultam a observação de alinhamentos temporais precisos.

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

Este trabalho apresenta um framework de rastreamento de instrumentos cirúrgicos para realidade aumentada que supera as limitações de oclusão em salas de cirurgia dinâmicas ao fundir múltiplas modalidades de sensoriamento e otimizar a visualização em tempo real.

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

O artigo apresenta o AutoReg3D, um detector 3D baseado em LiDAR que reformula a detecção como geração de sequências autoregressivas em ordem de proximidade, eliminando a necessidade de componentes manuais como âncoras e supressão não máxima (NMS) enquanto habilita a aplicação de avanços recentes em modelos de linguagem para percepção 3D.

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

O artigo propõe o framework ViSA, uma arquitetura colaborativa de três fases que aprimora a navegação aérea visão-linguagem ao permitir que modelos de visão e linguagem realizem raciocínio direto em planos de imagem sem treinamento adicional, alcançando uma melhoria de 70,3% na taxa de sucesso em comparação com métodos existentes.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

O artigo propõe o primeiro framework de fusão de imagens infravermelho-visível com IR ausente que utiliza uma representação compartilhada baseada em dicionário para inferir coeficientes de IR a partir do VIS e fundi-los de forma interpretável, evitando a geração descontrolada no espaço de pixels e melhorando a qualidade perceptual e o desempenho de detecção.

Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

O artigo apresenta o MambaDance, uma nova abordagem para geração de dança que substitui os modelos Transformer por uma arquitetura baseada em Mamba dentro de um processo de difusão em duas etapas e utiliza uma representação de batida musical baseada em Gaussiana para gerar movimentos sincronizados e coerentes em sequências de qualquer duração.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Este artigo apresenta um framework em cascata de dois estágios que gera vídeos complexos de movimentos humanos a partir de descrições textuais, combinando um modelo autoregressivo texto-para-esqueleto para criar sequências de poses e um modelo de difusão vídeo-para-poses com codificador de referência adaptativo, apoiado por um novo conjunto de dados sintético para superar as limitações atuais no controle temporal e na preservação de aparência.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

O artigo apresenta o QualiTeacher, um novo quadro de trabalho que transforma o problema das pseudo-rótulos imperfeitos na restauração de imagens do mundo real ao condicionar explicitamente o modelo de estudante à qualidade estimada desses rótulos, permitindo assim aprender um manifold de restauração graduado que evita artefatos e extrapola para gerar resultados de qualidade superior.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Este artigo apresenta uma solução robusta para o 10º Desafio de Reconhecimento de Expressão da ABAW, utilizando um framework multimodal com atenção cruzada segura e dropout de modalidade para lidar eficazmente com oclusões, dados ausentes e desequilíbrio de classes, alcançando 60,79% de precisão no conjunto de validação Aff-Wild2.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

Este artigo apresenta o "See & Switch", um quadro interativo de ensino e execução para robôs que utiliza percepção visual baseada em câmeras olho-na-mão para selecionar automaticamente ramificações em tarefas condicionais e detectar contextos anômalos, permitindo uma programação por demonstração escalável e independente do modo de entrada, conforme validado em tarefas de manipulação e estudos com usuários.

Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

O artigo apresenta o ImageEdit-R1, um framework multiagente que utiliza aprendizado por reforço para coordenar agentes especializados em visão e linguagem, superando as limitações de modelos existentes ao tratar a edição de imagem como um problema de tomada de decisão sequencial para executar instruções complexas e contextuais com maior precisão.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Este artigo apresenta uma nova arquitetura de classificação plug-and-play que utiliza um Modelo de Visão e Linguagem de Grande Escala (LVLM) para realizar modelagem relacional conjunta entre imagens de drones e satélites, aprimorando significativamente a precisão da geolocalização por meio de uma função de perda relacional inovadora que fornece supervisão granular.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs