cs.CV artigos | Gist.Science

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

O artigo apresenta o SGG-R³, um framework de raciocínio estruturado que combina ajuste fino supervisionado com aumento de relações e aprendizado por reforço com otimização de política de sequência em grupo, para gerar gráficos de cena completos e não enviesados, superando os desafios de distribuição de cauda longa e esparsidade de relações.

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Este artigo apresenta o EcoG-Bench, um novo benchmark bilingue e rigoroso para avaliar a capacidade de modelos de linguagem multimodais de associar comandos deícticos a gestos de apontamento em tempo real, revelando uma grande lacuna de desempenho entre humanos e IAs devido a limitações nas interfaces multimodais que dificultam a observação de alinhamentos temporais precisos.

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

Este trabalho apresenta um framework de rastreamento de instrumentos cirúrgicos para realidade aumentada que supera as limitações de oclusão em salas de cirurgia dinâmicas ao fundir múltiplas modalidades de sensoriamento e otimizar a visualização em tempo real.

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

O artigo apresenta o AutoReg3D, um detector 3D baseado em LiDAR que reformula a detecção como geração de sequências autoregressivas em ordem de proximidade, eliminando a necessidade de componentes manuais como âncoras e supressão não máxima (NMS) enquanto habilita a aplicação de avanços recentes em modelos de linguagem para percepção 3D.

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

O artigo apresenta o TeamHOI, uma política descentralizada baseada em Transformers que permite a coordenação escalável e realista de interações cooperativas humano-objeto entre um número variável de agentes, utilizando uma estratégia de Adversarial Motion Prior mascarado para superar a escassez de dados e garantir movimentos fisicamente plausíveis.

Stefan Lionar, Gim Hee Lee2026-03-10💻 cs

AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

O AutoTraces é um modelo autoregressivo que integra grandes modelos de linguagem multimodal com um esquema inovador de tokenização de trajetórias e geração automática de cadeia de pensamento para prever trajetórias robóticas em ambientes com humanos, alcançando resultados state-of-the-art em previsões de longo prazo e generalização entre cenários.

Teng Wang, Yanting Lu, Ruize Wang2026-03-10💻 cs

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

O artigo propõe o framework ViSA, uma arquitetura colaborativa de três fases que aprimora a navegação aérea visão-linguagem ao permitir que modelos de visão e linguagem realizem raciocínio direto em planos de imagem sem treinamento adicional, alcançando uma melhoria de 70,3% na taxa de sucesso em comparação com métodos existentes.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Este artigo apresenta o dataset TickTockVQA, composto por relógios analógicos em cenários reais, e o método de ajuste Swap-DPO para superar as limitações atuais dos modelos de linguagem e visão na leitura precisa de horas e no raciocínio espacial-temporal sob condições visuais complexas.

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee2026-03-10💻 cs

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

O artigo propõe o primeiro framework de fusão de imagens infravermelho-visível com IR ausente que utiliza uma representação compartilhada baseada em dicionário para inferir coeficientes de IR a partir do VIS e fundi-los de forma interpretável, evitando a geração descontrolada no espaço de pixels e melhorando a qualidade perceptual e o desempenho de detecção.

Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu2026-03-10💻 cs

VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

O artigo apresenta o VSDiffusion, um framework de duas etapas baseado em difusão que utiliza priores de visibilidade e dicas de iluminação e profundidade para gerar sombras realistas e geometricamente consistentes em composições de imagem, estabelecendo novos resultados de ponta no conjunto de dados DESOBAv2.

Jing Li, Jing Zhang2026-03-10💻 cs

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

O artigo apresenta o AffordGrasp, um framework baseado em difusão que gera poses de preensão humana física e semanticamente estáveis ao integrar representações latentes de affordance e um processo de dupla condicionamento para alinhar geometria do objeto, intenções espaciais e instruções textuais.

Xiaofei Wu, Yi Zhang, Yumeng Liu, Yuexin Ma, Yujiao Shi, Xuming He2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

O artigo apresenta o MambaDance, uma nova abordagem para geração de dança que substitui os modelos Transformer por uma arquitetura baseada em Mamba dentro de um processo de difusão em duas etapas e utiliza uma representação de batida musical baseada em Gaussiana para gerar movimentos sincronizados e coerentes em sequências de qualquer duração.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Este artigo apresenta um framework em cascata de dois estágios que gera vídeos complexos de movimentos humanos a partir de descrições textuais, combinando um modelo autoregressivo texto-para-esqueleto para criar sequências de poses e um modelo de difusão vídeo-para-poses com codificador de referência adaptativo, apoiado por um novo conjunto de dados sintético para superar as limitações atuais no controle temporal e na preservação de aparência.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

O artigo apresenta o QualiTeacher, um novo quadro de trabalho que transforma o problema das pseudo-rótulos imperfeitos na restauração de imagens do mundo real ao condicionar explicitamente o modelo de estudante à qualidade estimada desses rótulos, permitindo assim aprender um manifold de restauração graduado que evita artefatos e extrapola para gerar resultados de qualidade superior.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Este artigo apresenta uma solução robusta para o 10º Desafio de Reconhecimento de Expressão da ABAW, utilizando um framework multimodal com atenção cruzada segura e dropout de modalidade para lidar eficazmente com oclusões, dados ausentes e desequilíbrio de classes, alcançando 60,79% de precisão no conjunto de validação Aff-Wild2.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

O Speed3R é um modelo de reconstrução 3D feed-forward eficiente que supera os gargalos computacionais de atenção densa ao empregar um mecanismo de atenção de dois ramos focado em tokens informativos, alcançando um aumento de velocidade de 12,4x em sequências de 1000 vistas com uma perda mínima de precisão geométrica.

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

Este artigo apresenta o "See & Switch", um quadro interativo de ensino e execução para robôs que utiliza percepção visual baseada em câmeras olho-na-mão para selecionar automaticamente ramificações em tarefas condicionais e detectar contextos anômalos, permitindo uma programação por demonstração escalável e independente do modo de entrada, conforme validado em tarefas de manipulação e estudos com usuários.

Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

O artigo apresenta o ImageEdit-R1, um framework multiagente que utiliza aprendizado por reforço para coordenar agentes especializados em visão e linguagem, superando as limitações de modelos existentes ao tratar a edição de imagem como um problema de tomada de decisão sequencial para executar instruções complexas e contextuais com maior precisão.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Este artigo apresenta uma nova arquitetura de classificação plug-and-play que utiliza um Modelo de Visão e Linguagem de Grande Escala (LVLM) para realizar modelagem relacional conjunta entre imagens de drones e satélites, aprimorando significativamente a precisão da geolocalização por meio de uma função de perda relacional inovadora que fornece supervisão granular.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs

Evaluating Generative Models via One-Dimensional Code Distributions

Este trabalho propõe novas métricas de avaliação para modelos generativos baseadas em distribuições de tokens visuais discretos, introduzindo o CHD e o CMMS, e apresenta o benchmark VisForm para demonstrar que essas abordagens superam os métodos tradicionais em correlação com julgamentos humanos.

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou2026-03-10💻 cs

← Anterior Próximo →

cs.CV

SGG-R3^{\rm 3}3: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation