RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

O artigo apresenta o RoboPCA, um framework de aprendizado de affordance centrado na pose que prevê conjuntamente regiões de contato e poses adequadas para manipulação robótica, utilizando o pipeline Human2Afford para gerar automaticamente anotações a partir de demonstrações humanas e demonstrando superioridade em relação a métodos existentes em diversos cenários.

Zhanqi Xiao, Ruiping Wang, Xilin Chen2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

O artigo apresenta o MMDM, um modelo de difusão baseado em autoencoder que utiliza o mecanismo de Agregação de Atenção Cinemática para aprender priores de movimento adaptativos ao contexto, permitindo a reconstrução robusta e eficiente de dados de movimento incompletos ou ruidosos em tarefas como refinamento, preenchimento e interpolação.

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

O artigo apresenta o 3ViewSense, um novo framework que supera a lacuna de inteligência espacial em Modelos Visão-Linguagem ao utilizar um mecanismo de "Simular e Raciocinar" baseado em vistas ortográficas para construir representações mentais 3D coerentes a partir de observações 2D.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

O artigo propõe o AR2-4FV, um método inovador para o rastreamento de longo prazo em vídeos de visão fixa que utiliza um Banco de Âncoras derivado de estruturas de fundo estáticas e mecanismos de reidentificação para manter a continuidade do alvo mesmo durante longos períodos de oclusão ou ausência, superando significativamente as abordagens existentes em taxas de recaptura e latência.

Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong2026-03-10💻 cs

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

O artigo apresenta o DECADE, um modelo de difusão não supervisionado e temporalmente consistente que melhora a qualidade e a precisão quantitativa das imagens dinâmicas de PET cardíaco com Rb-82, superando as limitações de ruído e a falta de dados de treinamento pareados.

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

O artigo apresenta o MedQ-Deg, um novo benchmark abrangente que avalia a robustez e a calibração de confiança de modelos de linguagem multimodal grandes (MLLMs) médicos frente a 18 tipos de degradação de imagem, revelando que, embora o desempenho caia com a severidade das falhas, os modelos mantêm uma confiança excessivamente alta, exibindo um efeito Dunning-Kruger artificial.

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu2026-03-10💻 cs

Geometric Knowledge-Assisted Federated Dual Knowledge Distillation Approach Towards Remote Sensing Satellite Imagery

O artigo propõe o framework GK-FedDKD, que utiliza conhecimento geométrico global e destilação de conhecimento dual para superar os desafios de heterogeneidade de dados no aprendizado federado aplicado à análise de imagens de satélite de sensoriamento remoto, alcançando desempenho superior ao estado da arte.

Luyao Zou, Fei Pan, Jueying Li, Yan Kyaw Tun, Apurba Adhikary, Zhu Han, Hayoung Oh2026-03-10💻 cs

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

O artigo apresenta o OrdinalBench, um novo conjunto de dados de benchmark com 39.000 pares de perguntas e respostas projetado para diagnosticar as limitações de generalização de Modelos Visão-Linguagem na compreensão de números ordinais, revelando que modelos de ponta sofrem degradação significativa ao lidar com grandes índices e caminhos complexos.

Yusuke Tozaki, Hisashi Miyamori2026-03-10💻 cs

SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation

O artigo apresenta o SGI (Structured Gaussian Image), um framework compacto e eficiente que representa imagens de alta resolução utilizando Gaussians neurais 2D estruturados baseados em sementes e uma estratégia de ajuste multiescala, alcançando compressão superior e convergência mais rápida sem comprometer a fidelidade da imagem.

Zixuan Pan, Kaiyuan Tang, Jun Xia, Yifan Qin, Lin Gu, Chaoli Wang, Jianxu Chen, Yiyu Shi2026-03-10💻 cs

4DRC-OCC: Robust Semantic Occupancy Prediction Through Fusion of 4D Radar and Camera

Este trabalho apresenta o 4DRC-OCC, a primeira abordagem que combina dados de radar 4D e câmeras para previsão robusta de ocupação semântica 3D, aproveitando as medições confiáveis do radar em condições adversas e as informações semânticas da câmera, além de introduzir um novo conjunto de dados rotulados automaticamente para reduzir a dependência de anotação manual.

David Ninfa, Andras Palffy, Holger Caesar2026-03-10💻 cs

Tracking Phenological Status and Ecological Interactions in a Hawaiian Cloud Forest Understory using Low-Cost Camera Traps and Visual Foundation Models

Este projeto utiliza armadilhas fotográficas de baixo custo e modelos de visão computacional fundamentais na Reserva Natural Pu'u Maka'ala, no Havaí, para monitorar a fenologia vegetal e as interações flora-fauna em nível individual, revelando tendências ecológicas que métodos tradicionais não conseguem detectar.

Luke Meyers, Anirudh Potlapally, Yuyan Chen, Mike Long, Tanya Berger-Wolf, Hari Subramoni, Remi Megret, Daniel Rubenstein2026-03-10💻 cs