GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence

O artigo apresenta o GLASS, um framework não supervisionado que combina análise espectral geométrica com priores semânticos de modelos visão-linguagem para estabelecer correspondências densas e semanticamente consistentes entre formas 3D, superando significativamente os métodos existentes em cenários de deformações não isométricas e interclasses.

Qinfeng Xiao, Guofeng Mei, Qilong Liu, Chenyuan Yi, Fabio Poiesi, Jian Zhang, Bo Yang, Yick Kit-lun2026-03-10💻 cs

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

Este artigo propõe o framework de Inferência Auto-Crítica (SCI), que utiliza raciocínio contrafactual multimodal escalável para mitigar viés e sensibilidade linguística em Modelos Visuais-Linguísticos, além de introduzir o DRBench, uma avaliação dinâmica específica para cada modelo que supera as limitações dos benchmarks fixos.

Kaihua Tang, Jiaxin Qi, Jinli Ou, Yuhua Zheng, Jianqiang Huang2026-03-10💻 cs

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

O artigo apresenta o Holi-Spatial, o primeiro conjunto de dados multimodal espacialmente consciente em grande escala, construído totalmente de forma automatizada a partir de vídeos brutos sem intervenção humana, que oferece anotações semânticas e geométricas de alta qualidade para superar as limitações de escalabilidade e viés de domínio dos métodos existentes e aprimorar significativamente o raciocínio espacial de modelos de visão e linguagem.

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong2026-03-10💻 cs

DAISS: Phase-Aware Imitation Learning for Dual-Arm Robotic Ultrasound-Guided Interventions

O artigo apresenta o DAISS, um sistema cirúrgico teleoperado de dois braços que utiliza aprendizado por imitação sensível a fases e feedback de ultrassom em tempo real para automatizar com precisão procedimentos de intervenção guiada por imagem, como a inserção de agulhas, reduzindo a carga cognitiva e replicando estratégias de especialistas a partir de demonstrações limitadas.

Feng Li, Pei Liu, Shiting Wang, Ning Wang, Zhongliang Jiang, Nassir Navab, Yuan Bi2026-03-10💻 cs

Ref-DGS: Reflective Dual Gaussian Splatting

O artigo apresenta o Ref-DGS, um novo framework de "Dual Gaussian Splatting" que resolve o desafio da reconstrução de superfícies com reflexos especulares próximos e distantes, decoplando a geometria das reflexões em uma representação dual e utilizando um shader adaptativo para alcançar resultados de ponta com treinamento significativamente mais rápido do que métodos baseados em rastreamento de raios.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter Wonka2026-03-10💻 cs

The Effect of Code Obfuscation on Human Program Comprehension

Este estudo investiga como a ofuscação de código afeta a compreensão humana em Python e JavaScript, revelando que, embora a ofuscação geralmente aumente o tempo de análise e reduza a precisão, a relação não é estritamente monotônica e varia conforme a linguagem, com a experiência do programador influenciando principalmente a familiaridade com a sintaxe específica e não a capacidade geral de programação.

Anh H. N. Nguyen, Jack Le, Ilse Lahnstein Coronado, Tien N. Nguyen2026-03-10💻 cs

Low-Cost Teleoperation Extension for Mobile Manipulators

Este artigo apresenta um framework de teleoperação de baixo custo e código aberto para manipuladores móveis bimanuais, que utiliza hardware comum como smartphones e pedais para permitir um controle intuitivo de todo o corpo, eliminando a necessidade de equipamentos especializados caros e demonstrando melhor desempenho e menor carga cognitiva em comparação com controles baseados em teclado.

Danil Belov, Artem Erkhov, Yaroslav Savotin, Tatiana Podladchikova, Pavel Osinenko2026-03-10💻 cs

A Primer on Evolutionary Frameworks for Near-Field Multi-Source Localization

Este artigo apresenta dois novos frameworks evolutivos baseados em modelos, denominados NEMO-DE e NEEF-DE, que realizam a localização de múltiplas fontes no campo próximo utilizando diretamente o modelo de onda esférica contínua, eliminando a necessidade de grades discretizadas, dados rotulados ou restrições de arquitetura de rede.

Seyed Jalaleddin Mousavirad, Parisa Ramezani, Mattias O'Nils, Emil Björnson2026-03-10💻 cs

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

O artigo apresenta o RoboPCA, um framework de aprendizado de affordance centrado na pose que prevê conjuntamente regiões de contato e poses adequadas para manipulação robótica, utilizando o pipeline Human2Afford para gerar automaticamente anotações a partir de demonstrações humanas e demonstrando superioridade em relação a métodos existentes em diversos cenários.

Zhanqi Xiao, Ruiping Wang, Xilin Chen2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

O artigo apresenta o MMDM, um modelo de difusão baseado em autoencoder que utiliza o mecanismo de Agregação de Atenção Cinemática para aprender priores de movimento adaptativos ao contexto, permitindo a reconstrução robusta e eficiente de dados de movimento incompletos ou ruidosos em tarefas como refinamento, preenchimento e interpolação.

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

C2^2-Explorer: Contiguity-Driven Task Allocation with Connectivity-Aware Task Representation for Decentralized Multi-UAV Exploration

O artigo apresenta o C2^2-Explorer, um framework descentralizado para exploração multi-UAV que supera limitações de comunicação e alocação não contígua ao utilizar representações de tarefas baseadas em conectividade e uma formulação de alocação orientada à contiguidade, resultando em reduções significativas no tempo de exploração e na distância percorrida.

Xinlu Yan, Mingjie Zhang, Yuhao Fang, Yanke Sun, Jun Ma, Youmin Gong, Boyu Zhou, Jie Mei2026-03-10💻 cs