UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

O UniHM é um framework pioneiro que utiliza um modelo de linguagem e visão para planejar manipulação destreza de mãos robóticas a partir de instruções de linguagem livre, empregando um tokenizador unificado para generalizar entre diferentes morfologias e um módulo de refinamento guiado por física para garantir sequências de movimento realistas e fisicamente viáveis.

Zhenhao Zhang, Jiaxin Liu, Ye Shi + 1 more2026-03-03💻 cs

DUCX: Decomposing Unfairness in Tool-Using Chest X-ray Agents

O artigo DUCX apresenta uma auditoria sistemática de agentes de IA que utilizam ferramentas para responder a perguntas sobre radiografias de tórax, introduzindo uma decomposição de justiça em etapas que revela como disparidades demográficas surgem não apenas no desempenho final, mas também em comportamentos intermediários específicos como a exposição a ferramentas, padrões de roteamento e raciocínio, destacando a necessidade de auditorias de justiça em nível de processo para garantir a equidade na implantação clínica.

Zikang Xu, Ruinan Jin, Xiaoxiao Li2026-03-03💻 cs

Neural Functional Alignment Space: Brain-Referenced Representation of Artificial Neural Networks

O artigo propõe o Espaço de Alinhamento Funcional Neural (NFAS), uma estrutura de representação ancorada no cérebro que utiliza a decomposição de modos dinâmicos e o Índice de Consistência Sinal-Ruído para caracterizar e comparar a organização funcional de redes neurais artificiais em diversas modalidades, revelando tanto agrupamentos específicos quanto convergências cruzadas com sistemas neurais biológicos.

Ruiyu Yan, Hanqi Jiang, Yi Pan + 4 more2026-03-03💻 cs

MMTA: Multi Membership Temporal Attention for Fine-Grained Stroke Rehabilitation Assessment

O artigo apresenta o MMTA, um modelo de atenção temporal que permite a cada quadro assistir a múltiplas janelas temporais simultaneamente, melhorando significativamente a precisão na segmentação de micro-movimentos e transições de fase para a avaliação de reabilitação de AVC, tanto em vídeos quanto em dados de sensores vestíveis.

Halil Ismail Helvaci, Justin Huber, Jihye Bae + 1 more2026-03-03💻 cs

Solving a Nonlinear Blind Inverse Problem for Tagged MRI with Physics and Deep Generative Priors

Este artigo apresenta um novo quadro de inversão não linear e cego que unifica pela primeira vez a recuperação da anatomia, a síntese de imagens cine de alta resolução e a estimativa de movimento em ressonância magnética com marcação, combinando física de MR e priores generativos profundos para superar desafios como o desvanecimento das marcas e a entrelaçamento entre anatomia e movimento.

Zhangxing Bian, Shuwen Wei, Samuel W. Remedios + 4 more2026-03-03⚡ eess

VEMamba: Efficient Isotropic Reconstruction of Volume Electron Microscopy with Axial-Lateral Consistent Mamba

O artigo apresenta o VEMamba, um framework eficiente que utiliza um novo paradigma de reordenação de dependências 3D e simulação realista de degradação para realizar reconstrução isotrópica de microscopia eletrônica volumétrica, superando as limitações de métodos existentes ao garantir consistência axial-lateral com menor custo computacional.

Longmi Gao, Pan Gao2026-03-03💻 cs

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

O artigo apresenta o pySpatial, uma estrutura de programação visual que capacita modelos de linguagem multimodais a realizar raciocínio espacial zero-shot em 3D através da geração de código Python para interagir com ferramentas espaciais, superando significativamente os modelos de base em benchmarks desafiadores e demonstrando eficácia em navegação robótica real.

Zhanpeng Luo, Ce Zhang, Silong Yong + 6 more2026-03-03💻 cs

On the Exact Algorithmic Extraction of Finite Tesselations Through Prime Extraction of Minimal Representative Forms

Este artigo propõe um algoritmo determinístico hierárquico que extrai exata e eficientemente tesselações retangulares finitas em grades planas através da descoberta de padrões compostos, normalização para formas representativas mínimas e extração de primos, preenchendo uma lacuna na análise simbólica de estruturas repetitivas para aplicações como resolução de quebra-cabeças.

Sushish Baral, Paulo Garcia, Warisa Sritriratanarak2026-03-03💻 cs

VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

O artigo apresenta o VGGT-Det, o primeiro framework para detecção 3D de objetos em ambientes internos multi-visão sem geometria de sensores, que integra um encoder VGGT em um pipeline baseado em transformer com mecanismos de geração de consultas guiada por atenção e agregação de características orientada por consultas para explorar priores semânticos e geométricos internos, superando significativamente os métodos existentes.

Yang Cao, Feize Wu, Dave Zhenyu Chen + 3 more2026-03-03💻 cs