SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

O artigo apresenta o SurgFed, um framework de aprendizado federado multi-tarefa que utiliza seleção de canais e agregação hiper-rede guiadas por linguagem para superar os desafios de diversidade de tecidos e tarefas na compreensão de vídeos cirúrgicos, demonstrando desempenho superior em cinco conjuntos de dados públicos.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

O artigo apresenta o Context-Nav, uma abordagem sem treinamento específico que aprimora a navegação de instâncias em ambientes 3D ao utilizar alinhamentos texto-imagem densos para guiar a exploração global e realizar verificações espaciais conscientes do ponto de vista para validar candidatos, alcançando desempenho de ponta sem necessidade de ajuste fino.

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Este artigo investiga a confiabilidade de Modelos Visuais-Linguísticos (VLMs) em assistentes de direção, identificando limitações como inconsistência de respostas e raciocínio temporal deficiente, e propõe o benchmark FutureVQA e uma abordagem de ajuste auto-supervisionado com raciocínio em cadeia de pensamento para melhorar a consistência e a capacidade de prever cenários futuros sem necessidade de rótulos temporais.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

O artigo apresenta o RuleSafe, um novo benchmark de manipulação articulada com tarefas não-Markovianas de longo horizonte, e propõe a VQ-Memory, uma representação temporal compacta baseada em VQ-VAE que melhora significativamente o planejamento e a generalização em modelos de manipulação robótica.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai Chenjia2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

O artigo apresenta o DCAU-Net, um novo framework de segmentação de imagens médicas que combina uma Atenção Cruzada Diferencial (DCA) para destacar estruturas discriminativas com complexidade reduzida e uma Estratégia de Fusão de Características Canal-Espacial (CSFF) para integrar adaptativamente informações semânticas e detalhadas, resultando em maior precisão e robustez.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Este estudo propõe e valida um método baseado em modelos de linguagem grandes (LLMs) para gerar expressões multimodais dinâmicas e semanticamente alinhadas em agentes pedagógicos de realidade virtual, demonstrando que tal abordagem melhora significativamente a eficácia percebida, o engajamento e a presença social dos aprendizes, ao mesmo tempo que reduz o cansaço e o tédio.

Ninghao Wan, Jiarun Song, Fuzheng Yang2026-03-11💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

O artigo apresenta o NS-VLA, um novo framework neuro-simbólico que combina codificadores simbólicos, solucionadores e aprendizado por reforço online para superar as limitações de modelos VLA existentes, resultando em maior eficiência de dados, generalização zero-shot e capacidade de exploração expandida em tarefas de manipulação robótica.

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran Luo2026-03-11💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Este estudo apresenta uma análise abrangente e unificada de diversos métodos de imageamento não-visão direta (NLOS) baseados em tempo de voo, estabelecendo um modelo comum para avaliar suas similaridades, diferenças e limitações experimentais sob condições de hardware padronizadas, visando servir como referência para comparações objetivas futuras.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

O artigo apresenta o GeoSolver, um novo framework que utiliza o conjunto de dados Geo-PRM-2M e o algoritmo de aprendizado por reforço Process-Aware Tree-GRPO para superar os desafios de fidelidade visual e escalar o raciocínio em tempo de teste em modelos de visão e linguagem aplicados à sensoriamento remoto, alcançando desempenho state-of-the-art.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

Trajectory Optimization for Self-Wrap-Aware Cable-Towed Planar Object Manipulation under Implicit Tension Constraints

Este artigo propõe uma otimização de trajetória que integra implicitamente as restrições de tensão e o auto-envolvimento do cabo para manipulação de objetos planos, demonstrando que permitir a evolução do estado do cabo gera soluções mais eficientes do que decisões explícitas de roteamento que tendem a ser conservadoras.

Yu Li, Amin Fakhari, Hamid Sadeghian2026-03-11💻 cs