CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

O artigo apresenta o CountFormer, um framework que substitui o codificador de imagem por um modelo de visão auto-supervisionado (DINOv2) para melhorar a consistência estrutural no contagem de objetos sem exemplares, demonstrando que representações de base podem reduzir erros de supercontagem em objetos complexos, embora os resultados quantitativos no benchmark FSC-147 permaneçam competitivos com abordagens anteriores.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

O artigo apresenta o LagMemo, um sistema de navegação visual que utiliza uma memória de Gaussiana 3D com linguagem para permitir a navegação em múltiplos objetivos com consultas de vocabulário aberto, superando os métodos mais avançados e introduzindo o conjunto de dados GOAT-Core para avaliação rigorosa.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

MobiDock: Design and Control of A Modular Self Reconfigurable Bimanual Mobile Manipulator via Robotic Docking

Este estudo apresenta o MobiDock, um manipulador móvel bimanual modular e auto-reconfigurável que utiliza uma estratégia de acoplamento autônomo baseada em visão computacional e um mecanismo de trava rosqueada para transformar dois robôs independentes em uma plataforma unificada, resultando em maior estabilidade dinâmica, precisão angular e eficiência operacional em comparação com a cooperação não acoplada.

Xuan-Thuan Nguyen, Khac Nam Nguyen, Ngoc Duy Tran, Thi Thoa Mac, Anh Nguyen, Hoang Hiep Ly, Tung D. Ta2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

O artigo apresenta o CountOCC, um novo framework de contagem amodal que supera as limitações de métodos atuais em cenários de oclusão ao reconstruir hierarquicamente as características de objetos ocultos através de orientação multimodal e de um objetivo de equivalência visual, alcançando desempenho superior de última geração em conjuntos de dados ocultos.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

O artigo apresenta o Video2Layout, um framework que supera as limitações dos mapas cognitivos baseados em grades ao reconstruir layouts espaciais metricamente fundamentados a partir de coordenadas contínuas de limites de objetos, resultando em um modelo (V2LO-7B) que demonstra melhorias significativas no raciocínio espacial em comparação com métodos tradicionais.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

O artigo propõe o Radiative-Structured Neural Operator (RSNO), uma nova abordagem que utiliza um operador neural para aprender um mapeamento contínuo no domínio espectral e impõe consistência física através de um prior radiativo e projeções de consistência angular, superando as limitações dos métodos baseados em vetores discretos na super-resolução espectral.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

O artigo apresenta o UnfoldLDM, uma nova arquitetura de redes de desdobramento profundo que integra um modelo de difusão latente para superar as limitações de dependência de degradação e viés de suavização excessiva, permitindo a restauração cega de imagens com recuperação eficaz de detalhes de alta frequência.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

O artigo apresenta o Yo'City, um novo framework agêntico que utiliza modelos de linguagem grandes para gerar cenas de cidades 3D realistas, personalizadas e infinitamente expansíveis através de um planejamento hierárquico, síntese de imagens isométricas e um mecanismo de expansão guiado por relações espaciais e semânticas.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

O artigo apresenta o DOPD, uma arquitetura dinâmica de desagregação de pré-preenchimento e decodificação para inferência de LLMs que ajusta automaticamente a alocação de recursos com base na carga em tempo real, superando desequilíbrios de workloads heterogêneos e alcançando ganhos significativos em boa produção e cumprimento de SLOs em comparação com abordagens existentes.

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs