Quantized Visual Geometry Grounded Transformer

O artigo apresenta o QuantVGGT, um framework pioneiro de pós-treinamento para quantização de Transformers de Geometria Visual (VGGTs) que, através de uma quantização de precisão dupla suavizada e de uma amostragem diversificada filtrada por ruído, supera os desafios de distribuição de ativações e instabilidade de calibração, permitindo uma redução de memória de 3,7 vezes e aceleração de 2,5 vezes em hardware real com precisão de reconstrução superior a 98%.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Este artigo propõe um quadro de acoplamento autônomo entre UAVs e robôs quadrúpedes para ambientes sem GPS, que utiliza aprendizado por reforço profundo para estabilizar o torso do quadrúpede e um controle de deslizamento terminal não singular com função de barreira para guiar o UAV, permitindo pousos bem-sucedidos em terrenos complexos como escadas e encostas íngremes.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Este artigo apresenta o FAMDA, um framework de adaptação de domínio não supervisionado que utiliza modelos fundacionais de visão como professores em um paradigma de auto-treinamento para gerar pseudo-rótulos de alta qualidade, permitindo que uma rede estudante leve e eficiente alcance desempenho superior em tarefas densas de previsão para aplicações robóticas.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

O artigo propõe o QuantSparse, um quadro unificado que integra quantização de modelo e esparsificação de atenção com técnicas de destilação e reparametrização para comprimir eficientemente transformadores de difusão de vídeo, alcançando ganhos significativos em armazenamento e velocidade de inferência sem comprometer a qualidade da geração.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration

O artigo apresenta o ELHPlan, um novo framework para planejamento de tarefas de longo horizonte em colaboração multiagente que utiliza cadeias de ações vinculadas a intenções para equilibrar adaptabilidade e eficiência, alcançando taxas de sucesso comparáveis às melhores metodologias atuais enquanto consome apenas 30-40% dos tokens necessários.

Shaobin Ling, Yun Wang, Chenyou Fan, Tin Lun Lam, Junjie Hu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Este trabalho apresenta o PHASE-Net, um modelo leve e teoricamente fundamentado em equações físicas para medição de fotopletismografia remota (rPPG) que supera os desafios de movimento e iluminação através de componentes inovadores como o Trocador Axial de FLOPs Zero, Filtro Espacial Adaptativo e TCN com Portão, alcançando desempenho de ponta e eficiência para implantação prática.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Este trabalho apresenta o LMOD+, um novo benchmark multimodal em oftalmologia expandido com 32.633 instâncias e avaliações abrangentes de modelos de linguagem grandes multimodais, visando impulsionar o desenvolvimento de IA para diagnóstico e triagem de doenças oculares que ameaçam a visão.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

Este artigo propõe a Função de Barreira de Controle Parabólica Dinâmica (DPCBF), um método inovador que supera as limitações de conservadorismo e inviabilidade dos métodos baseados em cones de colisão, garantindo a navegação segura e eficaz de robôs não holonômicos em ambientes densos e dinâmicos com até 100 obstáculos.

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

O artigo apresenta o REVEL, uma nova tarefa de manipulação interativa de vídeos em streaming, e propõe o DragStream, uma abordagem sem treinamento que corrige a deriva de distribuição latente e mitiga interferências contextuais para permitir a edição precisa de qualquer elemento em qualquer momento dentro de modelos de difusão autoregressivos.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation guided Structured Pruning

Este artigo apresenta um sistema de verificação de locutor de última geração que utiliza o modelo w2v-BERT 2.0 com LoRA e adaptadores de camada, alcançando resultados excepcionais no Vox1-O e Vox1-H, além de empregar poda estruturada guiada por destilação de conhecimento para reduzir o tamanho do modelo em 80% com uma degradação mínima de desempenho.

Ze Li, Ming Cheng, Ming Li2026-03-10💻 cs