cs artigos | Gist.Science

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

O artigo apresenta o FINS, um framework leve que reconstrói superfícies implícitas e campos de distância assinada (SDF) a partir de uma única imagem com alta eficiência e precisão, superando métodos anteriores em velocidade de convergência e viabilidade para tarefas de geração de movimento em robótica.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

O artigo apresenta o RetoVLA, uma arquitetura que reutiliza tokens de registro descartados em modelos Vision-Language-Action para injetar contexto espacial global sem aumentar o número de parâmetros, resultando em uma melhoria de 17,1% na taxa de sucesso de tarefas robóticas em tempo real.

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

O artigo apresenta o QuantVGGT, um framework pioneiro de pós-treinamento para quantização de Transformers de Geometria Visual (VGGTs) que, através de uma quantização de precisão dupla suavizada e de uma amostragem diversificada filtrada por ruído, supera os desafios de distribuição de ativações e instabilidade de calibração, permitindo uma redução de memória de 3,7 vezes e aceleração de 2,5 vezes em hardware real com precisão de reconstrução superior a 98%.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Este artigo propõe um quadro de acoplamento autônomo entre UAVs e robôs quadrúpedes para ambientes sem GPS, que utiliza aprendizado por reforço profundo para estabilizar o torso do quadrúpede e um controle de deslizamento terminal não singular com função de barreira para guiar o UAV, permitindo pousos bem-sucedidos em terrenos complexos como escadas e encostas íngremes.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

O artigo apresenta o MATR (Motion-Aware Transformer), uma nova arquitetura baseada em Transformers que melhora significativamente o rastreamento de múltiplos objetos ao prever explicitamente o movimento dos objetos para atualizar as consultas de rastreamento, alcançando resultados state-of-the-art em diversos conjuntos de dados desafiadores.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

O artigo propõe o GS-2M, um framework de otimização consciente de materiais baseado em 3D Gaussian Splatting que realiza a reconstrução de malhas de alta fidelidade e a decomposição de aparência de forma conjunta, superando limitações de métodos anteriores em superfícies reflexivas sem depender de componentes neurais complexos.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Towards Strategic Persuasion with Language Models

Este artigo apresenta uma estrutura teórica fundamentada na teoria bayesiana de persuasão para avaliar e treinar modelos de linguagem, demonstrando que tanto modelos avançados quanto modelos menores, quando otimizados com aprendizado por reforço, conseguem alcançar ganhos significativos de persuasão e adotar estratégias sofisticadas.

Zirui Cheng, Jiaxuan You2026-03-10💻 cs

SAC-Loco: Safe and Adjustable Compliant Quadrupedal Locomotion

O artigo propõe o SAC-Loco, um quadro de locomoção para robôs quadrúpedes que integra uma política de complacência ajustável, treinada por aprendizado por reforço sem sensores de força explícitos, e um crítico de segurança aprendido para garantir recuperação robusta e estabilidade diante de distúrbios externos.

Aoqian Zhang, Zixuan Zhuang, Chunzheng Wang, Shuzhi Sam Ge, Fan Shi, Cheng Xiang2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Este artigo apresenta o FAMDA, um framework de adaptação de domínio não supervisionado que utiliza modelos fundacionais de visão como professores em um paradigma de auto-treinamento para gerar pseudo-rótulos de alta qualidade, permitindo que uma rede estudante leve e eficiente alcance desempenho superior em tarefas densas de previsão para aplicações robóticas.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

O artigo propõe o QuantSparse, um quadro unificado que integra quantização de modelo e esparsificação de atenção com técnicas de destilação e reparametrização para comprimir eficientemente transformadores de difusão de vídeo, alcançando ganhos significativos em armazenamento e velocidade de inferência sem comprometer a qualidade da geração.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

O artigo apresenta o DualFlow, um framework unificado e eficiente baseado em Rectified Flow e RAG para geração de movimentos 3D interativos e reativos entre duas pessoas, condicionado a texto, música e sequências anteriores, que supera os métodos existentes em qualidade, sincronização e fidelidade semântica.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration

O artigo apresenta o ELHPlan, um novo framework para planejamento de tarefas de longo horizonte em colaboração multiagente que utiliza cadeias de ações vinculadas a intenções para equilibrar adaptabilidade e eficiência, alcançando taxas de sucesso comparáveis às melhores metodologias atuais enquanto consome apenas 30-40% dos tokens necessários.

Shaobin Ling, Yun Wang, Chenyou Fan, Tin Lun Lam, Junjie Hu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Este trabalho apresenta o PHASE-Net, um modelo leve e teoricamente fundamentado em equações físicas para medição de fotopletismografia remota (rPPG) que supera os desafios de movimento e iluminação através de componentes inovadores como o Trocador Axial de FLOPs Zero, Filtro Espacial Adaptativo e TCN com Portão, alcançando desempenho de ponta e eficiência para implantação prática.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Este trabalho apresenta o LMOD+, um novo benchmark multimodal em oftalmologia expandido com 32.633 instâncias e avaliações abrangentes de modelos de linguagem grandes multimodais, visando impulsionar o desenvolvimento de IA para diagnóstico e triagem de doenças oculares que ameaçam a visão.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Demystifying Codensity Monads via Duality

Este artigo propõe uma abordagem categórica unificada para monadas de codensidade, baseada na dualidade entre categorias, que simplifica drasticamente as provas de apresentações existentes e permite a derivação de novas apresentações para diversas monadas importantes na lógica e semântica denotacional.

Fabian Lenke, Nico Wittrock, Stefan Milius, Henning Urbat2026-03-10💻 cs

Radio-based Multi-Robot Odometry and Relative Localization

Este trabalho apresenta um sistema de localização relativa entre robôs aéreos e terrestres que combina dados de UWB e radar com sensores inerciais e de odometria em um framework de otimização de grafos, demonstrando superioridade sobre métodos existentes e oferecendo código e dados abertos para reprodução e benchmarking.

Andrés Martínez-Silva, David Alejo, Luis Merino, Fernando Caballero2026-03-10💻 cs

XPPG-PCA: Reference-free automatic speech severity evaluation with principal components

O artigo apresenta o XPPG-PCA, um método automático, não supervisionado e sem referência para avaliação objetiva da gravidade de patologias da fala, que supera as limitações das abordagens atuais e demonstra robustez e eficácia comparável a métodos baseados em referência em três conjuntos de dados de câncer oral.

Bence Mark Halpern, Thomas B. Tienkamp, Teja Rebernik + 5 more2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

Este artigo propõe a Função de Barreira de Controle Parabólica Dinâmica (DPCBF), um método inovador que supera as limitações de conservadorismo e inviabilidade dos métodos baseados em cones de colisão, garantindo a navegação segura e eficaz de robôs não holonômicos em ambientes densos e dinâmicos com até 100 obstáculos.

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

O artigo apresenta o REVEL, uma nova tarefa de manipulação interativa de vídeos em streaming, e propõe o DragStream, uma abordagem sem treinamento que corrige a deriva de distribuição latente e mitiga interferências contextuais para permitir a edição precisa de qualquer elemento em qualquer momento dentro de modelos de difusão autoregressivos.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation guided Structured Pruning

Este artigo apresenta um sistema de verificação de locutor de última geração que utiliza o modelo w2v-BERT 2.0 com LoRA e adaptadores de camada, alcançando resultados excepcionais no Vox1-O e Vox1-H, além de empregar poda estruturada guiada por destilação de conhecimento para reduzir o tamanho do modelo em 80% com uma degradação mínima de desempenho.

Ze Li, Ming Cheng, Ming Li2026-03-10💻 cs

← Anterior Próximo →