cs artigos | Gist.Science

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Este artigo apresenta a Cumulative Consensus Score (CCS), uma métrica de avaliação sem rótulos e agnóstica a modelos que utiliza consistência espacial em dados aumentados para monitorar a confiabilidade de detectores de objetos em cenários de implantação real, demonstrando alta concordância com métricas tradicionais baseadas em ground-truth.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Este artigo apresenta o WHU-STree, um novo conjunto de dados de referência multimodal e rico em anotações, coletado em duas cidades distintas com nuvens de pontos e imagens de alta resolução, projetado para superar as limitações dos métodos tradicionais e facilitar a automatização de inventários urbanos de árvores através da fusão de dados e aprendizado de modelos para diversas tarefas de gestão de ativos.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

Este artigo apresenta um quadro de aprendizagem por reforço assíncrono com um Módulo de Codificação Temporal que desacopla a percepção do controlo, permitindo que veículos aéreos autónomos naveguem de forma ágil e robusta em ambientes complexos a 100 Hz, superando as limitações de latência e transferindo-se com sucesso da simulação para a realidade.

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

O artigo apresenta o GeoAware-VLA, uma abordagem que integra prios geométricos fortes através de um modelo de visão pré-treinado e congelado para melhorar a invariância a pontos de vista em modelos de Visão-Linguagem-Ação, resultando em ganhos significativos de generalização zero-shot em benchmarks de simulação e no mundo real sem a necessidade de dados 3D explícitos.

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

OIPP: Object-Adaptive Impact Point Predictor for Catching Diverse In-Flight Objects

Este estudo apresenta o OIPP, um preditor de ponto de impacto adaptativo a objetos que, utilizando um novo conjunto de dados diversificado com 8.000 trajetórias, supera os métodos existentes na previsão precisa de pontos de aterrissagem para objetos em voo com aerodinâmica complexa, permitindo a captura bem-sucedida por um robô quadrúpede tanto em simulação quanto em experimentos reais.

Ngoc Huy Nguyen, Kazuki Shibata, Takamitsu Matsubara2026-03-10💻 cs

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Este artigo apresenta o LibriTTS-VI, o primeiro corpus público para controle de impressão vocal, e propõe métodos inovadores de treinamento desentrelaçado e sem referência que superam o vazamento de impressão e permitem um controle numérico preciso e eficiente na síntese de fala.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki Kumakura2026-03-10💻 cs

Compose by Focus: Scene Graph-based Atomic Skills

Este artigo apresenta o "Compose by Focus", um framework que utiliza representações de grafos de cena para aprender habilidades atômicas robustas e combiná-las com um planejador baseado em modelos de linguagem e visão, permitindo que robôs generalistas executem tarefas complexas de longo horizonte com maior sucesso e generalização composicional.

Han Qi, Changhe Chen, Heng Yang2026-03-10💻 cs

DroFiT: A Lightweight Band-fused Frequency Attention Toward Real-time UAV Speech Enhancement

O artigo apresenta o DroFiT, uma rede leve de aprimoramento de fala projetada para drones que utiliza atenção de frequência fundida e uma arquitetura híbrida para eliminar ruído severo em tempo real em plataformas com recursos limitados.

Jeongmin Lee, Chanhong Jeon, Hyungjoo Seo, Taewook Kang2026-03-10💻 cs

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Este artigo apresenta um sistema inovador de navegação visual "teach-and-repeat" baseado em câmeras de eventos que utiliza correlação cruzada no domínio da frequência para alcançar uma latência de processamento extremamente baixa (2,88 ms) e manter erros de trajetória inferiores a 15 cm em diversos cenários diurnos e noturnos.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Este trabalho demonstra que os benchmarks atuais de compreensão de vídeo negligenciam a importância da audição ao serem resolvidos majoritariamente por pistas visuais, mas confirma que a integração de codificadores de fala em modelos de linguagem multimodais traz ganhos significativos em tarefas que exigem compreensão de áudio e alinhamento cruzado, propondo uma arquitetura escalável e de código aberto para remediar essa lacuna.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

O artigo apresenta o FINS, um framework leve que reconstrói superfícies implícitas e campos de distância assinada (SDF) a partir de uma única imagem com alta eficiência e precisão, superando métodos anteriores em velocidade de convergência e viabilidade para tarefas de geração de movimento em robótica.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

O artigo apresenta o RetoVLA, uma arquitetura que reutiliza tokens de registro descartados em modelos Vision-Language-Action para injetar contexto espacial global sem aumentar o número de parâmetros, resultando em uma melhoria de 17,1% na taxa de sucesso de tarefas robóticas em tempo real.

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

O artigo apresenta o QuantVGGT, um framework pioneiro de pós-treinamento para quantização de Transformers de Geometria Visual (VGGTs) que, através de uma quantização de precisão dupla suavizada e de uma amostragem diversificada filtrada por ruído, supera os desafios de distribuição de ativações e instabilidade de calibração, permitindo uma redução de memória de 3,7 vezes e aceleração de 2,5 vezes em hardware real com precisão de reconstrução superior a 98%.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Este artigo propõe um quadro de acoplamento autônomo entre UAVs e robôs quadrúpedes para ambientes sem GPS, que utiliza aprendizado por reforço profundo para estabilizar o torso do quadrúpede e um controle de deslizamento terminal não singular com função de barreira para guiar o UAV, permitindo pousos bem-sucedidos em terrenos complexos como escadas e encostas íngremes.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

O artigo apresenta o MATR (Motion-Aware Transformer), uma nova arquitetura baseada em Transformers que melhora significativamente o rastreamento de múltiplos objetos ao prever explicitamente o movimento dos objetos para atualizar as consultas de rastreamento, alcançando resultados state-of-the-art em diversos conjuntos de dados desafiadores.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

O artigo propõe o GS-2M, um framework de otimização consciente de materiais baseado em 3D Gaussian Splatting que realiza a reconstrução de malhas de alta fidelidade e a decomposição de aparência de forma conjunta, superando limitações de métodos anteriores em superfícies reflexivas sem depender de componentes neurais complexos.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Towards Strategic Persuasion with Language Models

Este artigo apresenta uma estrutura teórica fundamentada na teoria bayesiana de persuasão para avaliar e treinar modelos de linguagem, demonstrando que tanto modelos avançados quanto modelos menores, quando otimizados com aprendizado por reforço, conseguem alcançar ganhos significativos de persuasão e adotar estratégias sofisticadas.

Zirui Cheng, Jiaxuan You2026-03-10💻 cs

SAC-Loco: Safe and Adjustable Compliant Quadrupedal Locomotion

O artigo propõe o SAC-Loco, um quadro de locomoção para robôs quadrúpedes que integra uma política de complacência ajustável, treinada por aprendizado por reforço sem sensores de força explícitos, e um crítico de segurança aprendido para garantir recuperação robusta e estabilidade diante de distúrbios externos.

Aoqian Zhang, Zixuan Zhuang, Chunzheng Wang, Shuzhi Sam Ge, Fan Shi, Cheng Xiang2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Este artigo apresenta o FAMDA, um framework de adaptação de domínio não supervisionado que utiliza modelos fundacionais de visão como professores em um paradigma de auto-treinamento para gerar pseudo-rótulos de alta qualidade, permitindo que uma rede estudante leve e eficiente alcance desempenho superior em tarefas densas de previsão para aplicações robóticas.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

O artigo propõe o QuantSparse, um quadro unificado que integra quantização de modelo e esparsificação de atenção com técnicas de destilação e reparametrização para comprimir eficientemente transformadores de difusão de vídeo, alcançando ganhos significativos em armazenamento e velocidade de inferência sem comprometer a qualidade da geração.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

← Anterior Próximo →