cs articles | Gist.Science

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Cet article présente un système de navigation visuelle « teach-and-repeat » basé sur une caméra événementielle qui utilise la corrélation croisée dans le domaine fréquentiel pour atteindre une latence de traitement ultra-faible de 2,88 ms, permettant une navigation autonome précise de plus de 3000 mètres dans diverses conditions lumineuses.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Cette étude démontre que les benchmarks actuels de compréhension vidéo sous-estiment l'importance de l'audio en ne testant que des indices visuels, et propose une architecture évolutive intégrant un encodeur de parole qui améliore significativement les performances sur les tâches nécessitant une véritable compréhension multimodale.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Cet article présente FINS, un cadre léger capable de reconstruire des surfaces implicites et des champs de distance signée à partir d'une seule image en quelques secondes, surpassant les méthodes existantes en rapidité et en précision pour des applications robotiques comme la génération de mouvement.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

Le papier présente RetoVLA, une architecture qui réutilise des jetons d'inscription (Register Tokens) pour injecter un contexte spatial global dans les modèles Vision-Language-Action, permettant ainsi d'améliorer significativement les performances de manipulation robotique sans augmenter le nombre de paramètres.

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Ce papier présente QuantVGGT, le premier cadre de quantisation post-entraînement pour les transformers VGGT, qui surmonte les défis de distribution à queue lourde et d'instabilité d'échantillonnage grâce à une quantification fine lissée en double et un échantillonnage diversifié filtré par bruit, permettant une réduction significative de la mémoire et une accélération matérielle tout en préservant une précision de reconstruction supérieure à 98 %.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Cet article présente un cadre de docking autonome entre un drone et un robot quadrupède dans des environnements complexes, utilisant un apprentissage par renforcement pour stabiliser le quadrupède et une stratégie de contrôle à trois phases pour guider le drone, permettant ainsi des atterrissages réussis sur des terrains accidentés comme des escaliers et des pentes raides.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

Le papier présente MATR, un Transformer conscient du mouvement qui améliore le suivi multi-objets en prédisant explicitement les déplacements pour mettre à jour les requêtes de suivi à l'avance, atteignant ainsi des performances de pointe sur plusieurs jeux de données sans nécessiter de données externes.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

L'article présente GS-2M, un cadre d'optimisation matériellement conscient basé sur le 3D Gaussian Splatting qui permet une reconstruction de maillages haute fidélité, y compris sur des surfaces réfléchissantes, en évitant l'utilisation de composants neuronaux complexes grâce à une nouvelle stratégie de supervision de la rugosité.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Towards Strategic Persuasion with Language Models

Cet article propose un cadre théorique fondé sur la persuasion bayésienne pour évaluer et entraîner des modèles de langage via l'apprentissage par renforcement, démontrant ainsi leur capacité à générer des gains persuasifs significatifs et à adopter des stratégies sophistiquées.

Zirui Cheng, Jiaxuan You2026-03-10💻 cs

SAC-Loco: Safe and Adjustable Compliant Quadrupedal Locomotion

Les auteurs proposent un cadre de locomotion quadrupède sûr et adaptable, baptisé SAC-Loco, qui intègre une politique d'apprentissage par renforcement pour un comportement compliant ajustable sans capteurs de force et un critique de sécurité appris pour coordonner la locomotion fluide et la récupération rapide face aux perturbations externes.

Aoqian Zhang, Zixuan Zhuang, Chunzheng Wang, Shuzhi Sam Ge, Fan Shi, Cheng Xiang2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Ce papier présente FAMDA, un cadre d'adaptation de domaine non supervisé qui exploite les modèles de fondation visuels comme enseignants dans une approche d'auto-entraînement pour générer des étiquettes pseudo de haute qualité, permettant ainsi d'entraîner un réseau étudiant unique, léger et performant pour la prédiction dense multi-tâches dans des environnements robotiques contraints.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Le papier propose QuantSparse, un cadre unifié combinant quantification et sparsification de l'attention pour compresser efficacement les transformateurs de diffusion vidéo tout en préservant la qualité de génération grâce à des techniques innovantes de distillation et de reparamétrisation.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

Le papier présente DualFlow, un cadre unifié et efficace basé sur le flux rectifié et l'augmentation par récupération (RAG) pour générer des mouvements 3D réalistes et synchronisés entre deux personnes, conditionnés par divers modalités telles que le texte, la musique et des séquences de mouvement antérieures.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration

L'article présente ELHPlan, un cadre novateur de planification à long horizon pour la collaboration multi-agents qui utilise des chaînes d'actions liées à des intentions pour équilibrer adaptabilité et efficacité, permettant d'atteindre des taux de réussite comparables aux méthodes de l'état de l'art tout en réduisant la consommation de tokens de 60 à 70 %.

Shaobin Ling, Yun Wang, Chenyou Fan, Tin Lun Lam, Junjie Hu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Le papier présente PHASE-Net, un modèle d'apprentissage profond léger et théoriquement fondé sur les équations de Navier-Stokes pour la mesure non invasive du pouls par rPPG, qui surpasse les méthodes existantes en robustesse et en efficacité grâce à une architecture combinant un échangeur axial à coût nul, un filtre spatial adaptatif et un TCN à portes.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Ce travail présente LMOD+, une nouvelle base de données et un benchmark multimodaux à grande échelle en ophtalmologie, enrichis par rapport à LMOD, qui intègrent des annotations multi-granulaires pour évaluer les performances et les limites des grands modèles de langage multimodaux dans le diagnostic, le stadification et la détection des biais liés aux maladies oculaires menaçant la vision.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Demystifying Codensity Monads via Duality

Ce papier propose une approche catégorique unifiée fondée sur la dualité pour simplifier considérablement les preuves des présentations des monades de codensité, en démontrant que la plupart des résultats connus découlent de ce cadre simple et en établissant de nouvelles présentations pour des monades comme celles des filtres et de l'espérance.

Fabian Lenke, Nico Wittrock, Stefan Milius, Henning Urbat2026-03-10💻 cs

Radio-based Multi-Robot Odometry and Relative Localization

Cet article propose un système de localisation relative multi-robots (UGV-UAV) robuste et peu coûteux, combinant des données UWB et radar dans un cadre d'optimisation de graphes de pose, dont le code et les données expérimentales sont publics pour faciliter la reproduction et le benchmarking.

Andrés Martínez-Silva, David Alejo, Luis Merino, Fernando Caballero2026-03-10💻 cs

XPPG-PCA: Reference-free automatic speech severity evaluation with principal components

Ce papier présente XPPG-PCA, une méthode non supervisée et sans référence pour évaluer automatiquement la sévérité des troubles de la parole, qui surpasse ou égale les approches existantes en offrant une solution robuste et généralisable pour un usage clinique.

Bence Mark Halpern, Thomas B. Tienkamp, Teja Rebernik + 5 more2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

Cet article propose une fonction barrière de contrôle parabolique dynamique (DPCBF) qui, en adaptant sa frontière de sécurité à la distance et à la vitesse relative, surmonte les limitations de conservatisme des méthodes basées sur les cônes de collision pour permettre une navigation sûre et efficace de robots non holonomes dans des environnements dynamiques très encombrés.

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs

← Précédent Suivant →