cs articles | Gist.Science

Asset-Centric Metric-Semantic Maps of Indoor Environments

Cet article propose une approche hybride utilisant un robot quadrupède pour générer des cartes métriques et sémantiques centrées sur les objets, offrant un compromis optimal entre la précision des détails individuels et le contexte global de la scène, ce qui améliore la compréhension et la planification des tâches par les grands modèles de langage (LLM) tout en surpassant les méthodes existantes en termes de précision et d'efficacité.

Christopher D. Hsu, Pratik Chaudhari2026-03-11💻 cs

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

Le papier présente NaviGait, un cadre hiérarchique combinant l'optimisation de trajectoire et l'apprentissage par renforcement pour générer des politiques de locomotion bipède robustes et intuitives en sélectionnant et en adaptant des pas issus d'une bibliothèque précalculée.

Neil Janwani, Varun Madabushi, Maegan Tucker2026-03-11💻 cs

BanaServe: Unified KV Cache and Dynamic Module Migration for Balancing Disaggregated LLM Serving in AI Infrastructure

BanaServe est un cadre d'orchestration dynamique qui améliore l'efficacité du service de modèles de langage (LLM) en équilibrant les ressources de calcul et de mémoire entre les étapes de préremplissage et de décodage grâce à une migration flexible des poids et des caches KV, permettant ainsi d'atteindre un débit supérieur et une latence réduite par rapport aux systèmes existants.

Yiyuan He, Minxian Xu, Jingfeng Wu + 7 more2026-03-11💻 cs

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Cet article propose un cadre de compression vidéo neuronale en temps réel unifiant le codage intra et inter au sein d'un modèle unique, capable de gérer efficacement les disocclusions et de réduire la propagation d'erreurs, surpassant ainsi l'état de l'art DCVC-RT avec une réduction moyenne de 12,1 % du taux de bits BD.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu2026-03-11💻 cs

Polynomial-time Configuration Generator for Connected Unlabeled Multi-Agent Pathfinding

Cet article présente PULL, un algorithme complet et léger fonctionnant en temps polynomial qui résout efficacement le problème de recherche de chemin multi-agent connecté et non étiqueté (CUMAPF) pour des essaims de robots, surpassant les méthodes d'optimisation par programmation linéaire en entier en termes d'évolutivité.

Takahiro Suzuki, Keisuke Okumura2026-03-11💻 cs

Revisiting Replanning from Scratch: Real-Time Incremental Planning with Fast Almost-Surely Asymptotically Optimal Planners

Cet article remet en question l'hypothèse selon laquelle la replanification réactive nécessite la mise à jour de plans existants, démontrant qu'il est plus efficace de résoudre le problème comme une série de problèmes indépendants grâce à des algorithmes de planification presque sûrement asymptotiquement optimaux (ASAO) tels que EIT* et AORRTC.

Mitchell E. C. Sabbadini, Andrew H. Liu, Joseph Ruan, Tyler S. Wilson, Zachary Kingston, Jonathan D. Gammell2026-03-11💻 cs

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Ce papier démontre qu'une sélection judicieuse d'un sous-ensemble de repères corporels, combinée à une imputation par splines, permet de reconnaître les signes isolés de la LIBRAS avec une précision égale ou supérieure aux méthodes de pointe tout en accélérant le traitement de plus de cinq fois par rapport à l'approche précédente.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

Who Made This? Fake Detection and Source Attribution with Diffusion Features

Ce papier présente FRIDA, un cadre léger et efficace en données qui exploite les caractéristiques d'un modèle Stable Diffusion pré-entraîné pour détecter les images synthétiques sans apprentissage et attribuer leur source avec une robustesse supérieure aux générateurs non vus.

Simone Bonechi, Paolo Andreini, Barbara Toniella Corradini2026-03-11💻 cs

EgoMI: Learning Active Vision and Whole-Body Manipulation from Egocentric Human Demonstrations

L'article présente EgoMI, un cadre d'apprentissage par imitation qui comble le fossé d'incarnation entre humains et robots en capturant des trajectoires coordonnées des mains et de la tête active, permettant ainsi à des robots semi-humanoïdes d'acquérir des compétences de manipulation robustes grâce à une politique enrichie par la mémoire pour gérer les changements dynamiques de point de vue.

Justin Yu, Yide Shentu, Di Wu, Pieter Abbeel, Ken Goldberg, Philipp Wu2026-03-11💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Ce papier propose SPAN, une nouvelle méthode d'alignement spatial et de projection qui améliore la détection d'objets 3D monoculaire en imposant des contraintes géométriques globales et une cohérence entre les boîtes 3D et 2D, tout en utilisant une stratégie d'apprentissage hiérarchique pour assurer la stabilité de l'entraînement.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming Yang2026-03-11💻 cs

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Le papier propose V-Attack, une nouvelle méthode d'attaque adversariale pour les grands modèles vision-langage qui cible les caractéristiques de valeur (V) désengagées plutôt que les patchs entremêlés, permettant ainsi un contrôle sémantique local précis et une amélioration significative du taux de réussite des attaques.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen2026-03-11💻 cs

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Le papier présente AFRO, un cadre d'apprentissage auto-supervisé qui génère des représentations 3D dynamiques pour la robotique en modélisant les transitions d'état via un processus de diffusion, éliminant ainsi le besoin de reconstruction géométrique explicite et améliorant significativement les taux de réussite dans des tâches de manipulation réelles et simulées.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Cet article présente le premier cadre formel pour les modèles de monde audiovisuels (AVWM), introduisant le jeu de données AVW-4k et le modèle AV-CDiT basé sur la diffusion pour simuler de manière synchronisée les dynamiques visuelles et sonores, améliorant ainsi significativement la navigation des agents.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin Mao2026-03-11💻 cs

Beware of the Classical Benchmark Instances for the Traveling Salesman Problem with Time Windows

Les auteurs démontrent qu'une méthode exacte simple résout la quasi-totalité des instances classiques du problème du voyageur de commerce avec fenêtres de temps en moins de dix secondes, révélant ainsi que ces benchmarks ne sont plus représentatifs pour évaluer les performances des algorithmes.

Francisco J. Soulignac2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Ce papier propose AVGGT, une méthode d'accélération sans réentraînement pour les modèles VGGT et $\pi^3$ qui, en s'appuyant sur une analyse des rôles de l'attention globale, remplace les premières couches par une attention par image et subsample les suivantes, permettant ainsi des gains de vitesse allant jusqu'à 10 fois sur des séquences longues tout en préservant la précision.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations

Le papier propose UniBYD, un cadre unifié intégrant une représentation morphologique unifiée et un apprentissage par renforcement dynamique pour dépasser la simple imitation humaine et apprendre des politiques de manipulation robustes adaptées à diverses morphologies robotiques, validé par le nouveau benchmark UniManip qui démontre une amélioration significative des taux de réussite.

Tingyu Yuan, Biaoliang Guan, Wen Ye, Ziyan Tian, Yi Yang, Weijie Zhou, Zhaowen Li, Yan Huang, Peng Wang, Chaoyang Zhao, Jinqiao Wang2026-03-11💻 cs

Multimodal Skeleton-Based Action Representation Learning via Decomposition and Composition

Cet article propose un cadre d'apprentissage auto-supervisé nommé « Décomposition et Composition » qui résout le compromis entre efficacité et performance dans la compréhension des actions multimodales en décomposant les caractéristiques fusionnées et en les réassemblant pour guider l'apprentissage, surpassant ainsi les méthodes de fusion tardive et précoce sur plusieurs jeux de données de référence.

Hongsong Wang, Heng Fei, Bingxuan Dai + 1 more2026-03-11💻 cs

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Ce papier propose D²-Align, un cadre novateur qui atténue l'effondrement du mode de préférence dans l'apprentissage par renforcement des modèles de diffusion en corrigeant directionnellement le signal de récompense pour préserver la diversité générative tout en améliorant l'alignement avec les préférences humaines.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Ce papier présente Preguss, un cadre modulaire qui combine l'analyse statique et les grands modèles de langage pour générer automatiquement des spécifications formules et vérifier l'absence d'erreurs d'exécution dans de grands programmes, réduisant ainsi l'effort de vérification humaine de 80,6 % à 88,9 %.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei Yin2026-03-11💻 cs

Secure Digital Semantic Communications: Fundamentals, Challenges, and Opportunities

Cet article propose une revue structurée des communications sémantiques numériques sécurisées, en clarifiant leurs fondements et leurs différences architecturales par rapport aux systèmes analogiques, en identifiant leurs menaces de sécurité spécifiques et en explorant des solutions de défense ainsi que des axes de recherche futurs.

Weixuan Chen, Qianqian Yang, Yuanyuan Jia + 5 more2026-03-11💻 cs

← Précédent Suivant →