Cybo-Waiter: A Physical Agentic Framework for Humanoid Whole-Body Locomotion-Manipulation

Ce papier présente Cybo-Waiter, un cadre d'agent humanoïde qui transforme les instructions en langage naturel en programmes vérifiables en s'appuyant sur une supervision géométrique 3D multi-objets et une boucle de rétroaction pour assurer une exécution robuste de tâches complexes combinant locomotion et manipulation.

Peng Ren, Haoyang Ge, Chuan Qi, Cong Huang, Hong Li, Jiang Zhao, Pei Chi, Kai Chen2026-03-12💻 cs

Proceedings of CHIdeology 2026: CHI Workshop on Disentangling the fragmented politics, values and imaginaries of Human-Computer Interaction through ideologies

Ce document présente les actes du premier atelier CHIdeology de la conférence CHI 2026, tenu à Barcelone, qui vise à démêler les politiques, valeurs et imaginaires fragmentés de l'interaction humain-ordinateur à travers le prisme des idéologies.

Felix Anand Epp, Matti Nelimarkka, Jesse Haapoja, Pedro Ferreira, Os Keyes, Shaowen Bardzell2026-03-12💻 cs

OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency

Le papier présente OnFly, un cadre de navigation aérienne vision-langage zéro-shot entièrement embarqué qui améliore la sécurité et l'efficacité grâce à une architecture à double agent, une mémoire hybride et un vérificateur sémantico-géométrique, validé par des résultats significatifs en simulation et en vols réels.

Guiyong Zheng, Yueting Ban, Mingjie Zhang, Juepeng Zheng, Boyu Zhou2026-03-12💻 cs

A2^2-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

Ce papier présente A²-Edit, un cadre d'édition d'images unifié qui, grâce à un nouveau jeu de données diversifié (UniEdit-500K), un module Mixture of Transformer et une stratégie d'entraînement par recuit de masque, permet de remplacer n'importe quel objet ciblé par une référence en utilisant uniquement un masque grossier, surpassant ainsi les méthodes existantes.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

L'article MapGCLR propose une approche semi-supervisée pour la construction de cartes HD vectorisées en ligne, qui améliore les performances de perception en utilisant un apprentissage contrastif géospatial sur des données non étiquetées pour enrichir les représentations de caractéristiques en vue aérienne.

Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller2026-03-12💻 cs

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Le papier présente UniCom, un cadre unifié qui harmonise la compréhension et la génération multimodales en utilisant des représentations sémantiques continues compressées via un compresseur attentionnel et une architecture de transfusion, surpassant ainsi les modèles existants en performance de génération et en contrôle pour l'édition d'images.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

Believing vs. Achieving -- The Disconnect between Efficacy Beliefs and Collaborative Outcomes

Cette étude révèle que les croyances d'efficacité agissent comme des ancres cognitives persistantes favorisant un optimisme excessif envers l'IA, influençant les décisions de délégation de manière asymétrique selon le contexte, mais ayant un impact plus faible sur les performances réelles de l'équipe humain-IA, ce qui remet en question les approches centrées sur la transparence.

Philipp Spitzer, Joshua Holstein2026-03-12💻 cs

Early-Stage Cancer Biomarker Detection via Intravascular Nanomachines: Modeling and Analysis

Cette étude modélise et analyse la détection précoce de biomarqueurs cancéreux via des nanomachines intravasculaires, démontrant que la prise en compte des réalités physiologiques comme les écoulements non uniformes et les interactions avec les globules rouges réduit l'efficacité de détection, bien que les capillaires maintiennent les performances les plus élevées.

Abdollah Rezagholi, Sergi Abadal, Filip Lemic, Eduard Alarcon, Ethungshan Shitiri2026-03-12💻 cs

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model

Le papier présente FutureVLA, une nouvelle architecture de prédiction visuomotrice conjointe qui améliore les modèles Vision-Language-Action en découplant les informations visuelles et motrices pour capturer la continuité temporelle et les contraintes environnementales, permettant ainsi une meilleure anticipation des actions robotiques.

Xiaoxu Xu, Hao Li, Jinhui Ye, Yilun Chen, Jia Zeng, Xinyi Chen, Linning Xu, Dahua Lin, Weixin Li, Jiangmiao Pang2026-03-12💻 cs

MAVEN: A Meta-Reinforcement Learning Framework for Varying-Dynamics Expertise in Agile Quadrotor Maneuvers

Le cadre d'apprentissage par renforcement méta MAVEN permet à un quadrotor unique de naviguer de manière agile et robuste en temps réel face à des variations dynamiques extrêmes, telles que des changements de masse importants ou la perte d'un rotor, en inférant les dynamiques du système via un encodeur contextuel prédictif et en réalisant un transfert sim-to-real réussi.

Jin Zhou, Dongcheng Cao, Xian Wang, Shuo Li2026-03-12💻 cs

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Cet article présente le jeu de données eLasmobranc, une collection publique d'images validées par des experts de sept espèces d'élasmobranches de la Méditerranée espagnole, acquises hors de l'eau pour faciliter la reconnaissance fine des espèces et le suivi de la biodiversité grâce à l'intelligence artificielle.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

Le papier présente Pneuma-Seeker, un système qui aligne les agents d'IA sur les besoins humains en matière de données relationnelles en représentant l'intention de l'utilisateur sous forme de schéma relationnel évolutif et en l'affinant itérativement pour générer des réponses précises et inspectables, surpassant ainsi les approches basées sur les LLM traditionnels.

Muhammad Imam Luthfi Balaka, John Hillesland, Kemal Badur, Raul Castro Fernandez2026-03-12💻 cs