OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency

Le papier présente OnFly, un cadre de navigation aérienne vision-langage zéro-shot entièrement embarqué qui améliore la sécurité et l'efficacité grâce à une architecture à double agent, une mémoire hybride et un vérificateur sémantico-géométrique, validé par des résultats significatifs en simulation et en vols réels.

Guiyong Zheng, Yueting Ban, Mingjie Zhang, Juepeng Zheng, Boyu Zhou2026-03-12💻 cs

A2^2-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

Ce papier présente A²-Edit, un cadre d'édition d'images unifié qui, grâce à un nouveau jeu de données diversifié (UniEdit-500K), un module Mixture of Transformer et une stratégie d'entraînement par recuit de masque, permet de remplacer n'importe quel objet ciblé par une référence en utilisant uniquement un masque grossier, surpassant ainsi les méthodes existantes.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

L'article MapGCLR propose une approche semi-supervisée pour la construction de cartes HD vectorisées en ligne, qui améliore les performances de perception en utilisant un apprentissage contrastif géospatial sur des données non étiquetées pour enrichir les représentations de caractéristiques en vue aérienne.

Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller2026-03-12💻 cs

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Le papier présente UniCom, un cadre unifié qui harmonise la compréhension et la génération multimodales en utilisant des représentations sémantiques continues compressées via un compresseur attentionnel et une architecture de transfusion, surpassant ainsi les modèles existants en performance de génération et en contrôle pour l'édition d'images.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

Believing vs. Achieving -- The Disconnect between Efficacy Beliefs and Collaborative Outcomes

Cette étude révèle que les croyances d'efficacité agissent comme des ancres cognitives persistantes favorisant un optimisme excessif envers l'IA, influençant les décisions de délégation de manière asymétrique selon le contexte, mais ayant un impact plus faible sur les performances réelles de l'équipe humain-IA, ce qui remet en question les approches centrées sur la transparence.

Philipp Spitzer, Joshua Holstein2026-03-12💻 cs

Early-Stage Cancer Biomarker Detection via Intravascular Nanomachines: Modeling and Analysis

Cette étude modélise et analyse la détection précoce de biomarqueurs cancéreux via des nanomachines intravasculaires, démontrant que la prise en compte des réalités physiologiques comme les écoulements non uniformes et les interactions avec les globules rouges réduit l'efficacité de détection, bien que les capillaires maintiennent les performances les plus élevées.

Abdollah Rezagholi, Sergi Abadal, Filip Lemic, Eduard Alarcon, Ethungshan Shitiri2026-03-12💻 cs

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model

Le papier présente FutureVLA, une nouvelle architecture de prédiction visuomotrice conjointe qui améliore les modèles Vision-Language-Action en découplant les informations visuelles et motrices pour capturer la continuité temporelle et les contraintes environnementales, permettant ainsi une meilleure anticipation des actions robotiques.

Xiaoxu Xu, Hao Li, Jinhui Ye, Yilun Chen, Jia Zeng, Xinyi Chen, Linning Xu, Dahua Lin, Weixin Li, Jiangmiao Pang2026-03-12💻 cs

MAVEN: A Meta-Reinforcement Learning Framework for Varying-Dynamics Expertise in Agile Quadrotor Maneuvers

Le cadre d'apprentissage par renforcement méta MAVEN permet à un quadrotor unique de naviguer de manière agile et robuste en temps réel face à des variations dynamiques extrêmes, telles que des changements de masse importants ou la perte d'un rotor, en inférant les dynamiques du système via un encodeur contextuel prédictif et en réalisant un transfert sim-to-real réussi.

Jin Zhou, Dongcheng Cao, Xian Wang, Shuo Li2026-03-12💻 cs

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Cet article présente le jeu de données eLasmobranc, une collection publique d'images validées par des experts de sept espèces d'élasmobranches de la Méditerranée espagnole, acquises hors de l'eau pour faciliter la reconnaissance fine des espèces et le suivi de la biodiversité grâce à l'intelligence artificielle.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

Le papier présente Pneuma-Seeker, un système qui aligne les agents d'IA sur les besoins humains en matière de données relationnelles en représentant l'intention de l'utilisateur sous forme de schéma relationnel évolutif et en l'affinant itérativement pour générer des réponses précises et inspectables, surpassant ainsi les approches basées sur les LLM traditionnels.

Muhammad Imam Luthfi Balaka, John Hillesland, Kemal Badur, Raul Castro Fernandez2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

Cette étude propose un système de stéréophotométrie basé sur des événements utilisant une source lumineuse rotative et un réseau neuronal léger par pixel pour estimer les normales de surface sans calibration, surpassant les méthodes existantes en précision et en robustesse face à l'éclairage ambiant et aux spécularités.

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Le papier présente CodePercept, une approche qui améliore la perception visuelle des modèles de langage multimodaux dans les domaines STEM en utilisant l'exécution de code comme médium perceptuel, soutenue par un nouveau jeu de données ICC-1M et un benchmark d'évaluation STEM2Code-Eval.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Le papier présente RAGPerf, un cadre de référence open-source conçu pour évaluer de manière modulaire et automatisée les performances et la qualité des systèmes de génération augmentée par la récupération (RAG) en simulant des charges de travail réalistes et en mesurant des métriques d'efficacité et de précision.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian Huang2026-03-12💻 cs

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

Le papier présente Aceso, une solution de placement adaptatif de microservices conçue pour les PME qui optimise simultanément les émissions de carbone, les coûts et la latence dans des infrastructures régionales limitées, réduisant ainsi les émissions de carbone de 37,4 % et les coûts opérationnels de 3,6 % par rapport aux déploiements statiques tout en respectant les objectifs de service.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra Doudali2026-03-12💻 cs