cs articles | Gist.Science

Terminal Is All You Need: Design Properties for Human-AI Agent Collaboration

Ce papier soutient que le terminal, et non les interfaces graphiques, constitue le modèle de conception idéal pour la collaboration humain-IA en raison de sa compatibilité représentationnelle, de la transparence de ses actions et de sa faible barrière d'entrée, des propriétés que toute interface agentielle devrait délibérément reproduire.

Alexandre De Masi2026-03-12💻 cs

Breaking User-Centric Agency: A Tri-Party Framework for Agent-Based Recommendation

Cet article propose TriRec, un cadre de recommandation tripartite innovant utilisant des agents LLM pour coordonner l'utilité de l'utilisateur, l'exposition des articles et l'équité de la plateforme, démontrant ainsi que l'autopromotion des articles peut simultanément améliorer la pertinence et l'équité.

Yaxin Gong, Chongming Gao, Chenxiao Fan, Wenjie Wang, Fuli Feng, Xiangnan He2026-03-12💻 cs

Cybo-Waiter: A Physical Agentic Framework for Humanoid Whole-Body Locomotion-Manipulation

Ce papier présente Cybo-Waiter, un cadre d'agent humanoïde qui transforme les instructions en langage naturel en programmes vérifiables en s'appuyant sur une supervision géométrique 3D multi-objets et une boucle de rétroaction pour assurer une exécution robuste de tâches complexes combinant locomotion et manipulation.

Peng Ren, Haoyang Ge, Chuan Qi, Cong Huang, Hong Li, Jiang Zhao, Pei Chi, Kai Chen2026-03-12💻 cs

From Education to Evidence: A Collaborative Practice Research Platform for AI-Integrated Agile Development

Cet article présente une plateforme éducative collaborative intégrant l'IA et les méthodes agiles, conçue comme un environnement de recherche intermédiaire pour générer rapidement des preuves pratiques et reutilisables sur le développement logiciel assisté par l'IA.

Tobias Geger, Andreas Rausch, Ina Schiering, Frauke Stenzel, Stefan Wittek2026-03-12💻 cs

Proceedings of CHIdeology 2026: CHI Workshop on Disentangling the fragmented politics, values and imaginaries of Human-Computer Interaction through ideologies

Ce document présente les actes du premier atelier CHIdeology de la conférence CHI 2026, tenu à Barcelone, qui vise à démêler les politiques, valeurs et imaginaires fragmentés de l'interaction humain-ordinateur à travers le prisme des idéologies.

Felix Anand Epp, Matti Nelimarkka, Jesse Haapoja, Pedro Ferreira, Os Keyes, Shaowen Bardzell2026-03-12💻 cs

OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency

Le papier présente OnFly, un cadre de navigation aérienne vision-langage zéro-shot entièrement embarqué qui améliore la sécurité et l'efficacité grâce à une architecture à double agent, une mémoire hybride et un vérificateur sémantico-géométrique, validé par des résultats significatifs en simulation et en vols réels.

Guiyong Zheng, Yueting Ban, Mingjie Zhang, Juepeng Zheng, Boyu Zhou2026-03-12💻 cs

A $^2$ -Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

Ce papier présente A²-Edit, un cadre d'édition d'images unifié qui, grâce à un nouveau jeu de données diversifié (UniEdit-500K), un module Mixture of Transformer et une stratégie d'entraînement par recuit de masque, permet de remplacer n'importe quel objet ciblé par une référence en utilisant uniquement un masque grossier, surpassant ainsi les méthodes existantes.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

L'article MapGCLR propose une approche semi-supervisée pour la construction de cartes HD vectorisées en ligne, qui améliore les performances de perception en utilisant un apprentissage contrastif géospatial sur des données non étiquetées pour enrichir les représentations de caractéristiques en vue aérienne.

Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller2026-03-12💻 cs

Bioinspired CNNs for border completion in occluded images

Ce papier présente BorderNet, une architecture de réseau de neurones convolutifs inspirée du cortex visuel qui améliore la robustesse à l'occlusion d'images en modélisant mathématiquement la complétion des contours.

Catarina P. Coutinho, Aneeqa Merhab, Janko Petkovic, Ferdinando Zanchetta, Rita Fioresi2026-03-12💻 cs

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Le papier présente UniCom, un cadre unifié qui harmonise la compréhension et la génération multimodales en utilisant des représentations sémantiques continues compressées via un compresseur attentionnel et une architecture de transfusion, surpassant ainsi les modèles existants en performance de génération et en contrôle pour l'édition d'images.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

Le papier présente WalkGPT, un modèle de langage-vision ancré au niveau des pixels qui intègre la segmentation et l'estimation de profondeur pour fournir des guides de navigation piétonne accessibles, accompagné du nouveau benchmark PAVE.

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu2026-03-12💻 cs

Believing vs. Achieving -- The Disconnect between Efficacy Beliefs and Collaborative Outcomes

Cette étude révèle que les croyances d'efficacité agissent comme des ancres cognitives persistantes favorisant un optimisme excessif envers l'IA, influençant les décisions de délégation de manière asymétrique selon le contexte, mais ayant un impact plus faible sur les performances réelles de l'équipe humain-IA, ce qui remet en question les approches centrées sur la transparence.

Philipp Spitzer, Joshua Holstein2026-03-12💻 cs

Early-Stage Cancer Biomarker Detection via Intravascular Nanomachines: Modeling and Analysis

Cette étude modélise et analyse la détection précoce de biomarqueurs cancéreux via des nanomachines intravasculaires, démontrant que la prise en compte des réalités physiologiques comme les écoulements non uniformes et les interactions avec les globules rouges réduit l'efficacité de détection, bien que les capillaires maintiennent les performances les plus élevées.

Abdollah Rezagholi, Sergi Abadal, Filip Lemic, Eduard Alarcon, Ethungshan Shitiri2026-03-12💻 cs

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model

Le papier présente FutureVLA, une nouvelle architecture de prédiction visuomotrice conjointe qui améliore les modèles Vision-Language-Action en découplant les informations visuelles et motrices pour capturer la continuité temporelle et les contraintes environnementales, permettant ainsi une meilleure anticipation des actions robotiques.

Xiaoxu Xu, Hao Li, Jinhui Ye, Yilun Chen, Jia Zeng, Xinyi Chen, Linning Xu, Dahua Lin, Weixin Li, Jiangmiao Pang2026-03-12💻 cs

MAVEN: A Meta-Reinforcement Learning Framework for Varying-Dynamics Expertise in Agile Quadrotor Maneuvers

Le cadre d'apprentissage par renforcement méta MAVEN permet à un quadrotor unique de naviguer de manière agile et robuste en temps réel face à des variations dynamiques extrêmes, telles que des changements de masse importants ou la perte d'un rotor, en inférant les dynamiques du système via un encodeur contextuel prédictif et en réalisant un transfert sim-to-real réussi.

Jin Zhou, Dongcheng Cao, Xian Wang, Shuo Li2026-03-12💻 cs

ASTER: Attitude-aware Suspended-payload Quadrotor Traversal via Efficient Reinforcement Learning

Ce papier présente ASTER, un cadre d'apprentissage par renforcement robuste qui, grâce à une stratégie d'initialisation états hybrides (HDSS), permet pour la première fois le vol inversé autonome d'un quadrotor avec charge suspendue, en surmontant les défis des dynamiques hybrides non lisses et de la rareté des récompenses.

Dongcheng Cao, Jin Zhou, Shuo Li2026-03-12💻 cs

Sublinear-Time Reconfiguration of Programmable Matter with Joint Movements

Cet article démontre que le modèle de mouvement conjoint des amoebots permet une reconfiguration universelle sublinéaire en temps $O(\sqrt{n}\log n)$ vers une structure canonique, résolvant ainsi une question ouverte sur l'efficacité de la réorganisation sans hypothèses auxiliaires.

Manish Kumar, Othon Michail, Andreas Padalkin, Christian Scheideler2026-03-12💻 cs

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Cet article présente le jeu de données eLasmobranc, une collection publique d'images validées par des experts de sept espèces d'élasmobranches de la Méditerranée espagnole, acquises hors de l'eau pour faciliter la reconnaissance fine des espèces et le suivi de la biodiversité grâce à l'intelligence artificielle.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Ce papier présente Just-in-Time (JiT), un cadre d'accélération sans entraînement qui exploite la redondance spatiale des Transformers de diffusion via une sélection dynamique de tokens d'ancrage et un micro-flot déterministe, permettant d'atteindre une accélération jusqu'à 7 fois sur le modèle FLUX.1-dev avec une perte de performance négligeable.

Wenhao Sun, Ji Li, Zhaoqiang Liu2026-03-12💻 cs

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

Le papier présente Pneuma-Seeker, un système qui aligne les agents d'IA sur les besoins humains en matière de données relationnelles en représentant l'intention de l'utilisateur sous forme de schéma relationnel évolutif et en l'affinant itérativement pour générer des réponses précises et inspectables, surpassant ainsi les approches basées sur les LLM traditionnels.

Muhammad Imam Luthfi Balaka, John Hillesland, Kemal Badur, Raul Castro Fernandez2026-03-12💻 cs

← Précédent Suivant →

cs