cs articles | Gist.Science

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

Ce papier présente FoldNet, une approche qui génère un jeu de données synthétique basé sur des points clés et des textures réalistes pour entraîner, via l'apprentissage par imitation en boucle fermée et la méthode KG-DAgger, une politique de pliage de vêtements généralisable et robuste atteignant un taux de réussite de 75 % dans le monde réel.

Yuxing Chen, Bowen Xiao, He Wang2026-03-10💻 cs

Diffusion-SAFE: Diffusion-Native Human-to-Robot Driving Handover for Shared Autonomy

Le papier propose Diffusion-SAFE, un cadre de boucle fermée basé sur des modèles de diffusion pour la conduite partagée, qui détecte les risques et effectue des transferts de contrôle fluides et sûrs en ajustant continuellement le niveau d'intervention du copilote par rapport à l'intention humaine.

Yunxin Fan, Monroe Kennedy III2026-03-10💻 cs

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

Le papier présente MTVCraft, un cadre pionnier qui tokenise directement les séquences de mouvement 3D en tokens 4D pour animer des personnages à partir d'images, surpassant les méthodes existantes basées sur des poses 2D grâce à une meilleure généralisation zéro-shot et un contrôle plus flexible.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Precision Proactivity: Measuring Cognitive Load in Real-World AI-Assisted Work

Cette étude démontre que, dans les tâches de travail assistées par l'IA, la charge cognitive extrinsèque a un impact négatif sur la performance trois fois plus fort que la charge intrinsèque, affectant davantage les professionnels moins expérimentés qui, paradoxalement, n'augmentent pas leur utilisation de l'IA sous charge.

Brandon Lepine, Juho Kim, Pamela Mishkin, Matthew Beane2026-03-10💻 cs

Power flow and optimal power flow using quantum and digital annealers: a computational scalability analysis

Cette étude présente et évalue les algorithmes de flux de puissance et de flux de puissance optimal adiabatiques quantiques (AQPF et AQOPF), qui reformulent ces problèmes sous forme d'optimisation combinatoire discrète, en démontrant leur capacité à reproduire des solutions réalisables et leur scalabilité prometteuse sur des systèmes quantiques et des recuits numériques pour des réseaux allant de 4 à 1354 nœuds.

Zeynab Kaseb, Matthias Moller, Pedro P. Vergara, Peter Palensky2026-03-10💻 cs

Representing local protein environments with machine learning force fields

Cette étude propose une nouvelle représentation des environnements protéiques locaux dérivée des modèles de fondation atomistiques, démontrant son efficacité pour capturer la structure et la chimie locales, établir des priors de données et réaliser des prédictions de décalages chimiques NMR à l'état de l'art.

Meital Bojan, Sanketh Vedula, Advaith Maddipatla, Nadav Bojan Sellam, Anar Rzayev, Federico Napoli, Paul Schanda, Alex M. Bronstein2026-03-10💻 cs

Unsupervised Discovery of Failure Taxonomies from Deployment Logs

Cet article présente une méthode non supervisée qui extrait des taxonomies de défaillances cohérentes et exploitables à partir de logs de déploiement robotique en combinant le raisonnement vision-langage et le regroupement sémantique, facilitant ainsi l'amélioration des politiques et la surveillance des systèmes.

Aryaman Gupta, Yusuf Umut Ciftci, Somil Bansal2026-03-10💻 cs

Assigning Multi-Robot Tasks to Multitasking Robots

Cet article propose un nouveau cadre d'allocation de tâches pour des robots multitâches, intégrant leurs contraintes physiques via une compilation en MAX-SAT pondéré et une heuristique gloutonne, et valide son efficacité supérieure par rapport aux méthodes mono-tâches grâce à des simulations et une expérience physique.

Winston Smith, Yu Zhang2026-03-10💻 cs

Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning

Le papier présente ContextMatters, un cadre qui fusionne les modèles de langage et la planification classique pour assouplir les objectifs de manière contextuelle via des graphes de scènes 3D, permettant ainsi aux agents incarnés de générer des plans réalisables et d'atteindre des buts partiels dans des environnements complexes, avec une amélioration de 52,45 % du taux de succès par rapport aux méthodes de l'état de l'art.

Emanuele Musumeci, Michele Brienza, Francesco Argenziano, Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi2026-03-10💻 cs

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Cette étude propose un cadre d'apprentissage profond basé sur un GAN pénalisé par la variance pour générer des images d'immunohistochimie (IHC) de haute fidélité à partir de coupes histologiques H&E, permettant ainsi une évaluation précise et rentable de l'expression de HER2 dans le cancer du sein.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Ce papier présente LINO UniPS, une méthode de stéréophotométrie universelle qui utilise des jetons d'enregistrement lumineux et une attention entrelacée pour découpler l'éclairage des normales, ainsi qu'une architecture à double branche basée sur les ondelettes pour préserver les détails géométriques, le tout entraîné sur le nouveau jeu de données PS-Verse pour atteindre des performances de pointe.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Cet article propose un cadre novateur pour la segmentation d'objets camouflés en vocabulaire ouvert, qui utilise un modèle de langage-vision partagé pour guider le modèle SAM dans la localisation précise des objets et fournir un contexte spatial complet pour leur classification, surmontant ainsi les limites des approches précédentes.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

Ce papier présente WaLi, une attaque de confidentialité qui reconstruit des discours intelligibles à partir des données de capteurs de pression des systèmes HVAC en utilisant un transformateur complexe et des blocs d'attention globale pour surmonter le bruit et la faible résolution, révélant ainsi une nouvelle vulnérabilité de sécurité dans ces infrastructures.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi Barua2026-03-10💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Le papier présente SUBARU, une approche pratique qui réduit la consommation énergétique des appareils auditifs en utilisant un sous-échantillonnage et une résolution binaire faible, tout en restaurant la qualité audio via un suréchantillonnage pour le traitement de la parole en temps réel.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

Autonomous Vision-Aided UAV Positioning for Obstacle-Aware Wireless Connectivity

Ce papier présente VTOPA, un algorithme de positionnement autonome assisté par vision pour les drones qui optimise la connectivité sans fil en milieu urbain en détectant les obstacles et la demande utilisateur pour maximiser le débit et réduire la latence.

Kamran Shafafi, Manuel Ricardo, Rui Campos2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Ce papier propose LD-RPS, une méthode unifiée et sans jeu de données pour la restauration d'images qui exploite l'échantillonnage récursif de l'arrière-plan d'un modèle de diffusion latent préentraîné, enrichi par des priors sémantiques multimodaux, pour surpasser les méthodes actuelles dans la gestion de diverses dégradations sans nécessiter de données appariées.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Cet article propose la méthode QAA (Query-based Adaptive Aggregation), une nouvelle technique d'agrégation de caractéristiques qui utilise des requêtes apprises pour surmonter les biais spécifiques aux ensembles de données et permettre un entraînement conjoint multi-ensembles efficace, améliorant ainsi la généralisation et la performance universelle de la reconnaissance visuelle de lieux.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

Hybrid Diffusion Policies with Projective Geometric Algebra for Efficient Robot Manipulation Learning

Ce papier présente hPGA-DP, une nouvelle politique de diffusion hybride intégrant l'algèbre géométrique projective dans son architecture pour améliorer l'efficacité de l'apprentissage et la convergence des tâches de manipulation robotique.

Xiatao Sun, Yuxuan Wang, Shuo Yang, Yinxing Chen, Daniel Rakita2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Cet article propose MCULoRA, une nouvelle approche d'adaptation faible rang dynamique et découplée par modalité qui surpasse les méthodes existantes pour la reconnaissance des émotions en résolvant les conflits de gradients lors de l'apprentissage avec des données multimodales incomplètes.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

Ce papier propose Mamba Snake, un cadre innovant de segmentation unifiée d'images médicales qui combine la modélisation par espace d'états et des mécanismes de type « snake » pour surmonter les défis de l'hétérogénéité structurelle et améliorer la précision anatomique.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

← Précédent Suivant →