cs articles | Gist.Science

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Cet article propose SACA, un cadre d'alignement contrastif sensible aux étapes qui améliore la navigation vision-langage en environnement continu en extrayant une supervision dense des trajectoires imparfaites pour surmonter les limites des méthodes d'apprentissage par renforcement et de l'ajustement par supervision.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Ce papier présente ENIGMA-360, un nouveau jeu de données synchronisé en vue egocentrique et exocentrique capturé dans un environnement industriel réel, accompagné d'annotations et de résultats de référence pour améliorer la compréhension du comportement humain et la sécurité des travailleurs.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Ce papier présente LAP, un modèle de planification de procédures qui surpasse les méthodes existantes en exploitant la richesse des descriptions textuelles issues d'un modèle vision-langage pour générer des séquences d'actions plus précises dans les vidéos d'instruction.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

Caterpillar-Inspired Spring-Based Compressive Continuum Robot for Bristle-based Exploration

Cet article présente un robot continu à ressorts et tendeurs, inspiré de la locomotion des chenilles et équipé de capteurs à soies artificielles, conçu pour améliorer l'exploration et l'inspection de espaces confinés par des bras robotiques commerciaux.

Zhixian Hu, Yu She, Juan Wachs2026-03-11💻 cs

Simultaneous Embedding of Two Paths on the Grid

Cet article démontre que la minimisation de la longueur de l'arête la plus longue dans l'insertion simultanée géométrique de deux chemins sur une grille entière est NP-difficile, tout en proposant un algorithme de complexité $O(n^{3/2})$ pour minimiser le périmètre de la grille lorsque l'un des chemins est monotone en $x$ et l'autre en $y$ .

Stephen Kobourov, William Lenhart, Giuseppe Liotta, Daniel Perz, Pavel Valtr, Johannes Zink2026-03-11💻 cs

The Richest Paradigm You're Not Using: Commercial Videogames at the Intersection of Human-Computer Interaction and Cognitive Science

En s'appuyant sur les travaux de Corbett et Munneke, cet article plaide pour l'utilisation des jeux vidéo commerciaux comme paradigme de recherche écologique à l'intersection de l'interaction humain-ordinateur et des sciences cognitives, permettant d'étudier la perception, l'attention et les fonctions exécutives grâce à un cadre méthodologique basé sur l'observation et la cartographie des affordsances.

Jaap Munneke, Jennifer E. Corbett2026-03-11💻 cs

Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

Cet article présente un agent génératif neuro-symbolique capable de détecter et de corriger les hypothèses physiques implicites dans la littérature scientifique, évitant ainsi les hallucinations physiques en complétant autonomement les mécanismes manquants pour assurer la cohérence des simulations, comme démontré par la modélisation correcte de la pressurisation thermique dans le grès.

Yue Wua, Tianhao Su, Rui Hu, Mingchuan Zhao, Shunbo Hu, Deng Pan, Jizhong Huang2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

LogoDiffuser est une méthode sans entraînement qui génère et stylise des logos multilingues en injectant des cartes d'attention issues d'images de caractères cibles dans un transformateur de diffusion multimodal, garantissant ainsi le contrôle de la structure des lettres sans déformation.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Le papier présente MuxGel, un capteur tactile visuel à haute fidélité qui surmonte le compromis traditionnel entre vision et toucher en utilisant un motif de damier pour multiplexer spatialement les signaux, permettant ainsi la récupération simultanée d'informations visuelles externes et de données tactiles via une seule caméra et un cadre de reconstruction profond.

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu She2026-03-11💻 cs

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Ce papier démontre que les défenses actuelles contre les portes dérobées sont incomplètes car elles se concentrent uniquement sur la suppression des déclencheurs d'entraînement, alors que des déclencheurs alternatifs peuvent exploiter des directions de porte dérobée latentes dans l'espace des caractéristiques pour activer la backdoor.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

Deblurring structural edges in variable thickness topology optimization via density-gradient-informed projection

Cet article propose une méthode d'optimisation topologique à épaisseur variable intégrant une projection informée par le gradient de densité pour éliminer les régions de faible épaisseur et déflouter les bords structuraux, permettant ainsi d'obtenir des designs nets et manufacturables sans compromettre la rigidité globale.

Gabriel Stankiewicz, Chaitanya Dev, Paul Steinmann2026-03-11💻 cs

CLIOPATRA: Extracting Private Information from LLM Insights

Le papier CLIOPATRA démontre qu'il est possible de contourner les protections de confidentialité de la plateforme Clio d'Anthropic en injectant des conversations malveillantes pour extraire des données médicales sensibles d'utilisateurs cibles, révélant ainsi l'insuffisance des techniques heuristiques actuelles pour garantir la vie privée dans les systèmes d'analyse par LLM.

Meenatchi Sundaram Muthu Selva Annamalai, Emiliano De Cristofaro, Peter Kairouz2026-03-11💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

Ce papier présente TIMID, une nouvelle architecture de détection d'anomalies vidéo capable d'identifier des erreurs temporelles dans les exécutions de robots grâce à une supervision faible et à une évaluation sim-to-real sur un jeu de données multi-robots.

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)2026-03-11💻 cs

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Cet article présente la première exploration de l'adaptation test-temps pour l'anticipation d'actions entre les vues égocentrique et exocentrique, en proposant un réseau innovant (DCPGN) qui utilise une croissance de prototypes multi-étiquettes et une cohérence de double indice visuel-textuel pour surmonter les écarts spatio-temporels sans nécessiter de données cibles supplémentaires.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

Expressive Power of Property Graph Constraint Languages

Cet article présente la première étude systématique de la puissance expressive du langage PG-Keys par rapport aux dépendances fonctionnelles et génératives sur les graphes, établissant une hiérarchie stricte de leurs capacités au sein d'un cadre unifié pour éclairer la révision future de la norme GQL.

Stefania Dumbrava, Nadime Francis, Victor Marsault, Steven Sailly2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Ce papier présente RA-SSU, une nouvelle tâche d'apprentissage audio-visuel à granularité fine, accompagnée de deux nouveaux jeux de données annotés (f-Music et f-Lifescene) et d'un modèle de référence nommé SSUFormer, conçu pour réaliser une segmentation précise des sources sonores et générer des descriptions textuelles détaillées au niveau de chaque image.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

ConfCtrl est un cadre d'interpolation vidéo basé sur l'attention à la confiance qui permet aux modèles de diffusion de générer des vues nouvelles géométriquement cohérentes et plausibles à partir de deux images, en combinant des nuages de points projetés avec des corrections résiduelles pour suivre précisément les trajectoires de caméra tout en reconstruisant les régions non vues.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

L'article propose EmoSURA, un nouveau cadre d'évaluation pour les descriptions émotionnelles de la parole qui remplace le scoring global par une vérification atomique ancrée dans l'audio et introduit le benchmark SURABench pour surmonter les limites des métriques traditionnelles et des juges LLM sur les contextes longs.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn Schuller2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

Le papier présente BrainSTR, un cadre d'apprentissage contrastif spatio-temporel conçu pour modéliser les réseaux cérébraux dynamiques de manière interprétable en identifiant des phases critiques et des sous-réseaux pertinents pour le diagnostic de troubles neuropsychiatriques tels que l'autisme, le trouble bipolaire et la dépression.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

Ce papier présente VLM-Loc, un cadre innovant qui exploite le raisonnement spatial des modèles vision-langage pour la localisation texte-nuage de points, en transformant les nuages en images et graphes de scène pour une meilleure précision, et introduit le benchmark CityLoc pour évaluer cette approche.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

← Précédent Suivant →