cs articles | Gist.Science

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Le papier présente REVEL, une nouvelle tâche de manipulation vidéo interactive en flux continu permettant de modifier n'importe quel élément à tout moment, et propose DragStream, une méthode sans entraînement qui corrige la dérive latente et les interférences contextuelles pour assurer une génération vidéo fluide et cohérente.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation guided Structured Pruning

Cet article présente une approche de vérification locuteur de pointe utilisant le modèle w2v-BERT 2.0 avec des adaptateurs de couches et LoRA, qui atteint des performances record tout en réduisant sa taille de 80 % grâce à un élagage structuré guidé par la distillation de connaissances avec une dégradation minimale des performances.

Ze Li, Ming Cheng, Ming Li2026-03-10💻 cs

PAD-TRO: Projection-Augmented Diffusion for Direct Trajectory Optimization

Ce papier présente PAD-TRO, une nouvelle méthode d'optimisation de trajectoire par diffusion qui génère directement des séquences d'états et intègre un mécanisme de projection sans gradient pour garantir la faisabilité dynamique, surpassant ainsi les approches existantes en termes de taux de réussite et d'absence d'erreurs dynamiques dans des scénarios de navigation complexes.

Jushan Chen, Santiago Paternain2026-03-10💻 cs

Membership Inference Attacks on Tokenizers of Large Language Models

Cette étude présente la première analyse des fuites de données par inférence de membres via les tokeniseurs de grands modèles de langage, démontrant leur vulnérabilité et proposant une défense adaptative pour atténuer ce risque de confidentialité négligé.

Meng Tong, Yuntao Du, Kejiang Chen, Weiming Zhang, Ninghui Li2026-03-10💻 cs

Vision-Guided Targeted Grasping and Vibration for Robotic Pollination in Controlled Environments

Cet article présente et valide un cadre robotique guidé par la vision qui intègre la reconstruction 3D, la planification de préhension ciblée et la modélisation vibratoire pour réaliser une pollinisation automatisée précise et sûre dans des environnements agricoles contrôlés.

Jaehwan Jeong, Tuan-Anh Vu, Radha Lahoti, Jiawen Wang, Vivek Alumootil, Sangpil Kim, M. Khalid Jawed2026-03-10💻 cs

Differentiable Variable Fonts

Cet article propose une méthode de « polices de caractères variables différentiables » qui formalise mathématiquement le lien entre les paramètres de police et les graphiques vectoriels pour permettre l'optimisation par gradient et ainsi automatiser la conception et l'animation typographiques tout en préservant la lisibilité et l'esthétique.

Kinjal Parikh, Danny M. Kaufman, David I. W. Levin, Alec Jacobson2026-03-10💻 cs

EB-MBD: Emerging-Barrier Model-Based Diffusion for Safe Trajectory Optimization in Highly Constrained Environments

Cet article propose EB-MBD, une méthode de diffusion basée sur un modèle qui intègre des fonctions barrières émergentes pour optimiser efficacement et sûrement des trajectoires dans des environnements fortement contraints, évitant ainsi la dégradation des performances et les coûts computationnels élevés des méthodes de projection traditionnelles.

Raghav Mishra, Ian R. Manchester2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

Le papier présente AR-Drag, le premier modèle de diffusion vidéo autoregressif renforcé par apprentissage par renforcement, capable de générer des vidéos à partir d'images en temps réel avec un contrôle précis du mouvement tout en maintenant une haute fidélité visuelle et une faible latence.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

CDE: Concept-Driven Exploration for Reinforcement Learning

Ce papier propose CDE, une méthode d'exploration en apprentissage par renforcement qui utilise un modèle vision-langage pré-entraîné pour générer des concepts visuels et les exploiter via une tâche de reconstruction comme récompense intrinsèque, permettant ainsi une exploration ciblée efficace dans des tâches de manipulation visuelle complexes, y compris dans le monde réel.

Le Mao, Andrew H. Liu, Renos Zabounidis, Yanan Niu, Zachary Kingston, Joseph Campbell2026-03-10💻 cs

Deliberative Dynamics and Value Alignment in LLM Debates

Cette étude examine comment les dynamiques de délibération et les protocoles d'interaction (synchrone ou séquentiel) influencent la révision des verdicts et l'alignement des valeurs de plusieurs grands modèles de langage lors de l'analyse de dilemmes moraux, révélant des différences significatives de flexibilité et de conformité entre les modèles.

Pratik S. Sachdeva, Tom van Nuenen2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

Cet article propose un plugin léger et sans réentraînement nommé « Functional Head Identification and Class-Conditioned Rescaling » qui rééquilibre l'attention entre les couches perceptives et de raisonnement des modèles de raisonnement multimodaux pour réduire les hallucinations et améliorer la fiabilité sans modifier l'architecture.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Cet article présente un cadre d'apprentissage par renforcement multi-objectif conditionné par des préférences qui permet à une seule politique de locomotion humanoïde de trouver un équilibre dynamique entre le suivi de commandes de navigation et la conformité aux forces externes lors des interactions humaines.

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao2026-03-10💻 cs

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

L'article présente DropVLA, une attaque par porte dérobée au niveau des actions qui permet de forcer l'exécution d'un primitif d'action spécifique dans les modèles Vision-Language-Action (VLA) avec un taux de succès élevé et une perturbation minimale des tâches normales, même dans des environnements physiques réels.

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

Cet article présente un cadre d'apprentissage combinant un modèle du monde et un contrôle prédictif pour permettre aux robots humanoïdes de planifier de manière efficace et robuste des contacts physiques à partir de données visuelles et proprioceptives, surpassant les méthodes traditionnelles en termes d'efficacité d'échantillonnage et de capacité multi-tâches.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Protege Effect for Behaviour Change: Does Teaching Digital Stress Solutions to Others Reduce One's Own?

Cette étude conclut que l'approche basée sur l'effet de protgégé, consistant à enseigner des solutions au stress numérique à autrui, ne permet pas de réduire significativement ce stress ni d'améliorer la gestion des comportements problématiques liés aux médias sociaux, soulignant ainsi la difficulté de transformer l'engagement cognitif en changement comportemental durable.

Sameha Alshakhsi, Ala Yankouskaya, Dena Al-Thani, Raian Ali2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Cette revue systématique examine l'application des modèles génératifs profonds non supervisés à la détection d'anomalies en neuroimagerie, soulignant leur potentiel pour identifier des pathologies sans annotations tout en mettant en évidence les défis liés à l'hétérogénéité méthodologique et au manque de validation externe.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

A Robust Placeability Metric for Model-Free Unified Pick-and-Place Reasoning

Cet article présente une métrique probabiliste robuste permettant d'évaluer la placeabilité d'objets inconnus à partir d'observations partielles, unifiant ainsi la planification de préhension et de dépôt sans nécessiter de modèles d'objets préalables.

Benno Wingender, Nils Dengler, Rohit Menon, Sicong Pan, Maren Bennewitz2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Cet article propose un nouveau cadre de rééchantillonnage par collision (CMR) pour la segmentation audio-vidéo continue, qui résout les problèmes de dérive sémantique et de confusion entre classes co-occurrentes en sélectionnant des échantillons multimodaux cohérents et en augmentant la fréquence de réentraînement des classes confusables.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

Ce papier présente PolyJailbreak, un nouveau cadre d'attaque en boîte noire pour les modèles de langage multimodaux (MLLM) qui exploite une asymétrie de sécurité entre les modalités pour générer des contournements de sécurité efficaces via une optimisation par apprentissage par renforcement multi-agents.

Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Guangquan Xu, Shouling Ji2026-03-10💻 cs

HumanHalo - Safe and Efficient 3D Navigation Among Humans via Minimally Conservative MPC

Ce papier présente HumanMPC, un cadre de commande prédictive (MPC) innovant qui garantit une navigation 3D sûre et efficace pour les micro-drones parmi des humains en combinant des modèles de mouvement réalistes basés sur les données avec une formulation de sécurité par faisabilité de contrôle minimisant le conservatisme.

Simon Schaefer, Helen Oleynikova, Sandra Hirche, Stefan Leutenegger2026-03-10💻 cs

← Précédent Suivant →