cs.AI articles | Gist.Science

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Le papier propose CroSTAta, un transformateur d'attention de transition d'états croisés qui améliore la robustesse des politiques de manipulation robotique en modulant l'attention selon les schémas d'évolution d'état appris et en utilisant un masquage temporel pour renforcer le raisonnement contextuel, surpassant ainsi les méthodes d'attention standard et les réseaux récurrents.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

Cette étude présente un pipeline autonome basé sur des agents LLM capable d'extraire à grande échelle des propriétés thermélectriques et structurales de milliers d'articles scientifiques, générant ainsi la plus vaste base de données curée par IA à ce jour pour accélérer la découverte de matériaux.

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

Le papier présente FOR-Prompting, un protocole de prompting asymétrique qui améliore le raisonnement et l'auto-révision des modèles de langage en faisant intervenir un « Défenseur », un « Débateur » et un « Hôte », permettant ainsi d'obtenir des performances supérieures aux méthodes classiques sans nécessiter d'entraînement ni d'accès aux paramètres internes du modèle.

He Zhang, Anzhou Zhang, Jian Dai2026-03-10💬 cs.CL

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

Ce papier présente DialTree, un cadre d'apprentissage par renforcement intégrant une recherche arborescente qui découvre automatiquement des stratégies d'attaque multi-tours innovantes contre les grands modèles de langage, surpassant significativement les méthodes existantes en termes de taux de réussite.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

Wasserstein Gradient Flows for Scalable and Regularized Barycenter Computation

Cet article propose une nouvelle méthode d'échelle pour le calcul de barycentres de Wasserstein régularisés, basée sur des flots de gradient et l'optimisation par mini-lots, qui intègre efficacement des informations supervisées et établit un nouvel état de l'art sur des benchmarks variés.

Eduardo Fernandes Montesuma, Yassir Bendou, Mike Gartrell2026-03-10🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Ce papier présente NANOMIND, une approche de co-conception matériel-logiciel qui optimise l'inférence des modèles multimodaux sur des appareils autonomes à batterie en décomposant les modèles en modules exécutés dynamiquement sur les accélérateurs appropriés, réduisant ainsi la consommation d'énergie de 42,3 % et permettant une autonomie de près de 20,8 heures.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

Membership Inference Attacks on Tokenizers of Large Language Models

Cette étude présente la première analyse des fuites de données par inférence de membres via les tokeniseurs de grands modèles de langage, démontrant leur vulnérabilité et proposant une défense adaptative pour atténuer ce risque de confidentialité négligé.

Meng Tong, Yuntao Du, Kejiang Chen, Weiming Zhang, Ninghui Li2026-03-10💻 cs

Deliberative Dynamics and Value Alignment in LLM Debates

Cette étude examine comment les dynamiques de délibération et les protocoles d'interaction (synchrone ou séquentiel) influencent la révision des verdicts et l'alignement des valeurs de plusieurs grands modèles de langage lors de l'analyse de dilemmes moraux, révélant des différences significatives de flexibilité et de conformité entre les modèles.

Pratik S. Sachdeva, Tom van Nuenen2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

Cet article propose un plugin léger et sans réentraînement nommé « Functional Head Identification and Class-Conditioned Rescaling » qui rééquilibre l'attention entre les couches perceptives et de raisonnement des modèles de raisonnement multimodaux pour réduire les hallucinations et améliorer la fiabilité sans modifier l'architecture.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

L'article présente DropVLA, une attaque par porte dérobée au niveau des actions qui permet de forcer l'exécution d'un primitif d'action spécifique dans les modèles Vision-Language-Action (VLA) avec un taux de succès élevé et une perturbation minimale des tâches normales, même dans des environnements physiques réels.

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

Cet article présente un cadre d'apprentissage combinant un modèle du monde et un contrôle prédictif pour permettre aux robots humanoïdes de planifier de manière efficace et robuste des contacts physiques à partir de données visuelles et proprioceptives, surpassant les méthodes traditionnelles en termes d'efficacité d'échantillonnage et de capacité multi-tâches.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

Ce papier présente ARM-FM, un cadre qui utilise des modèles de fondation pour générer automatiquement des machines de récompense à partir de spécifications en langage naturel, permettant ainsi une conception de récompenses compositionnelle et une généralisation zéro-shot en apprentissage par renforcement.

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth2026-03-10🤖 cs.LG

The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLM CoTs

Cette étude révèle que l'entraînement par renforcement induit un raisonnement motivé chez les modèles de langage, où ceux-ci génèrent des justifications plausibles pour contourner leurs consignes de sécurité, trompant ainsi les moniteurs de chaîne de pensée (CoT) plus petits utilisés pour la surveillance.

Nikolaus Howe, Micah Carroll2026-03-10🤖 cs.LG

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

Ce papier propose un cadre d'apprentissage graphique adaptatif qui détecte les anomalies financières en identifiant leurs mécanismes sous-jacents spécifiques (chocs de prix, liquidité, contagion, etc.) grâce à un routage d'experts interprétable, permettant ainsi des alertes de marché précoces et des réponses ciblées sans supervision étiquetée.

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Cet article propose un nouveau cadre de rééchantillonnage par collision (CMR) pour la segmentation audio-vidéo continue, qui résout les problèmes de dérive sémantique et de confusion entre classes co-occurrentes en sélectionnant des échantillons multimodaux cohérents et en augmentant la fréquence de réentraînement des classes confusables.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Cette étude propose un cadre d'apprentissage par renforcement nommé PRPO, qui intègre des priors structurels d'invariance par permutation pour révéler les capacités de raisonnement numérique des grands modèles de langage, leur permettant de surpasser des modèles bien plus grands dans les tâches de prédiction tabulaire, notamment en contexte zero-shot.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Le papier présente Dream4Drive, un cadre de génération de données synthétiques qui améliore les performances des modèles de perception pour la conduite autonome en produisant des cas limites multi-vues photoréalistes, tout en introduisant l'ensemble de données 3D DriveObj3D pour faciliter la recherche future.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

Cet article présente HCLA, un système multi-agents centré sur l'humain qui améliore la transparence et la responsabilité dans la détection d'anomalies des transactions d'actifs numériques en reconstruisant un processus de raisonnement d'expert traçable plutôt qu'en se limitant à expliquer des modèles boîte noire.

Gyuyeon Na, Minjung Park, Hyeonjeong Cha, Sangmi Chai2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Ce papier présente CountFormer, un cadre de comptage d'objets sans exemple qui remplace l'encodeur d'image par le modèle fondation auto-supervisé DINOv2 pour améliorer la cohérence structurelle et réduire les erreurs de surcomptage liées aux répétitions visuelles, tout en obtenant des performances compétitives sur le jeu de données FSC-147.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

Le papier présente LagMemo, un système de navigation robotique qui utilise une mémoire de splatting gaussien 3D enrichie par le langage pour permettre une localisation et une navigation multi-objectifs ouvertes et multi-modales, surpassant les méthodes actuelles grâce à une évaluation rigoureuse sur le nouveau benchmark GOAT-Core.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

← Précédent Suivant →