cs.AI articles | Gist.Science

Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application

Cet article présente une approche systématique de l'adaptation sim-to-réalité pour l'atterrissage autonome d'un AUV sous-marin, utilisant un jumeau numérique haute fidélité et l'apprentissage par renforcement profond (PPO) pour entraîner un agent qui a démontré un taux de réussite supérieur à 90 % en simulation et une validation réussie dans un bassin physique.

Alaaeddine Chaarani, Narcis Palomeras, Pere Ridao2026-03-13🤖 cs.AI

Just Use XML: Revisiting Joint Translation and Label Projection

Ce papier présente LabelPigeon, un cadre novateur utilisant des balises XML pour réaliser simultanément la traduction et la projection d'annotations, démontrant ainsi que cette approche conjointe améliore à la fois la qualité de la traduction et les performances de transfert interlingue sur des tâches comme la reconnaissance d'entités nommées, contrairement aux méthodes précédentes.

Thennal D K, Chris Biemann, Hans Ole Hatzel2026-03-13💬 cs.CL

Cascade: Composing Software-Hardware Attack Gadgets for Adversarial Threat Amplification in Compound AI Systems

Cet article présente « Cascade », une approche qui démontre comment combiner des vulnérabilités logicielles et matérielles traditionnelles avec des faiblesses algorithmiques des modèles de langage pour amplifier les menaces et compromettre l'intégrité ou la confidentialité des systèmes d'IA composés.

Sarbartha Banerjee, Prateek Sahu, Anjo Vahldiek-Oberwagner, Jose Sanchez Vicarte, Mohit Tiwari2026-03-13🤖 cs.AI

Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability

Le papier présente Slow-Fast Inference, une méthode d'accélération sans entraînement qui améliore le débit de décodage des modèles à contexte long en alternant des étapes rapides utilisant une mémoire sparse réutilisable et des étapes lentes qui rafraîchissent cette mémoire aux frontières sémantiques, tout en préservant la qualité de génération.

Xingyu Xie, Zhaochen Yu, Yue Liao, Tao Wang, Kim-Chuan Toh, Shuicheng Yan2026-03-13🤖 cs.LG

XSkill: Continual Learning from Experience and Skills in Multimodal Agents

Le papier présente XSkill, un cadre d'apprentissage continu à double flux qui améliore les agents multimodaux en accumulant et en adaptant dynamiquement des connaissances réutilisables sous forme d'expériences et de compétences, ancrées dans les observations visuelles, pour optimiser l'utilisation d'outils et la planification sans mise à jour des paramètres.

Guanyu Jiang (May), Zhaochen Su (May), Xiaoye Qu (May), Yi R. (May), Fung2026-03-13🤖 cs.AI

Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Cet article propose une méthode de génération visuelle sans entraînement, basée sur la transformée h et un calendrier de pondération adaptatif, pour synthétiser des échantillons de haute qualité à partir de références dégradées tout en surmontant les limites des approches existantes concernant la connaissance de l'opérateur de transformation et l'équilibre entre guidage et qualité.

Yanghao Wang, Ziqi Jiang, Zhen Wang, Long Chen2026-03-13🤖 cs.AI

Chemical Reaction Networks Learn Better than Spiking Neural Networks

Ce papier démontre mathématiquement et expérimentalement que les réseaux de réactions chimiques sans couches cachées surpassent les réseaux de neurones à impulsions nécessitant des couches cachées pour l'apprentissage de tâches de classification, offrant ainsi une explication mathématique à l'efficacité potentielle de l'apprentissage dans les réseaux biochimiques cellulaires.

Sophie Jaffard, Ivo F. Sbalzarini2026-03-13📊 stat

Beyond Convolution: A Taxonomy of Structured Operators for Learning-Based Image Processing

Cet article propose une taxonomie systématique des opérateurs structurés qui étendent ou remplacent la convolution dans le traitement d'images par apprentissage, en les classant en cinq familles distinctes et en analysant leurs propriétés structurelles, leurs performances comparatives et leurs défis futurs.

Simone Cammarasana2026-03-13🤖 cs.AI

Paper Title: LoV3D: Grounding Cognitive Prognosis Reasoning in Longitudinal 3D Brain MRI via Regional Volume Assessments

Le papier présente LoV3D, une pipeline d'apprentissage profond qui ancre le pronostic cognitif dans l'évaluation longitudinale des volumes cérébraux 3D via un vérificateur pondéré cliniquement, permettant ainsi d'atteindre une haute précision diagnostique et de réduire les hallucinations sans nécessiter d'annotations humaines.

Zhaoyang Jiang, Zhizhong Fu, David McAllister, Yunsoo Kim, Honghan Wu2026-03-13🤖 cs.AI

A Multi-Label Temporal Convolutional Framework for Transcription Factor Binding Characterization

Cet article propose un cadre d'apprentissage profond basé sur des réseaux de convolution temporelle pour traiter la reconnaissance des sites de liaison des facteurs de transcription comme un problème de classification multi-étiquettes, permettant ainsi de prédire simultanément plusieurs profils de liaison, de capturer leurs corrélations et de révéler des motifs biologiques ainsi que des mécanismes coopératifs, y compris de nouvelles relations entre facteurs de transcription.

Pietro Demurtas, Ferdinando Zanchetta, Giovanni Perini, Rita Fioresi2026-03-13🧬 q-bio

Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

Cet article propose une méthode de recherche d'architecture neuronale (NAS) économe en ressources qui utilise des modèles de langage (LLM) de taille modeste et une mémoire de feedback itérative pour concevoir et optimiser automatiquement des architectures de réseaux de neurones performantes pour la classification d'images sur un seul GPU grand public, sans nécessiter de fine-tuning ni d'infrastructure cloud.

Xiaojie Gu, Dmitry Ignatov, Radu Timofte2026-03-13🤖 cs.LG

Human-Centred LLM Privacy Audits: Findings and Frictions

Cette étude présente LMP2, un outil d'auto-audit permettant aux utilisateurs d'inspecter les associations que les grands modèles de langage font à leur sujet, et met en lumière les défis méthodologiques et les neuf frictions rencontrés dans la création d'audits de confidentialité centrés sur l'humain pour l'IA générative.

Dimitri Staufer, Kirsten Morehouse, David Hartmann, Bettina Berendt2026-03-13💬 cs.CL

A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

Cet article propose un cadre robuste et efficace d'apprentissage par renforcement multi-agents pour le contrôle des feux de circulation, intégrant des mécanismes de randomisation des ratios de tournants, un ajustement exponentiel de la durée des phases et une observation basée sur les voisins, ce qui permet de réduire le temps d'attente moyen de plus de 10 % tout en améliorant la généralisation et la stabilité face aux variations dynamiques du trafic.

Sheng-You Huang, Hsiao-Chuan Chang, Yen-Chi Chen, Ting-Han Wei, I-Hau Yeh, Sheng-Yao Kuan, Chien-Yao Wang, Hsuan-Han Lee, I-Chen Wu2026-03-13🤖 cs.AI

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

Cet article identifie et résout le problème de l'auto-verrouillage informationnel dans les agents LLM utilisant l'apprentissage par renforcement pour le raisonnement actif, en décomposant la tâche en sélection d'action et suivi de croyance pour proposer une méthode d'injection de critiques directionnelles qui améliore significativement les performances.

Deyu Zou, Yongqiang Chen, Fan Feng, Mufei Li, Pan Li, Yu Gong, James Cheng2026-03-13🤖 cs.AI

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

Cet article propose le cadre MMDDPG, qui utilise une optimisation minimax avec un objectif fractionnaire pour apprendre des politiques de contrôle robustes et stables face aux perturbations externes et aux incertitudes de modèle dans des tâches de contrôle continu.

Taeho Lee, Donghwan Lee2026-03-13🤖 cs.LG

SommBench: Assessing Sommelier Expertise of Language Models

Ce papier présente SommBench, un nouveau benchmark multilingue conçu pour évaluer l'expertise des modèles de langage dans le domaine de la sommellerie, en testant leur capacité à maîtriser la théorie du vin, la complétion de caractéristiques et l'accord mets-vins au-delà de la simple connaissance textuelle.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

CRAFT: A Tendon-Driven Hand with Hybrid Hard-Soft Compliance

Le papier présente CRAFT, une main anthropomorphe actionnée par tendons dotée d'une conformité hybride rigide-douce qui améliore la force, l'endurance et la manipulation d'objets fragiles tout en restant compacte, peu coûteuse et open-source.

Leo Lin, Shivansh Patel, Jay Moon, Svetlana Lazebnik, Unnat Jain2026-03-13🤖 cs.AI

Increasing intelligence in AI agents can worsen collective outcomes

Cette étude démontre que l'augmentation de l'intelligence et de la diversité des agents IA peut empirir les résultats collectifs en cas de pénurie de ressources, car la sophistication de ces agents aggrave la surcharge du système à moins que la capacité disponible ne dépasse un seuil critique déterminé par la formation spontanée de tribus.

Neil F. Johnson2026-03-13💰 q-fin

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Ce papier présente TopoBench, un benchmark évaluant les capacités de raisonnement topologique des grands modèles de langage sur des énigmes spatiales complexes, révélant que leurs échecs proviennent principalement de difficultés à extraire et maintenir les contraintes spatiales plutôt que d'une incapacité à raisonner sur celles-ci.

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI

Automatic Generation of High-Performance RL Environments

Cet article présente une méthode automatisée et peu coûteuse utilisant des agents IA pour générer des environnements d'apprentissage par renforcement haute performance en JAX ou Rust, garantissant une équivalence sémantique et des gains de vitesse considérables par rapport aux implémentations de référence.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

← Précédent Suivant →