Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application

Cet article présente une approche systématique de l'adaptation sim-to-réalité pour l'atterrissage autonome d'un AUV sous-marin, utilisant un jumeau numérique haute fidélité et l'apprentissage par renforcement profond (PPO) pour entraîner un agent qui a démontré un taux de réussite supérieur à 90 % en simulation et une validation réussie dans un bassin physique.

Alaaeddine Chaarani, Narcis Palomeras, Pere Ridao2026-03-13🤖 cs.AI

Just Use XML: Revisiting Joint Translation and Label Projection

Ce papier présente LabelPigeon, un cadre novateur utilisant des balises XML pour réaliser simultanément la traduction et la projection d'annotations, démontrant ainsi que cette approche conjointe améliore à la fois la qualité de la traduction et les performances de transfert interlingue sur des tâches comme la reconnaissance d'entités nommées, contrairement aux méthodes précédentes.

Thennal D K, Chris Biemann, Hans Ole Hatzel2026-03-13💬 cs.CL

Cascade: Composing Software-Hardware Attack Gadgets for Adversarial Threat Amplification in Compound AI Systems

Cet article présente « Cascade », une approche qui démontre comment combiner des vulnérabilités logicielles et matérielles traditionnelles avec des faiblesses algorithmiques des modèles de langage pour amplifier les menaces et compromettre l'intégrité ou la confidentialité des systèmes d'IA composés.

Sarbartha Banerjee, Prateek Sahu, Anjo Vahldiek-Oberwagner, Jose Sanchez Vicarte, Mohit Tiwari2026-03-13🤖 cs.AI

Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability

Le papier présente Slow-Fast Inference, une méthode d'accélération sans entraînement qui améliore le débit de décodage des modèles à contexte long en alternant des étapes rapides utilisant une mémoire sparse réutilisable et des étapes lentes qui rafraîchissent cette mémoire aux frontières sémantiques, tout en préservant la qualité de génération.

Xingyu Xie, Zhaochen Yu, Yue Liao, Tao Wang, Kim-Chuan Toh, Shuicheng Yan2026-03-13🤖 cs.LG

XSkill: Continual Learning from Experience and Skills in Multimodal Agents

Le papier présente XSkill, un cadre d'apprentissage continu à double flux qui améliore les agents multimodaux en accumulant et en adaptant dynamiquement des connaissances réutilisables sous forme d'expériences et de compétences, ancrées dans les observations visuelles, pour optimiser l'utilisation d'outils et la planification sans mise à jour des paramètres.

Guanyu Jiang (May), Zhaochen Su (May), Xiaoye Qu (May), Yi R. (May), Fung2026-03-13🤖 cs.AI

Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Cet article propose une méthode de génération visuelle sans entraînement, basée sur la transformée h et un calendrier de pondération adaptatif, pour synthétiser des échantillons de haute qualité à partir de références dégradées tout en surmontant les limites des approches existantes concernant la connaissance de l'opérateur de transformation et l'équilibre entre guidage et qualité.

Yanghao Wang, Ziqi Jiang, Zhen Wang, Long Chen2026-03-13🤖 cs.AI

Chemical Reaction Networks Learn Better than Spiking Neural Networks

Ce papier démontre mathématiquement et expérimentalement que les réseaux de réactions chimiques sans couches cachées surpassent les réseaux de neurones à impulsions nécessitant des couches cachées pour l'apprentissage de tâches de classification, offrant ainsi une explication mathématique à l'efficacité potentielle de l'apprentissage dans les réseaux biochimiques cellulaires.

Sophie Jaffard, Ivo F. Sbalzarini2026-03-13📊 stat

Paper Title: LoV3D: Grounding Cognitive Prognosis Reasoning in Longitudinal 3D Brain MRI via Regional Volume Assessments

Le papier présente LoV3D, une pipeline d'apprentissage profond qui ancre le pronostic cognitif dans l'évaluation longitudinale des volumes cérébraux 3D via un vérificateur pondéré cliniquement, permettant ainsi d'atteindre une haute précision diagnostique et de réduire les hallucinations sans nécessiter d'annotations humaines.

Zhaoyang Jiang, Zhizhong Fu, David McAllister, Yunsoo Kim, Honghan Wu2026-03-13🤖 cs.AI

A Multi-Label Temporal Convolutional Framework for Transcription Factor Binding Characterization

Cet article propose un cadre d'apprentissage profond basé sur des réseaux de convolution temporelle pour traiter la reconnaissance des sites de liaison des facteurs de transcription comme un problème de classification multi-étiquettes, permettant ainsi de prédire simultanément plusieurs profils de liaison, de capturer leurs corrélations et de révéler des motifs biologiques ainsi que des mécanismes coopératifs, y compris de nouvelles relations entre facteurs de transcription.

Pietro Demurtas, Ferdinando Zanchetta, Giovanni Perini, Rita Fioresi2026-03-13🧬 q-bio

Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

Cet article propose une méthode de recherche d'architecture neuronale (NAS) économe en ressources qui utilise des modèles de langage (LLM) de taille modeste et une mémoire de feedback itérative pour concevoir et optimiser automatiquement des architectures de réseaux de neurones performantes pour la classification d'images sur un seul GPU grand public, sans nécessiter de fine-tuning ni d'infrastructure cloud.

Xiaojie Gu, Dmitry Ignatov, Radu Timofte2026-03-13🤖 cs.LG

A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

Cet article propose un cadre robuste et efficace d'apprentissage par renforcement multi-agents pour le contrôle des feux de circulation, intégrant des mécanismes de randomisation des ratios de tournants, un ajustement exponentiel de la durée des phases et une observation basée sur les voisins, ce qui permet de réduire le temps d'attente moyen de plus de 10 % tout en améliorant la généralisation et la stabilité face aux variations dynamiques du trafic.

Sheng-You Huang, Hsiao-Chuan Chang, Yen-Chi Chen, Ting-Han Wei, I-Hau Yeh, Sheng-Yao Kuan, Chien-Yao Wang, Hsuan-Han Lee, I-Chen Wu2026-03-13🤖 cs.AI

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

Cet article identifie et résout le problème de l'auto-verrouillage informationnel dans les agents LLM utilisant l'apprentissage par renforcement pour le raisonnement actif, en décomposant la tâche en sélection d'action et suivi de croyance pour proposer une méthode d'injection de critiques directionnelles qui améliore significativement les performances.

Deyu Zou, Yongqiang Chen, Fan Feng, Mufei Li, Pan Li, Yu Gong, James Cheng2026-03-13🤖 cs.AI

SommBench: Assessing Sommelier Expertise of Language Models

Ce papier présente SommBench, un nouveau benchmark multilingue conçu pour évaluer l'expertise des modèles de langage dans le domaine de la sommellerie, en testant leur capacité à maîtriser la théorie du vin, la complétion de caractéristiques et l'accord mets-vins au-delà de la simple connaissance textuelle.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Ce papier présente TopoBench, un benchmark évaluant les capacités de raisonnement topologique des grands modèles de langage sur des énigmes spatiales complexes, révélant que leurs échecs proviennent principalement de difficultés à extraire et maintenir les contraintes spatiales plutôt que d'une incapacité à raisonner sur celles-ci.

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI