BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

L'étude BeamPERL démontre que l'apprentissage par renforcement avec des récompenses vérifiables améliore les performances d'un modèle de langage compact sur la mécanique des poutres, mais révèle que cette compétence repose sur l'adoption de modèles de résolution procéduraux plutôt que sur une véritable internalisation des principes physiques, limitant ainsi la généralisation face à des changements topologiques.

Tarjei Paule Hage, Markus J. Buehler2026-03-05🔬 cond-mat.mtrl-sci

When Do Language Models Endorse Limitations on Human Rights Principles?

Cette étude évalue comment onze grands modèles de langage naviguent les compromis liés à la Déclaration universelle des droits de l'homme à travers 1 152 scénarios multilingues, révélant des biais systématiques qui privilégient la limitation des droits économiques et sociaux par rapport aux droits civils et politiques, avec des variations significatives selon la langue et une forte vulnérabilité au guidage par les invites.

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea + 4 more2026-03-05💬 cs.CL

Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG

Cette étude démontre que les améliorations observées dans les benchmarks de RAG multilingue et visuel sont principalement dues à une meilleure représentation des documents plutôt qu'à des mécanismes de récupération avancés, soulignant ainsi la nécessité d'évaluations décomposées pour distinguer l'apport de la transcription de celui de la récupération.

Martin Asenov, Kenza Benkirane, Dan Goldwater + 1 more2026-03-05💬 cs.CL

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Ce papier présente Memex, un mécanisme de mémoire indexée optimisé par apprentissage par renforcement (MemexRL) qui permet aux agents LLM d'exécuter des tâches à long horizon en conservant des preuves complètes dans une base externe tout en maintenant un contexte de travail compact, surmontant ainsi les limites des fenêtres de contexte traditionnelles sans perte d'information.

Zhenting Wang, Huancheng Chen, Jiayun Wang + 1 more2026-03-05🤖 cs.LG

The Company You Keep: How LLMs Respond to Dark Triad Traits

Cette étude examine comment les grands modèles de langage réagissent aux traits de la Triade sombre (Machiavélisme, Narcissisme et Psychopathie) dans les prompts utilisateurs, révélant que bien qu'ils adoptent majoritairement un comportement correctif, ils peuvent parfois renforcer des comportements nuisibles, ce qui soulève des enjeux cruciaux pour la conception de systèmes conversationnels plus sûrs.

Zeyi Lu, Angelica Henestrosa, Pavel Chizhov + 1 more2026-03-05💬 cs.CL

World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings

Cette étude démontre que la récupération linéaire de structures spatiales et temporelles dans les représentations internes des modèles de langage ne prouve pas l'existence de modèles du monde internes, car une grande partie de cette structure est déjà latente dans les statistiques de co-occurrence des mots des embeddings statiques.

Elan Barenholtz2026-03-05🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

Ce papier présente le système gagnant de l'équipe AILS-NTUA pour la tâche 12 de SemEval-2026, qui allie récupération basée sur des graphes et raisonnement abductif par réflexion pour atteindre une précision de 0,95, tout en identifiant des biais inductifs systématiques partagés par 14 modèles dans le raisonnement causal multi-étiquettes.

Nikolas Karafyllis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-05💬 cs.CL

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Le papier présente Pointer-CAD, un cadre de génération de modèles CAO par LLM qui surmonte les limites des séquences de commandes en intégrant une sélection d'entités géométriques via des pointeurs, permettant ainsi la création de structures complexes et la réduction des erreurs topologiques grâce à un jeu de données de 575 000 modèles.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

Cet article propose le DMAST, un cadre d'entraînement de sécurité adversaire en deux modalités et trois étapes qui, en formalisant l'interaction agent-attaquant comme un jeu à somme nulle, renforce considérablement la robustesse et l'efficacité des agents web multimodaux face aux attaques croisées exploitant à la fois les captures d'écran et les arbres d'accessibilité.

Haoyu Liu, Dingcheng Li, Lukas Rutishauser + 1 more2026-03-05🤖 cs.AI

ττ-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Ce papier présente I¨„Ï„-Knowledge, un nouveau benchmark évaluant la capacité des agents conversationnels à coordonner des connaissances non structurées et des outils dans des scénarios réalistes de support client fintech, révélant que même les modèles de pointe peinent à atteindre une fiabilité suffisante dans ces tâches complexes.

Quan Shi, Alexandra Zytek, Pedram Razavi + 2 more2026-03-05🤖 cs.AI

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Le papier présente TaxonRL, une approche d'apprentissage par renforcement utilisant des récompenses intermédiaires pour décomposer le raisonnement visuel en prédictions taxonomiques hiérarchiques, permettant ainsi d'atteindre une précision supérieure à celle des humains sur la tâche de discrimination fine d'espèces tout en garantissant l'interprétabilité des décisions.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL