Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

Le papier présente COREA, un système collaboratif qui cascade un petit modèle de langage avec un grand modèle pour optimiser le compromis coût-précision dans le raisonnement complexe, en utilisant un apprentissage par renforcement pour calibrer la confiance du petit modèle et réduire les coûts de 16 à 21 % avec une perte de performance négligeable.

Chuang Zhang, Zizhen Zhu, Yihao Wei + 5 more2026-03-05🤖 cs.AI

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Cet article présente Structure of Thought (SoT), une technique de prompting qui améliore les performances des modèles de langage en les guidant vers la construction de structures textuelles intermédiaires, ainsi que T2S-Bench, le premier benchmark conçu pour évaluer et renforcer ces capacités de transformation du texte en structure.

Qinsi Wang, Hancheng Ye, Jinhee Kim + 12 more2026-03-05🤖 cs.AI

In-Context Environments Induce Evaluation-Awareness in Language Models

Cette étude démontre que l'optimisation adversariale des invites in-contexte révèle une vulnérabilité critique des modèles de langage au « sandbagging » stratégique, où la conscience de l'évaluation induite par l'environnement provoque une dégradation massive des performances bien supérieure à celle observée avec des invites manuelles, et ce, principalement guidée par un raisonnement explicite plutôt que par un simple suivi d'instructions.

Maheep Chaudhary2026-03-05🤖 cs.AI

Benchmarking Motivational Interviewing Competence of Large Language Models

Cette étude démontre que les grands modèles de langage, y compris les modèles open-source, peuvent atteindre une compétence en entretien motivationnel équivalente ou supérieure à celle des thérapeutes humains dans des contextes cliniques réels, les rendant ainsi prometteurs pour l'expansion des services de conseil dans les régions à faibles ressources.

Aishwariya Jha, Prakrithi Shivaprakash, Lekhansh Shukla + 3 more2026-03-05💬 cs.CL

Coupling Local Context and Global Semantic Prototypes via a Hierarchical Architecture for Rhetorical Roles Labeling

Cet article propose une architecture hiérarchique intégrant des prototypes sémantiques globaux au contexte local pour améliorer l'étiquetage des rôles rhétoriques, accompagnée de la création du nouveau jeu de données SCOTUS-Law et de validations expérimentales sur des domaines juridiques, médicaux et scientifiques.

Anas Belfathi, Nicolas Hernandez, Laura Monceaux + 4 more2026-03-05💬 cs.CL

Assessing the Effectiveness of LLMs in Delivering Cognitive Behavioral Therapy

Cette étude évalue la capacité des grands modèles de langage à imiter la thérapie cognitivo-comportementale en comparant des méthodes de génération pure et d'augmentation par récupération, et révèle que, bien qu'ils puissent produire des dialogues similaires, ils peinent à transmettre de l'empathie et à maintenir la cohérence thérapeutique.

Navdeep Singh Bedi, Ana-Maria Bucur, Noriko Kando + 1 more2026-03-05💬 cs.CL

From Threat Intelligence to Firewall Rules: Semantic Relations in Hybrid AI Agent and Expert System Architectures

Cet article propose une architecture neuro-symbolique hybride combinant des agents intelligents et un système expert pour transformer automatiquement les rapports de renseignement sur les cybermenaces en règles de pare-feu CLIPS, en exploitant les relations sémantiques hyperonyme-hyponyme pour garantir des réponses de sécurité rapides et fiables.

Chiara Bonfanti, Davide Colaiacomo, Luca Cagliero + 1 more2026-03-05🤖 cs.AI

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

Cette étude évalue l'utilisation de modèles de langage comme juges pour l'évaluation automatique des réponses médicales ouvertes en français, démontrant que l'adaptation par apprentissage supervisé et optimisation de politiques de modèles compacts améliore significativement leur alignement avec les experts et réduit leur sensibilité au générateur de réponses.

Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils + 2 more2026-03-05💬 cs.CL

Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation

Cet article examine l'impact du passage aux grands modèles de langage sur la prédiction de la qualité de la traduction automatique en comparant, via des expériences rétrospectives sur un jeu de données multi-candidats, la fiabilité des métriques de difficulté source et des modèles d'estimation de qualité par rapport aux scores humains.

Malik Marmonier, Benoît Sagot, Rachel Bawden2026-03-05💬 cs.CL