Towards Self-Robust LLMs: Intrinsic Prompt Noise Resistance via CoIPO

Cet article propose CoIPO, une méthode d'optimisation des préférences inverses basée sur l'apprentissage contrastif qui améliore la robustesse intrinsèque des grands modèles de langage face aux variations de prompts en minimisant l'écart entre les logits générés par des prompts propres et bruyants, validée par de nouveaux benchmarks et jeux de données.

Xin Yang, Letian Li, Abudukelimu Wuerkaixi + 5 more2026-03-05🤖 cs.AI

M-QUEST -- Meme Question-Understanding Evaluation on Semantics and Toxicity

Ce papier présente M-QUEST, un cadre sémantique et un benchmark de 609 paires question-réponse conçus pour évaluer la capacité des modèles de langage à interpréter la toxicité des mèmes en intégrant dix dimensions clés, révélant que les modèles avec instruction tuning surpassent les autres tout en restant limités sur les inférences pragmatiques.

Stefano De Giorgis, Ting-Chih Chen, Filip Ilievski2026-03-05🤖 cs.AI

Automated Concept Discovery for LLM-as-a-Judge Preference Analysis

Cette étude propose une méthode d'extraction de concepts basée sur des auto-encodeurs parcimonieux pour découvrir automatiquement les facteurs inconnus influençant les préférences des modèles de langage utilisés comme juges, révélant ainsi des biais systématiques tels que la préférence pour la concrétude, l'empathie et le formalisme, tout en validant des tendances existantes comme le refus accru des demandes sensibles.

James Wedgwood, Chhavi Yadav, Virginia Smith2026-03-05🤖 cs.AI

Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery

Cet article présente DBench-Bio, un benchmark dynamique et automatisé conçu pour évaluer la capacité des modèles de langage à découvrir de nouvelles connaissances biologiques, en surmontant les limites des évaluations statiques et la contamination des données grâce à un pipeline de mise à jour mensuelle couvrant douze sous-domaines biomédicaux.

Chaoqun Yang, Xinyu Lin, Shulin Li + 4 more2026-03-05🤖 cs.AI

Controllable and explainable personality sliders for LLMs at inference time

Cet article propose un cadre modulaire innovant utilisant le « Sequential Adaptive Steering » pour contrôler de manière continue et explicable plusieurs traits de personnalité dans les grands modèles de langage au moment de l'inférence, en orthogonalisant les vecteurs de guidage afin d'éviter les interférences destructrices et d'éviter un réentraînement coûteux.

Florian Hoppe, David Khachaturov, Robert Mullins + 1 more2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Cette étude évalue la robustesse de 13 grands modèles de langage face à cinq types de perturbations dans le raisonnement par chaîne de pensée, révélant des vulnérabilités hétérogènes où l'augmentation de la taille du modèle atténue certaines erreurs mathématiques mais offre une protection limitée contre les problèmes de conversion d'unités.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI