Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Cette étude présente PubHealthBench, un nouveau benchmark de plus de 8000 questions évaluant la connaissance des modèles de langage (LLM) sur les informations de santé publique du Royaume-Uni, révélant que bien que les modèles propriétaires les plus récents surpassent les humains en questions à choix multiples, leurs performances en réponses libres nécessitent encore des garde-fous supplémentaires.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Le papier présente R1-Code-Interpreter, un modèle de langage entraîné via un apprentissage par renforcement multi-étapes et un curriculum adaptatif pour maîtriser l'utilisation autonome d'interpréteurs de code sur des tâches variées, surpassant ainsi les performances de GPT-4o avec une précision accrue et des capacités d'auto-vérification émergentes.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Cet article propose la « Supervised Calibration », un cadre unificateur basé sur la minimisation de la perte qui améliore l'apprentissage en contexte des grands modèles de langage en apprenant des transformations affines optimales pour corriger les biais et réorienter les frontières de décision, surpassant ainsi les méthodes de calibration existantes sur plusieurs modèles et jeux de données.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

Cette étude identifie et quantifie les biais idiosyncrasiques des modèles de préférence envers des caractéristiques superficielles comme la longueur ou le jargon, puis propose une méthode d'augmentation de données par contre-factuels pour réduire efficacement ces erreurs de calibration tout en préservant les performances globales.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

Cet article présente CounselBench, un benchmark à grande échelle élaboré avec des professionnels de la santé mentale pour évaluer et tester la robustesse des modèles de langage dans des scénarios de questions-réponses réalistes, révélant à la fois leurs limites cliniques et les défaillances des juges automatisés.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

Cet article propose une méthode de biaisage contextuel permettant d'améliorer la reconnaissance des mots présentant un décalage entre leur prononciation et leur orthographe en exploitant des corrections de substitutions fournies par l'utilisateur en temps réel, ce qui réduit significativement le taux d'erreur sur ces mots spécifiques sans dégrader les performances globales.

Christian Huber, Alexander Waibel2026-03-05🤖 cs.LG

From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems

Cette étude démontre que l'intégration de la résolution de coréférence améliore significativement l'efficacité de la récupération et la qualité des réponses dans les systèmes de Génération Augmentée par Récupération (RAG), en particulier pour les modèles plus petits et grâce à l'adoption de stratégies de pooling moyen.

Youngjoon Jang, Seongtae Hong, Junyoung Son + 3 more2026-03-05🤖 cs.AI

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

Le papier présente Text2VLM, un pipeline novateur qui transforme des jeux de données textuels en prompts multimodaux pour évaluer la vulnérabilité des modèles de langage visuel aux attaques par injection de prompts typographiques, révélant ainsi des failles d'alignement critiques et un écart de performance significatif par rapport aux modèles propriétaires.

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI