Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Cet article présente une approche novatrice d'apprentissage par renforcement qui permet d'affiner directement les grands modèles de langage pour qu'ils expriment des estimations de confiance calibrées et alignées sur leur précision réelle, en intégrant cette calibration au processus de génération plutôt que de la traiter séparément.

David Bani-Harouni, Chantal Pellegrini, Paul Stangel + 4 more2026-03-03💬 cs.CL

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

En analysant 92 modèles de langage open-source, cette étude démontre que l'intégration de facteurs de conception au-delà de la simple échelle, tels que la composition des données et les choix architecturaux, permet d'améliorer significativement la prédiction des performances en aval et de mieux comprendre l'impact des décisions de développement.

Emmy Liu, Amanda Bertsch, Lintang Sutawika + 9 more2026-03-03💬 cs.CL

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Le papier présente LLaVE, un cadre d'apprentissage contrastif pondéré par la difficulté qui améliore l'entraînement des modèles d'encodage multimodaux pour mieux distinguer les paires négatives difficiles, permettant ainsi d'atteindre des performances de pointe sur le benchmark MMEB avec une meilleure efficacité que les modèles précédents.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Le papier présente Vision-R1, un modèle multimodal de langage qui améliore les capacités de raisonnement grâce à une stratégie d'entraînement par apprentissage par renforcement combinant un jeu de données de chaîne de pensée initialisé automatiquement et une suppression progressive de la sur-réflexion, atteignant ainsi des performances compétitives sur les benchmarks de raisonnement mathématique.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

A Foundational Individual Mobility Prediction Model based on Open-Source Large Language Models

Cet article présente MoBLLM, un modèle fondamental de prédiction de mobilité individuelle basé sur un grand modèle de langage open-source et des techniques d'ajustement fin efficaces, qui démontre une précision, une robustesse et une transférabilité supérieures aux modèles d'apprentissage profond et aux grands modèles commerciaux sur divers scénarios réels.

Zhenlin Qin, Leizhen Wang, Yancheng Ling + 2 more2026-03-03💬 cs.CL

AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs

Cet article présente AnesSuite, la première suite de données et de benchmarks complète dédiée au raisonnement en anesthésiologie pour les modèles de langage, accompagnée de Morpheus, un modèle de référence qui démontre des performances améliorées dans ce domaine spécialisé ainsi que dans des tâches médicales et générales.

Xiang Feng, Wentao Jiang, Zengmao Wang + 5 more2026-03-03💬 cs.CL

DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

Cet article présente DRA-GRPO, une méthode plug-and-play qui améliore le raisonnement mathématique des LLMs en corrigeant l'inconsistance diversité-qualité du GRPO standard grâce à un ajustement de récompense basé sur la densité sémantique et l'information mutuelle sousmodulaire, permettant d'atteindre des performances supérieures avec peu de données et un coût réduit.

Xiwen Chen, Wenhui Zhu, Peijie Qiu + 7 more2026-03-03💬 cs.CL

Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

Ce papier présente « Chain-of-Lure », un cadre d'attaque universel de contournement (jailbreak) qui exploite les capacités narratives non contraintes des grands modèles de langage pour masquer des intentions malveillantes via une chaîne de questions appâtantes et une optimisation par un modèle auxiliaire, démontrant ainsi des taux de réussite élevés et soulignant la nécessité de nouvelles stratégies de défense.

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

Augmenting Research Ideation with Data: An Empirical Investigation in Social Science

Cette étude démontre que l'intégration de données, notamment via des métadonnées et une validation automatique, améliore significativement la faisabilité et la qualité des idées de recherche générées par les LLM en sciences sociales, tout en stimulant l'inspiration et la production d'idées de meilleure qualité chez les chercheurs humains.

Xiao Liu, Xinyi Dong, Xinyang Gao + 2 more2026-03-03💬 cs.CL