cs.CL articles | Gist.Science

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Cet article présente une approche novatrice d'apprentissage par renforcement qui permet d'affiner directement les grands modèles de langage pour qu'ils expriment des estimations de confiance calibrées et alignées sur leur précision réelle, en intégrant cette calibration au processus de génération plutôt que de la traiter séparément.

David Bani-Harouni, Chantal Pellegrini, Paul Stangel + 4 more2026-03-03💬 cs.CL

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

En analysant 92 modèles de langage open-source, cette étude démontre que l'intégration de facteurs de conception au-delà de la simple échelle, tels que la composition des données et les choix architecturaux, permet d'améliorer significativement la prédiction des performances en aval et de mieux comprendre l'impact des décisions de développement.

Emmy Liu, Amanda Bertsch, Lintang Sutawika + 9 more2026-03-03💬 cs.CL

Large Language Models in Bioinformatics: A Survey

Cet article de synthèse examine comment les grands modèles de langage révolutionnent la bioinformatique en analysant les avancées récentes dans la modélisation des séquences génomiques et des protéines, tout en abordant les défis actuels et les perspectives futures pour la médecine de précision.

Zhenyu Wang, Zikang Wang, Jiyue Jiang + 3 more2026-03-03🧬 q-bio

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Le papier présente LLaVE, un cadre d'apprentissage contrastif pondéré par la difficulté qui améliore l'entraînement des modèles d'encodage multimodaux pour mieux distinguer les paires négatives difficiles, permettant ainsi d'atteindre des performances de pointe sur le benchmark MMEB avec une meilleure efficacité que les modèles précédents.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Le papier présente Vision-R1, un modèle multimodal de langage qui améliore les capacités de raisonnement grâce à une stratégie d'entraînement par apprentissage par renforcement combinant un jeu de données de chaîne de pensée initialisé automatiquement et une suppression progressive de la sur-réflexion, atteignant ainsi des performances compétitives sur les benchmarks de raisonnement mathématique.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Cet article démontre théoriquement et valide empiriquement que la prédiction du prochain token permet aux grands modèles de langage d'apprendre des concepts latents interprétables par l'humain, dont les représentations correspondent approximativement aux logarithmes des probabilités a posteriori de ces concepts.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

A Foundational Individual Mobility Prediction Model based on Open-Source Large Language Models

Cet article présente MoBLLM, un modèle fondamental de prédiction de mobilité individuelle basé sur un grand modèle de langage open-source et des techniques d'ajustement fin efficaces, qui démontre une précision, une robustesse et une transférabilité supérieures aux modèles d'apprentissage profond et aux grands modèles commerciaux sur divers scénarios réels.

Zhenlin Qin, Leizhen Wang, Yancheng Ling + 2 more2026-03-03💬 cs.CL

Chain of Correction for Full-text Speech Recognition with Large Language Models

Cet article propose la « Chaîne de Correction » (CoC), une méthode utilisant un format de chat multi-tours guidé par le contexte pour affiner la correction d'erreurs dans les transcriptions de reconnaissance vocale, démontrant ainsi des performances supérieures aux systèmes de référence sur le jeu de données ChFT.

Zhiyuan Tang, Dong Wang, Zhikai Zhou + 3 more2026-03-03💬 cs.CL

AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs

Cet article présente AnesSuite, la première suite de données et de benchmarks complète dédiée au raisonnement en anesthésiologie pour les modèles de langage, accompagnée de Morpheus, un modèle de référence qui démontre des performances améliorées dans ce domaine spécialisé ainsi que dans des tâches médicales et générales.

Xiang Feng, Wentao Jiang, Zengmao Wang + 5 more2026-03-03💬 cs.CL

DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

Cet article présente DRA-GRPO, une méthode plug-and-play qui améliore le raisonnement mathématique des LLMs en corrigeant l'inconsistance diversité-qualité du GRPO standard grâce à un ajustement de récompense basé sur la densité sémantique et l'information mutuelle sousmodulaire, permettant d'atteindre des performances supérieures avec peu de données et un coût réduit.

Xiwen Chen, Wenhui Zhu, Peijie Qiu + 7 more2026-03-03💬 cs.CL

When Large Language Models are More PersuasiveThan Incentivized Humans, and Why

Cette étude démontre que les grands modèles de langage surpassent les humains incités à persuader, notamment dans des contextes trompeurs, grâce à une expression de conviction plus forte, bien que cet avantage diminue avec les interactions répétées.

Philipp Schoenegger, Francesco Salvi, Jiacheng Liu + 37 more2026-03-03💬 cs.CL

mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules

Ce papier présente mCLM, un modèle de langage chimique modulaire qui génère des molécules fonctionnelles et synthétisables en les tokenisant sous forme de blocs de construction plutôt qu'atomes, surpassant ainsi les méthodes existantes en matière d'accessibilité synthétique et de propriétés chimiques.

Carl Edwards, Chi Han, Gawon Lee + 11 more2026-03-03🧬 q-bio

Dynamic Token Reweighting for Robust Vision-Language Models

Ce papier présente DTR, une méthode de défense à l'inférence qui atténue les attaques de contournement multimodales dans les modèles vision-langage en optimisant dynamiquement les caches clé-valeur pour ajuster les poids des tokens visuels, améliorant ainsi la robustesse sans compromettre les performances générales.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

Ce papier présente « Chain-of-Lure », un cadre d'attaque universel de contournement (jailbreak) qui exploite les capacités narratives non contraintes des grands modèles de langage pour masquer des intentions malveillantes via une chaîne de questions appâtantes et une optimisation par un modèle auxiliaire, démontrant ainsi des taux de réussite élevés et soulignant la nécessité de nouvelles stratégies de défense.

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Ce papier propose la méthode NFT, une approche d'apprentissage supervisé qui exploite les réponses erronées pour permettre aux modèles de langage de s'améliorer de manière autonome en mathématiques, comblant ainsi le fossé théorique et pratique entre l'apprentissage supervisé et l'apprentissage par renforcement.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

SQUiD: Synthesizing Relational Databases from Unstructured Text

Le papier présente SQUiD, un cadre neurosymbolique innovant qui utilise des modèles de langage pour générer automatiquement des schémas et remplir des bases de données relationnelles à partir de textes non structurés, surpassant ainsi les méthodes existantes.

Mushtari Sadia, Zhenning Yang, Yunming Xiao + 2 more2026-03-03💬 cs.CL

Learning to Reason without External Rewards

Ce papier présente Intuitor, une méthode d'apprentissage par renforcement sans récompense externe qui utilise la propre certitude d'un modèle de langage comme signal intrinsèque pour améliorer son raisonnement et sa généralisation, offrant ainsi une alternative évolutive aux approches supervisées.

Xuandong Zhao, Zhewei Kang, Aosong Feng + 2 more2026-03-03💬 cs.CL

RPM: Reasoning-Level Personalization for Black-Box Large Language Models

Ce papier présente RPM, un cadre innovant qui améliore la personnalisation des grands modèles de langage en boîte noire en découvrant automatiquement des structures de raisonnement spécifiques à l'utilisateur à partir de données comportementales, surpassant ainsi les méthodes actuelles axées uniquement sur le niveau de réponse.

Jieyong Kim, Tongyoung Kim, Soojin Yoon + 2 more2026-03-03💬 cs.CL

Augmenting Research Ideation with Data: An Empirical Investigation in Social Science

Cette étude démontre que l'intégration de données, notamment via des métadonnées et une validation automatique, améliore significativement la faisabilité et la qualité des idées de recherche générées par les LLM en sciences sociales, tout en stimulant l'inspiration et la production d'idées de meilleure qualité chez les chercheurs humains.

Xiao Liu, Xinyi Dong, Xinyang Gao + 2 more2026-03-03💬 cs.CL

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning

L'article présente RefTool, un cadre innovant qui permet aux grands modèles de langage de surmonter leurs limites de connaissances internes en générant et en utilisant des outils exécutables guidés par des références externes pour améliorer le raisonnement dans des domaines intensifs en connaissances.

Xiao Liu, Da Yin, Zirui Wu + 1 more2026-03-03💬 cs.CL

← Précédent Suivant →