cs.CL articles | Gist.Science

GUMBridge: a Corpus for Varieties of Bridging Anaphora

Ce papier présente GUMBridge, un nouveau corpus annoté couvrant 16 genres diversifiés de l'anglais pour l'étude des anaphores de pontage, tout en évaluant la qualité des annotations et les performances des modèles de langage actuels sur les tâches de résolution et de classification de ces phénomènes.

Lauren Levine, Amir Zeldes2026-03-04💬 cs.CL

Activation Steering for Masked Diffusion Language Models

Cet article propose une méthode de guidage des activations pour les modèles de diffusion masqués, démontrant qu'une intervention globale sur un sous-espace d'activation unidimensionnel permet un contrôle efficace et transférable du comportement du modèle, surpassant les approches basées sur l'optimisation ou les invites, tout en révélant des spécificités architecturales distinctes par rapport aux modèles autoregressifs.

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

Cette étude démontre que l'analyse des profils d'entropie de sortie lors de l'inférence permet d'estimer avec précision la performance des modèles de langage sur des domaines spécifiques en STEM, offrant ainsi un signal accessible pour la surveillance continue et l'acquisition ciblée de données.

Pedro Memoli Buffa, Luciano Del Corro2026-03-04💬 cs.CL

Contextual Drag: How Errors in the Context Affect LLM Reasoning

L'article révèle que la présence d'erreurs passées dans le contexte des grands modèles de langage crée un « drag contextuel » qui biaise leurs raisonnements futurs vers des erreurs structurellement similaires, provoquant une dégradation des performances que ni la vérification ni les stratégies d'atténuation actuelles ne parviennent entièrement à corriger.

Yun Cheng, Xingyu Zhu, Haoyu Zhao + 1 more2026-03-04💬 cs.CL

Can LLMs Discern the Traits Influencing Your Preferences? Evaluating Personality-Driven Preference Alignment in LLMs

Cette étude propose PACIFIC, un cadre et un jeu de données annotés par les traits de personnalité Big Five, démontrant que l'alignement des préférences d'un utilisateur sur sa personnalité inférée améliore considérablement la précision des réponses personnalisées des grands modèles de langage.

Tianyu Zhao, Siqi Li, Yasser Shoukry + 1 more2026-03-04💬 cs.CL

Steer2Edit: From Activation Steering to Component-Level Editing

Le papier propose Steer2Edit, un cadre sans entraînement qui transforme les vecteurs de guidage en modifications de poids au niveau des composants pour améliorer les compromis entre sécurité, véracité et efficacité du raisonnement dans les grands modèles de langage.

Chung-En Sun, Ge Yan, Zimo Wang + 1 more2026-03-04💬 cs.CL

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Le papier présente MedXIAOHE, un modèle fondationnel médical vision-langage qui atteint des performances de pointe grâce à un cadre d'entraînement continu axé sur les entités et un apprentissage par renforcement pour le raisonnement, surpassant les systèmes multimodaux fermés tout en garantissant une génération de rapports fiables et ancrée dans des preuves.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

Rethinking the Role of LLMs in Time Series Forecasting

Cette étude à grande échelle démontre que les modèles de langage (LLM) améliorent significativement la prévision des séries temporelles, en particulier lors de changements de distribution, en validant l'importance de l'alignement préalable et du rôle complémentaire de la préformation et de l'architecture.

Xin Qiu, Junlong Tong, Yirong Sun + 3 more2026-03-04💬 cs.CL

Spilled Energy in Large Language Models

Cet article propose une méthode sans entraînement pour détecter les hallucinations dans les grands modèles de langage en réinterprétant leur classificateur softmax comme un modèle basé sur l'énergie et en utilisant de nouvelles métriques d'énergie dissipée et marginalisée directement dérivées des logits.

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi2026-03-04💬 cs.CL

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Ce papier présente CFE-Bench, un nouveau benchmark multimodal évaluant les capacités de raisonnement des grands modèles de langage sur plus de 20 domaines STEM à l'aide de problèmes d'examen universitaires authentiques, révélant que même les modèles les plus avancés peinent à maintenir des états intermédiaires cohérents dans des solutions multi-étapes malgré des performances correctes sur des sous-questions isolées.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

Ce papier présente RuCL, un cadre novateur d'apprentissage curriculaire stratifié qui améliore le raisonnement des modèles de langage multimodaux en reformulant la conception des récompenses via des rubriques généralisées et pondérées dynamiquement, permettant ainsi d'atteindre des performances record tout en évitant le piratage de récompenses.

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

Cet article présente un cadre de traduction automatique guidée par la parole (SMT) intégrant la parole et le texte dans un modèle de langage multimodal, qui utilise un mécanisme d'auto-évolution pour générer des données synthétiques et atteint des performances de pointe sur les benchmarks Multi30K et FLORES-200.

Yexing Du, Youcheng Pan, Zekun Wang + 7 more2026-03-04💬 cs.CL

DeepXiv-SDK: An Agentic Data Interface for Scientific Literature

Ce papier présente DeepXiv-SDK, une interface de données agentic à trois couches qui transforme la littérature scientifique non structurée en formats normalisés et fournit des outils d'accès efficaces pour les agents LLM, couvrant actuellement l'ensemble du corpus ArXiv avec une synchronisation quotidienne.

Hongjin Qian, Ziyi Xia, Ze Liu + 11 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

Ce papier présente « Super Research », une nouvelle tâche et un benchmark évaluant la capacité des modèles de langage à résoudre des questions de recherche extrêmement complexes grâce à une décomposition structurée, une recherche à la fois très large et très profonde, et un protocole d'audit rigoureux.

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

Cet article présente uCDCR, un jeu de données unifié qui consolide divers corpus de résolution de coréférence inter-documents en anglais pour analyser systématiquement leurs propriétés lexicales et améliorer la généralisabilité des modèles, tout en démontrant que la résolution des entités et des événements constitue une tâche complexe qui ne doit pas se limiter aux événements.

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

Le papier présente QIME, un cadre fondé sur l'ontologie qui génère des embeddings médicaux interprétables en représentant le texte par des réponses binaires à des questions cliniquement significatives, surpassant les méthodes interprétables existantes et se rapprochant des performances des encodeurs boîte noire tout en fournissant des explications concises.

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Ce papier présente ClinConsensus, un benchmark chinois basé sur le consensus d'experts cliniques évaluant les grands modèles de langage médicaux sur des cas ouverts et complexes à travers tout le continuum de soins, en proposant une nouvelle métrique de cohérence et un cadre d'évaluation à double juge pour identifier les forces et les limites actuelles de ces modèles.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

Recursive Think-Answer Process for LLMs and VLMs

Cet article propose le processus récursif R-TAP, qui améliore la précision et l'efficacité des modèles de langage et de vision en intégrant un générateur de confiance pour des cycles de raisonnement itératifs, réduisant ainsi les erreurs et les expressions d'auto-réflexion par rapport aux approches en passage unique.

Byung-Kwan Lee, Youngchae Chee, Yong Man Ro2026-03-04💬 cs.CL

A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences

Cet article présente un modèle de substitut capable de préserver simultanément la distribution de fréquence des symboles (loi de Zipf) et la structure de corrélation à long terme des séquences symboliques, telles que le langage écrit et l'ADN, en mappant un bruit gaussien fractionnaire sur l'histogramme empirique.

Marcelo A. Montemurro, Mirko Degli Esposti2026-03-04🧬 q-bio

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

Cette étude démontre que l'évolution durable des modèles de langage par auto-jeu nécessite un pipeline d'auto-synthèse garantissant un gain d'information apprenable croissant, obtenu grâce à une co-évolution asymétrique, une croissance des capacités et une recherche proactive d'informations.

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL

← Précédent Suivant →