cs.CL articles | Gist.Science

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Cette étude théorique démontre que, bien que l'apprentissage par renforcement améliore la planification des modèles de langage en évitant les solutions erronées du fine-tuning supervisé grâce à l'exploration, les méthodes de gradient de politique souffrent d'un effondrement de la diversité, contrairement à l'apprentissage Q qui préserve cette diversité mais nécessite une conception rigoureuse des récompenses pour éviter les biais.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Cette étude démontre que la nouveauté des n-grammes est un indicateur insuffisant de la créativité textuelle car elle néglige l'adéquation pragmatique, révélant que la majorité des expressions très novatrices sont jugées non créatives et que les modèles de langage actuels peinent à distinguer la véritable créativité des productions non pragmatiques.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

ManagerBench: Evaluating the Safety-Pragmatism Trade-off in Autonomous LLMs

Le papier présente ManagerBench, un benchmark évaluant le compromis entre sécurité et pragmatisme des agents LLM autonomes dans des scénarios de gestion, révélant que les modèles de pointe échouent souvent à prioriser correctement la sécurité humaine par rapport aux objectifs opérationnels malgré une bonne perception des risques.

Adi Simhi, Jonathan Herzig, Martin Tutek + 3 more2026-03-04💬 cs.CL

AccurateRAG: A Framework for Building Accurate Retrieval-Augmented Question-Answering Applications

Ce papier présente AccurateRAG, un cadre innovant optimisant le développement et les performances des applications de réponse aux questions par génération augmentée par récupération (RAG) grâce à une pipeline complète allant du traitement des données à l'évaluation, surpassant ainsi les méthodes existantes sur des benchmarks.

Linh The Nguyen, Chi Tran, Dung Ngoc Nguyen + 3 more2026-03-04💬 cs.CL

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Cet article propose Cache-to-Cache (C2C), une nouvelle méthode de communication sémantique directe entre grands modèles de langage via la fusion de leurs caches KV, qui surpasse la communication textuelle traditionnelle en offrant une meilleure précision et une latence réduite.

Tianyu Fu, Zihan Min, Hanling Zhang + 4 more2026-03-04💬 cs.CL

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

Ce papier présente LaDiR, un cadre de raisonnement novateur qui améliore les modèles de langage en unifiant la représentation latente et les capacités de raffinement itératif des modèles de diffusion pour permettre une génération parallèle et holistique de trajectoires de raisonnement.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Cet article présente l'Energy Landscape Steering (ELS), un cadre novateur et sans réentraînement qui atténue le sur-rejet dans les grands modèles de langage alignés en guidant dynamiquement leurs activations internes vers des états désirables via un modèle externe basé sur l'énergie, améliorant ainsi la conformité aux requêtes bénignes tout en préservant la sécurité.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

Cette étude révèle que, contrairement aux locuteurs humains, les modèles de langage préentraînés peinent à distinguer les mots d'emprunt du vocabulaire natif dans dix langues, ce qui souligne un biais systémique ayant des implications critiques pour le développement d'outils NLP destinés aux langues minoritaires.

Mérilin Sousa Silva, Sina Ahmadi2026-03-04💬 cs.CL

STARS: Synchronous Token Alignment for Robust Supervision in Large Language Models

Le papier présente STARS, un algorithme d'alignement synchrone qui améliore la fiabilité et l'efficacité matérielle des grands modèles de langage en remplaçant la segmentation basée sur l'incertitude par une vérification à intervalles fixes, permettant ainsi de détecter les erreurs manquées par les métriques d'incertitude tout en maximisant le débit du système.

Mohammad Atif Quamar, Mohammad Areeb, Mikhail Kuznetsov + 2 more2026-03-04💬 cs.CL

Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

En requalifiant l'ambiguïté des requêtes en langage naturel comme une caractéristique d'interaction coopérative plutôt que comme une défaillance, cette étude propose un cadre conceptuel pour distinguer les requêtes résolvables des requêtes non coopératives afin d'améliorer la conception et l'évaluation des interfaces d'analyse de données tabulaires.

Daniel Gomm, Cornelius Wolff, Madelon Hulsebos2026-03-04💬 cs.CL

TransactionGPT

Le papier présente TransactionGPT, un modèle fondation innovant basé sur une architecture 3D-Transformer entraîné sur des milliards de transactions réelles, qui surpasse les modèles de production existants dans la détection d'anomalies et la génération de trajectoires tout en offrant une efficacité supérieure aux grands modèles de langage pour les tâches prédictives sur les données de paiement.

Yingtong Dou, Zhimeng Jiang, Tianyi Zhang + 26 more2026-03-04💬 cs.CL

From Passive to Persuasive: Steering Emotional Nuance in Human-AI Negotiation

Cette étude démontre que l'ingénierie d'activation ciblée, combinant le patching d'attribution et des vecteurs d'expression émotionnelle, permet d'orienter le modèle LLaMA 3.1-8B pour qu'il adopte des nuances émotionnelles plus humaines et un engagement personnel accru lors des négociations.

Niranjan Chebrolu, Gerard Christopher Yeo, Kokil Jaidka2026-03-04💬 cs.CL

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

Cet article propose un cadre de débat fin et conscient de la confiance (CFD) utilisant des modèles de langage open-source pour enrichir automatiquement les données d'indicateurs de santé mentale et de sécurité en ligne, démontrant ainsi une amélioration significative des performances des tâches en aval par rapport aux approches de base.

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

GUMBridge: a Corpus for Varieties of Bridging Anaphora

Ce papier présente GUMBridge, un nouveau corpus annoté couvrant 16 genres diversifiés de l'anglais pour l'étude des anaphores de pontage, tout en évaluant la qualité des annotations et les performances des modèles de langage actuels sur les tâches de résolution et de classification de ces phénomènes.

Lauren Levine, Amir Zeldes2026-03-04💬 cs.CL

Activation Steering for Masked Diffusion Language Models

Cet article propose une méthode de guidage des activations pour les modèles de diffusion masqués, démontrant qu'une intervention globale sur un sous-espace d'activation unidimensionnel permet un contrôle efficace et transférable du comportement du modèle, surpassant les approches basées sur l'optimisation ou les invites, tout en révélant des spécificités architecturales distinctes par rapport aux modèles autoregressifs.

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

Cette étude démontre que l'analyse des profils d'entropie de sortie lors de l'inférence permet d'estimer avec précision la performance des modèles de langage sur des domaines spécifiques en STEM, offrant ainsi un signal accessible pour la surveillance continue et l'acquisition ciblée de données.

Pedro Memoli Buffa, Luciano Del Corro2026-03-04💬 cs.CL

Contextual Drag: How Errors in the Context Affect LLM Reasoning

L'article révèle que la présence d'erreurs passées dans le contexte des grands modèles de langage crée un « drag contextuel » qui biaise leurs raisonnements futurs vers des erreurs structurellement similaires, provoquant une dégradation des performances que ni la vérification ni les stratégies d'atténuation actuelles ne parviennent entièrement à corriger.

Yun Cheng, Xingyu Zhu, Haoyu Zhao + 1 more2026-03-04💬 cs.CL

Can LLMs Discern the Traits Influencing Your Preferences? Evaluating Personality-Driven Preference Alignment in LLMs

Cette étude propose PACIFIC, un cadre et un jeu de données annotés par les traits de personnalité Big Five, démontrant que l'alignement des préférences d'un utilisateur sur sa personnalité inférée améliore considérablement la précision des réponses personnalisées des grands modèles de langage.

Tianyu Zhao, Siqi Li, Yasser Shoukry + 1 more2026-03-04💬 cs.CL

Steer2Edit: From Activation Steering to Component-Level Editing

Le papier propose Steer2Edit, un cadre sans entraînement qui transforme les vecteurs de guidage en modifications de poids au niveau des composants pour améliorer les compromis entre sécurité, véracité et efficacité du raisonnement dans les grands modèles de langage.

Chung-En Sun, Ge Yan, Zimo Wang + 1 more2026-03-04💬 cs.CL

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Le papier présente MedXIAOHE, un modèle fondationnel médical vision-langage qui atteint des performances de pointe grâce à un cadre d'entraînement continu axé sur les entités et un apprentissage par renforcement pour le raisonnement, surpassant les systèmes multimodaux fermés tout en garantissant une génération de rapports fiables et ancrée dans des preuves.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

← Précédent Suivant →