cs.CL articles | Gist.Science

You Only Fine-tune Once: Many-Shot In-Context Fine-Tuning for Large Language Models

Ce papier propose une nouvelle méthode appelée Many-Shot In-Context Fine-tuning (ManyICL) qui, en traitant chaque exemple de contexte comme une cible d'apprentissage supervisé, permet aux grands modèles de langage de combler l'écart de performance avec l'ajustement fin dédié tout en atténuant l'oubli catastrophique.

Wenchong He, Liqian Peng, Zhe Jiang + 1 more2026-03-04🤖 cs.AI

LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

Cette étude introduit le facteur de branchement comme mesure de la concentration des probabilités pour démontrer que l'alignement des grands modèles de langage réduit drastiquement la diversité de leurs générations en les orientant vers des trajectoires à faible entropie, un mécanisme que le raisonnement en chaîne exploite pour stabiliser les sorties.

Chenghao Yang, Sida Li, Ari Holtzman2026-03-04🤖 cs.AI

LEDOM: Reverse Language Model

Ce papier présente LEDOM, un modèle de langage autoregressif entraîné exclusivement de droite à gauche qui développe des capacités de raisonnement distinctes et améliore les performances sur des tâches mathématiques grâce à une méthode de récompense inversée exploitant la dualité canal bruité pour pénaliser les chaînes de raisonnement hallucinées.

Xunjian Yin, Sitao Cheng, Yuxi Xie + 6 more2026-03-04💬 cs.CL

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Ce papier présente Skywork-Reward-V2, une série de modèles de récompense open-source qui atteignent des performances de pointe grâce à l'utilisation du jeu de données SynPref-40M, créé via une synergie humain-IA pour curer à grande échelle des préférences de haute qualité.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao + 9 more2026-03-04💬 cs.CL

Psychometric Item Validation Using Virtual Respondents with Trait-Response Mediators

Cet article présente un cadre innovant utilisant des grands modèles de langage pour simuler des répondants virtuels dotés de médiateurs de traits variés, permettant ainsi une validation efficace et économique des items de sondages psychométriques destinés à évaluer les traits des LLM.

Sungjib Lim, Woojung Song, Eun-Ju Lee + 1 more2026-03-04💬 cs.CL

Not All Errors Are Created Equal: ASCoT Addresses Late-Stage Fragility in Efficient LLM Reasoning

Le papier présente ASCoT, une méthode qui identifie la fragilité des étapes tardives dans le raisonnement des LLM et optimise l'efficacité en allouant dynamiquement des ressources de vérification ciblée, réduisant ainsi la consommation de tokens de 21 à 30 % avec une perte de précision négligeable.

Dongxu Zhang, Yujun Wu, Yiding Sun + 5 more2026-03-04💬 cs.CL

Link Prediction for Event Logs in the Process Industry

Cet article présente un modèle de liaison d'enregistrements, défini comme une tâche de résolution de coréférence inter-document, qui combine des techniques de déduction linguistique naturelle et de similarité sémantique pour améliorer la qualité des données et la prédiction de liens dans les journaux d'événements fragmentés de l'industrie des procédés allemande, surpassant ainsi les approches de référence de 28 %.

Anastasia Zhukova, Thomas Walton, Christian E. Lobmüller + 1 more2026-03-04💬 cs.CL

No Text Needed: Forecasting MT Quality and Inequity from Fertility and Metadata

Cette étude démontre qu'il est possible de prédire avec précision la qualité de la traduction automatique, sans exécuter le système, en se basant uniquement sur des métriques de fertilité des tokens et des métadonnées linguistiques pour estimer les scores ChrF sur 203 langues.

Jessica M. Lundin, Ada Zhang, David Adelani + 1 more2026-03-04💬 cs.CL

The Token Tax: Systematic Bias in Multilingual Tokenization

Cette étude démontre que l'inefficacité de la tokenisation impose un « impôt token » disproportionné aux langues morphologiquement complexes et peu dotées en ressources, réduisant leur précision et augmentant leurs coûts, tout en soulignant le rôle bénéfique des modèles de raisonnement et la nécessité d'une tokenisation plus équitable.

Jessica M. Lundin, Ada Zhang, Nihal Karim + 4 more2026-03-04💬 cs.CL

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

Cette étude démontre qu'il est possible de prédire la justesse des réponses d'un grand modèle de langage avant même la génération de texte en analysant ses activations internes via des sondes linéaires, révélant ainsi un signal de confiance et de vérité qui généralise bien, à l'exception notable des tâches de raisonnement mathématique.

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity

Cet article propose une méthode de filtrage de données textuelles bruyantes basée sur les statistiques de fréquence des termes (priors) qui, en remplaçant le calcul coûteux de la perplexité par une approche sans inférence de modèle, offre une alternative rapide et performante pour l'entraînement de modèles de langage sur divers corpus multilingues et symboliques.

Yeongbin Seo, Gayoung Kim, Jaehyung Kim + 1 more2026-03-04💬 cs.CL

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Cet article propose un cadre théorique reliant la complexité de Kolmogorov aux Transformers en démontrant l'existence d'objectifs de longueur de description asymptotiquement optimes, tout en illustrant via une approche variationnelle à base de mélanges gaussiens que l'optimisation de ces objectifs pour améliorer la généralisation reste un défi majeur.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Cette étude théorique démontre que, bien que l'apprentissage par renforcement améliore la planification des modèles de langage en évitant les solutions erronées du fine-tuning supervisé grâce à l'exploration, les méthodes de gradient de politique souffrent d'un effondrement de la diversité, contrairement à l'apprentissage Q qui préserve cette diversité mais nécessite une conception rigoureuse des récompenses pour éviter les biais.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Cette étude démontre que la nouveauté des n-grammes est un indicateur insuffisant de la créativité textuelle car elle néglige l'adéquation pragmatique, révélant que la majorité des expressions très novatrices sont jugées non créatives et que les modèles de langage actuels peinent à distinguer la véritable créativité des productions non pragmatiques.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

ManagerBench: Evaluating the Safety-Pragmatism Trade-off in Autonomous LLMs

Le papier présente ManagerBench, un benchmark évaluant le compromis entre sécurité et pragmatisme des agents LLM autonomes dans des scénarios de gestion, révélant que les modèles de pointe échouent souvent à prioriser correctement la sécurité humaine par rapport aux objectifs opérationnels malgré une bonne perception des risques.

Adi Simhi, Jonathan Herzig, Martin Tutek + 3 more2026-03-04💬 cs.CL

AccurateRAG: A Framework for Building Accurate Retrieval-Augmented Question-Answering Applications

Ce papier présente AccurateRAG, un cadre innovant optimisant le développement et les performances des applications de réponse aux questions par génération augmentée par récupération (RAG) grâce à une pipeline complète allant du traitement des données à l'évaluation, surpassant ainsi les méthodes existantes sur des benchmarks.

Linh The Nguyen, Chi Tran, Dung Ngoc Nguyen + 3 more2026-03-04💬 cs.CL

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Cet article propose Cache-to-Cache (C2C), une nouvelle méthode de communication sémantique directe entre grands modèles de langage via la fusion de leurs caches KV, qui surpasse la communication textuelle traditionnelle en offrant une meilleure précision et une latence réduite.

Tianyu Fu, Zihan Min, Hanling Zhang + 4 more2026-03-04💬 cs.CL

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

Ce papier présente LaDiR, un cadre de raisonnement novateur qui améliore les modèles de langage en unifiant la représentation latente et les capacités de raffinement itératif des modèles de diffusion pour permettre une génération parallèle et holistique de trajectoires de raisonnement.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Cet article présente l'Energy Landscape Steering (ELS), un cadre novateur et sans réentraînement qui atténue le sur-rejet dans les grands modèles de langage alignés en guidant dynamiquement leurs activations internes vers des états désirables via un modèle externe basé sur l'énergie, améliorant ainsi la conformité aux requêtes bénignes tout en préservant la sécurité.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

Cette étude révèle que, contrairement aux locuteurs humains, les modèles de langage préentraînés peinent à distinguer les mots d'emprunt du vocabulaire natif dans dix langues, ce qui souligne un biais systémique ayant des implications critiques pour le développement d'outils NLP destinés aux langues minoritaires.

Mérilin Sousa Silva, Sina Ahmadi2026-03-04💬 cs.CL

← Précédent Suivant →