cs.CL articles | Gist.Science

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Le papier présente ReflexiCoder, un cadre d'apprentissage par renforcement qui intègre des capacités intrinsèques d'autoréflexion et d'autocorrection dans les poids des modèles de langage, leur permettant d'atteindre des performances de pointe sur des tâches de codage complexes sans dépendre de retours externes ou d'exécution de code lors de l'inférence.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

Le papier présente ROSE, une méthode de réordonnancement de SparseGPT qui améliore la précision du pruning en une seule passe des grands modèles de langage en adaptant dynamiquement l'ordre d'élagage des poids en fonction de leur perte estimée, surpassant ainsi les approches existantes sur plusieurs modèles de pointe.

Mingluo Su, Huan Wang2026-03-09🤖 cs.LG

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

Ce papier propose CoCA, un cadre d'apprentissage par renforcement qui optimise conjointement la calibration de la confiance et la justesse des réponses en adoptant un paradigme « confiance d'abord » où le modèle évalue sa probabilité de succès avant de générer sa réponse.

Changcheng Li, Jiancan Wu, Hengheng Zhang, Zhengsu Chen, Guo An, Junxiang Qiu, Xiang Wang, Qi Tian2026-03-09💬 cs.CL

VerChol -- Grammar-First Tokenization for Agglutinative Languages

Le papier propose VerChol, une méthode de tokenisation axée sur la grammaire conçue pour préserver les limites des morphèmes et réduire le nombre de tokens dans les langues agglutinantes, contrairement aux approches statistiques dominantes comme BPE qui fragmentent ces mots complexes.

Prabhu Raja2026-03-09💬 cs.CL

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Cet article présente ConStory-Bench, un benchmark et un outil d'évaluation automatisée conçus pour identifier et analyser les incohérences narratives dans les histoires longues générées par les grands modèles de langage, révélant que ces erreurs sont fréquentes dans les dimensions factuelles et temporelles et tendent à survenir au milieu des récits.

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie2026-03-09🤖 cs.AI

Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

Ce papier présente une nouvelle méthodologie d'ensemble utilisant des LLM et de nouvelles métriques d'évaluation (CPR et TWF) pour réaliser un étiquetage sémantique précis et économique des résolutions du Conseil de sécurité de l'ONU.

Hussein Ghaly2026-03-09💬 cs.CL

InfoGatherer: Principled Information Seeking via Evidence Retrieval and Strategic Questioning

Le papier présente InfoGatherer, un cadre innovant qui améliore la prise de décision dans des domaines critiques comme le juridique et la médical en combinant la recherche de documents et des questions stratégiques auprès de l'utilisateur, tout en modélisant l'incertitude de manière rigoureuse grâce à la théorie de l'évidence de Dempster-Shafer pour éviter les réponses prématurées et non fiables.

Maksym Taranukhin, Shuyue Stella Li, Evangelos Milios, Geoff Pleiss, Yulia Tsvetkov, Vered Shwartz2026-03-09💬 cs.CL

Learning Next Action Predictors from Human-Computer Interaction

Ce papier présente LongNAP, un modèle d'apprentissage qui prédit les prochaines actions des utilisateurs en analysant leur historique d'interactions multimodales à long terme, surpassant significativement les méthodes existantes grâce à une combinaison d'apprentissage par renforcement et d'apprentissage en contexte.

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang2026-03-09💬 cs.CL

Addressing the Ecological Fallacy in Larger LMs with Human Context

Cette étude démontre que modéliser le contexte linguistique de l'auteur, via des méthodes comme HuLM et HuFT, permet de corriger la fallace écologique et d'améliorer significativement les performances d'un grand modèle de langage (8B Llama) sur diverses tâches, même sans réentraînement complet.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

Cet article propose un cadre de réécriture de style structuré combinant une désambiguïsation explicite des dimensions stylistiques et un conditionnement implicite par distillation de chaînes de pensée, permettant aux petits modèles de langage de générer des personnages stylisés avec une fidélité supérieure à celle de modèles plus grands, même en contexte de données limitées.

Chanhui Zhu2026-03-09🤖 cs.LG

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

En s'appuyant sur des théories psychologiques interactionnistes et constructivistes, cette étude développe des modèles interprétables qui intègrent des traits individuels et des contextes situationnels déduits du langage pour prédire le bien-être mental, démontrant que les caractéristiques théoriques offrent une performance compétitive et une meilleure interprétabilité par rapport aux embeddings de grands modèles de langage.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Le papier présente ProCap, un cadre innovant qui améliore la légende de changement en modélisant les dynamiques temporelles du processus de transformation via un encodeur de procédure entraîné sur des images clés générées, plutôt que de se limiter à une comparaison statique d'images.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

Le papier présente Track-SQL, un cadre qui améliore les modèles de langage génératifs pour le texte-vers-SQL multi-tours grâce à des modules extractifs duals pour le suivi du schéma et du contexte, atteignant ainsi des performances de pointe sur les ensembles de données SparC et CoSQL.

Bingfeng Chen, Shaobin Shi, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao2026-03-09💬 cs.CL

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

Le papier présente MASFactory, un cadre centré sur les graphes pour orchestrer des systèmes multi-agents basés sur les LLM, qui intègre une approche de « Vibe Graphing » permettant de convertir des intentions en langage naturel en graphes exécutables tout en facilitant la réutilisation des composants et l'intégration de contextes hétérogènes.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

Le papier présente ViewFusion, un cadre en deux étapes qui améliore le raisonnement spatial multi-vues en séparant explicitement l'alignement spatial préalable de la réponse aux questions, permettant ainsi aux modèles de vision-langage de mieux exploiter les relations inter-vues et d'obtenir des performances supérieures sur les tâches d'occlusion et de transformation de point de vue.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Cette étude évalue l'efficacité de quatre grands modèles de langage open-weight pour la notation automatisée d'essais allemands de niveau A en Autriche selon une grille d'évaluation, révélant que malgré leur capacité à utiliser des rubriques standardisées, leur faible accord avec les évaluateurs humains (32,8 % pour les notes finales) les rend inadaptés à un usage réel dans l'enseignement.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Cette étude démontre que l'exposition à des textes spécifiques lors du pré-entraînement façonne la personnalité des modèles de langage, révélant un avantage de performance dans le raisonnement complexe pour les modèles aux traits sociaux réduits et établissant ainsi une base pour l'ingénierie de personnalité.

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

DeepSight est le premier modèle multimodal dédié à la compréhension des scènes en 3D qui améliore le raisonnement spatial en exploitant les caractéristiques uniques des cartes de profondeur et en s'appuyant sur un nouveau jeu de données et une architecture de vision modifiée.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Making Implicit Premises Explicit in Logical Understanding of Enthymemes

Cet article propose une pipeline neuro-symbolique intégrant des modèles de langage et un solveur SAT pour identifier les prémisses implicites des énoncés enthymémiques, les traduire en formules logiques et vérifier leur validité, comblant ainsi le fossé entre les méthodes NLP et les approches logiques.

Xuyao Feng, Anthony Hunter2026-03-09🤖 cs.AI

Diffusion Language Models Are Natively Length-Aware

Ce papier propose un mécanisme zéro-shot permettant aux modèles de langage par diffusion d'estimer et de réduire dynamiquement la fenêtre de contexte avant la génération, offrant ainsi des économies de calcul substantielles sans compromettre les performances sur diverses tâches.

Vittorio Rossi, Giacomo Cirò, Davide Beltrame, Luca Gandolfi, Paul Röttger, Dirk Hovy2026-03-09🤖 cs.LG

← Précédent Suivant →