ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Le papier présente ReflexiCoder, un cadre d'apprentissage par renforcement qui intègre des capacités intrinsèques d'autoréflexion et d'autocorrection dans les poids des modèles de langage, leur permettant d'atteindre des performances de pointe sur des tâches de codage complexes sans dépendre de retours externes ou d'exécution de code lors de l'inférence.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Cet article présente ConStory-Bench, un benchmark et un outil d'évaluation automatisée conçus pour identifier et analyser les incohérences narratives dans les histoires longues générées par les grands modèles de langage, révélant que ces erreurs sont fréquentes dans les dimensions factuelles et temporelles et tendent à survenir au milieu des récits.

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie2026-03-09🤖 cs.AI

InfoGatherer: Principled Information Seeking via Evidence Retrieval and Strategic Questioning

Le papier présente InfoGatherer, un cadre innovant qui améliore la prise de décision dans des domaines critiques comme le juridique et la médical en combinant la recherche de documents et des questions stratégiques auprès de l'utilisateur, tout en modélisant l'incertitude de manière rigoureuse grâce à la théorie de l'évidence de Dempster-Shafer pour éviter les réponses prématurées et non fiables.

Maksym Taranukhin, Shuyue Stella Li, Evangelos Milios, Geoff Pleiss, Yulia Tsvetkov, Vered Shwartz2026-03-09💬 cs.CL

Learning Next Action Predictors from Human-Computer Interaction

Ce papier présente LongNAP, un modèle d'apprentissage qui prédit les prochaines actions des utilisateurs en analysant leur historique d'interactions multimodales à long terme, surpassant significativement les méthodes existantes grâce à une combinaison d'apprentissage par renforcement et d'apprentissage en contexte.

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang2026-03-09💬 cs.CL

Addressing the Ecological Fallacy in Larger LMs with Human Context

Cette étude démontre que modéliser le contexte linguistique de l'auteur, via des méthodes comme HuLM et HuFT, permet de corriger la fallace écologique et d'améliorer significativement les performances d'un grand modèle de langage (8B Llama) sur diverses tâches, même sans réentraînement complet.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

Cet article propose un cadre de réécriture de style structuré combinant une désambiguïsation explicite des dimensions stylistiques et un conditionnement implicite par distillation de chaînes de pensée, permettant aux petits modèles de langage de générer des personnages stylisés avec une fidélité supérieure à celle de modèles plus grands, même en contexte de données limitées.

Chanhui Zhu2026-03-09🤖 cs.LG

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

En s'appuyant sur des théories psychologiques interactionnistes et constructivistes, cette étude développe des modèles interprétables qui intègrent des traits individuels et des contextes situationnels déduits du langage pour prédire le bien-être mental, démontrant que les caractéristiques théoriques offrent une performance compétitive et une meilleure interprétabilité par rapport aux embeddings de grands modèles de langage.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

Le papier présente Track-SQL, un cadre qui améliore les modèles de langage génératifs pour le texte-vers-SQL multi-tours grâce à des modules extractifs duals pour le suivi du schéma et du contexte, atteignant ainsi des performances de pointe sur les ensembles de données SparC et CoSQL.

Bingfeng Chen, Shaobin Shi, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao2026-03-09💬 cs.CL

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

Le papier présente MASFactory, un cadre centré sur les graphes pour orchestrer des systèmes multi-agents basés sur les LLM, qui intègre une approche de « Vibe Graphing » permettant de convertir des intentions en langage naturel en graphes exécutables tout en facilitant la réutilisation des composants et l'intégration de contextes hétérogènes.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

Le papier présente ViewFusion, un cadre en deux étapes qui améliore le raisonnement spatial multi-vues en séparant explicitement l'alignement spatial préalable de la réponse aux questions, permettant ainsi aux modèles de vision-langage de mieux exploiter les relations inter-vues et d'obtenir des performances supérieures sur les tâches d'occlusion et de transformation de point de vue.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Cette étude évalue l'efficacité de quatre grands modèles de langage open-weight pour la notation automatisée d'essais allemands de niveau A en Autriche selon une grille d'évaluation, révélant que malgré leur capacité à utiliser des rubriques standardisées, leur faible accord avec les évaluateurs humains (32,8 % pour les notes finales) les rend inadaptés à un usage réel dans l'enseignement.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI