cs.CL articles | Gist.Science

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Le papier présente BeyondBench, un cadre d'évaluation résistant à la contamination qui génère dynamiquement des problèmes algorithmiques pour mesurer le véritable raisonnement des modèles de langage, révélant ainsi des déficiences significatives dans leur capacité à résoudre des tâches complexes sans outils externes.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

Cette étude présente une méthode novatrice permettant l'entraînement stable et précis de grands modèles de langage en format NVFP4 à l'aide de transformations de Hadamard aléatoires et d'autres techniques, démontrant que cette approche atteint des performances comparables à la précision FP8 tout en réduisant considérablement les coûts de calcul.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

Ce papier présente PrefDisco, une nouvelle méthode d'évaluation et une métrique de préférence (PrefAlign) conçues pour mesurer la capacité des modèles de langage à adapter leur raisonnement aux préférences individuelles des utilisateurs dans des scénarios interactifs, révélant ainsi la nécessité d'un développement dédié pour une personnalisation proactive efficace.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Le papier présente Graph2Eval, un cadre piloté par les graphes de connaissances qui génère automatiquement des tâches multimodales fiables et évolutives pour évaluer les agents, en surmontant les limites des jeux de données statiques et les problèmes d'incohérence sémantique des méthodes basées sur les LLM.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

Ce papier propose GMT, une nouvelle approche qui remplace la simple concaténation de préfixes par un mécanisme d'attention croisée profonde intégrant une mémoire graphique explicite dans les LLM pour améliorer la complétion de graphes de connaissances.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

Detecting Hallucinations in Authentic LLM-Human Interactions

Ce papier présente AuthenHallu, le premier benchmark de détection d'hallucinations entièrement construit à partir d'interactions authentiques entre humains et LLM, révélant un taux d'hallucinations significatif (31,4 % en moyenne, atteignant 60 % dans des domaines complexes) et démontrant les limites actuelles des modèles de langage à détecter ces erreurs dans des scénarios réels.

Yujie Ren, Niklas Gruhlke, Anne Lauscher2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

Cette étude démontre que le fine-tuning sur des domaines restreints laisse des traces lisibles dans les activations des grands modèles de langage, permettant d'identifier le domaine d'entraînement et d'améliorer l'interprétabilité, tout en avertissant que ces biais, liés au surapprentissage, peuvent fausser les recherches sur la sécurité et l'alignement si l'on utilise ces modèles comme proxy pour des ajustements plus larges.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Ce papier présente Grasp Any Region (GAR), un modèle d'IA multimodale qui améliore la compréhension visuelle des régions en intégrant des contextes globaux et en modélisant les interactions entre plusieurs zones, permettant ainsi un raisonnement compositionnel avancé et surpassant les modèles existants sur des benchmarks spécialisés.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

Le papier présente EchoMind, le premier benchmark multi-niveaux interconnecté évaluant la capacité des modèles de langage parlés à intégrer les indices vocaux non lexicaux avec le contenu linguistique pour générer des réponses empathiques, révélant ainsi que les modèles actuels peinent à maîtriser cette complexité.

Li Zhou, Lutong Yu, You Lyu + 6 more2026-03-06💻 cs

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Cet article présente l'Open Korean Historical Corpus, un ensemble de données ouvert et à grande échelle couvrant 1 300 ans d'évolution linguistique coréenne, qui permet d'analyser quantitativement les transitions scripturales majeures et les divergences lexicales tout en servant de corpus d'entraînement pour les modèles de langage.

Seyoung Song, Nawon Kim, Songeun Chae + 5 more2026-03-06💻 cs

Steering Awareness: Models Can Be Trained to Detect Activation Steering

Cette étude démontre que les modèles de langage peuvent être entraînés à détecter avec une grande précision l'injection de vecteurs de guidage, remettant ainsi en cause la fiabilité des évaluations de sécurité basées sur cette technique tout en révélant que cette capacité de détection n'améliore pas la robustesse comportementale des modèles.

Joshua Fonseca Rivera, David Demitri Africa2026-03-06💻 cs

Think-While-Generating: On-the-Fly Reasoning for Personalized Long-Form Generation

Le papier propose FlyThinker, un cadre efficace de « réflexion pendant la génération » qui utilise un modèle de raisonnement parallèle pour guider dynamiquement la génération de réponses longues et personnalisées, surmontant ainsi les limites des méthodes statiques tout en préservant l'efficacité de l'entraînement et de l'inférence.

Chengbing Wang, Yang Zhang, Wenjie Wang + 4 more2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Le papier présente ReFusion, un modèle de diffusion masqué innovant qui combine le réordonnancement de séquences et le cadre d'attention causale pour permettre un décodage parallèle efficace avec mise en cache KV, surmontant ainsi les limitations de vitesse et de cohérence des modèles de diffusion existants tout en rivalisant avec les modèles autoregressifs.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

RePo: Language Models with Context Re-Positioning

En s'inspirant de la théorie de la charge cognitive, le papier présente RePo, une nouvelle méthode qui améliore l'apprentissage en contexte des grands modèles de langage en réaffectant dynamiquement les positions des tokens pour réduire la charge cognitive extrinsèque et optimiser l'attention sur les informations pertinentes, même dans des contextes bruyants ou longs.

Huayang Li, Tianyu Zhao, Deng Cai + 1 more2026-03-06💻 cs

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

Ce papier présente MCP-SafetyBench, un benchmark exhaustif basé sur des serveurs MCP réels qui évalue la vulnérabilité des modèles de langage face à de nouvelles attaques dans des scénarios multi-étapes et révèle le compromis sécurité-utilité inhérent à ces systèmes agentic.

Xuanjun Zong, Zhiqi Shen, Lei Wang + 2 more2026-03-06💻 cs

From Word to World: Can Large Language Models be Implicit Text-based World Models?

Cette étude propose un cadre d'évaluation à trois niveaux pour déterminer dans quelles conditions les grands modèles de langage peuvent servir de modèles du monde textuels fiables, démontrant qu'ils améliorent l'apprentissage des agents par la génération de trajectoires et la vérification d'actions, tout en soulignant que ces bénéfices dépendent crucialement de la couverture comportementale et de la complexité de l'environnement.

Yixia Li, Hongru Wang, Jiahao Qiu + 7 more2026-03-06💻 cs

Parallel Token Prediction for Language Models

Ce papier propose le cadre général de prédiction de tokens parallèles (PTP), qui accélère le décodage des modèles de langage en rendant les futurs tokens déterministes via des variables d'entrée aléatoires, permettant ainsi de générer plusieurs tokens en une seule passe et d'obtenir un gain de vitesse de 2,4 fois.

Felix Draxler, Justus Will, Farrin Marouf Sofian + 3 more2026-03-06💻 cs

When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

Cette étude démontre que l'ajout de planification et d'outils externes aux grands modèles de langage améliore significativement la précision sur des tâches de raisonnement complexe comme la réponse aux questions événementielles, mais au prix d'une latence accrue et sans bénéfice systématique pour des tâches comme la persuasion, soulignant ainsi la nécessité de choix stratégiques adaptés au coût et à la nature de la tâche.

Subha Ghoshal, Ali Al-Bustami2026-03-06💻 cs

Identifying Good and Bad Neurons for Task-Level Controllable LLMs

Le papier présente NeuronLLM, un cadre novateur qui identifie les « bons » et « mauvais » neurones des grands modèles de langage en adoptant le principe biologique d'antagonisme fonctionnel et en utilisant l'apprentissage contrastif pour améliorer la contrôlabilité des tâches.

Wenjie Li, Guansong Pang, Hezhe Qiao + 2 more2026-03-06💻 cs

F-Actor: Controllable Conversational Behaviour in Full-Duplex Models

Ce papier présente F-Actor, le premier modèle de parole conversationnelle en duplex intégral open-source et suivant des instructions, capable d'adapter dynamiquement son comportement (comme les interruptions ou les encouragements) et sa voix grâce à un entraînement efficace sur 2 000 heures de données sans préentraînement à grande échelle.

Maike Züfle, Ondrej Klejch, Nicholas Sanders + 3 more2026-03-06💻 cs

← Précédent Suivant →