cs.CL articles | Gist.Science

From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

Cet article présente un pipeline déterministe et automatisé qui transforme des corpus de données brutes en benchmarks de type complétion pour évaluer de manière fiable, peu coûteuse et sans contamination les connaissances spécifiques d'un domaine des grands modèles de langage, sans recourir à d'autres LLM ni à une annotation humaine.

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız2026-03-09💬 cs.CL

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Le papier présente Sysformer, une méthode novatrice qui améliore la sécurité des grands modèles de langage sans modifier leurs paramètres en apprenant à adapter dynamiquement les invites système en fonction des entrées utilisateur, réduisant ainsi considérablement les réponses nocives tout en augmentant la conformité aux demandes sûres.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Ce papier présente VLMQ, un cadre de quantisation post-entraînement spécifiquement conçu pour les modèles vision-langage qui améliore les performances en identifiant et en priorisant les tokens saillants grâce à un facteur d'importance guidé par le gradient, comblant ainsi les lacunes des méthodes existantes face aux particularités des activations VLM.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

Cette étude de cas démontre que, pour la réponse aux questions techniques multilingues à partir d'un manuel agricole, la stratégie RAG hybride surpasse systématiquement le prompting direct des grands modèles de langage à contexte étendu, atteignant une précision supérieure à 85 % avec des modèles comme Gemini 2.5 Flash et Qwen 2.5 7B.

Julius Gun, Timo Oksanen2026-03-09💬 cs.CL

CMRAG: Co-modality-based visual document retrieval and question answering

Le papier propose CMRAG, un cadre de récupération et de génération augmentée (RAG) basé sur la co-modalité qui intègre simultanément le texte et l'image via un modèle d'encodage unifié et une méthode de récupération normalisée, surpassant ainsi les approches mono-modalité dans les tâches de question-réponse sur des documents visuels complexes.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang2026-03-09💬 cs.CL

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

Le papier présente MERLIN, un cadre d'alignement pédagogique en deux étapes qui améliore significativement les capacités de raisonnement multilingue des grands modèles de langage, en particulier pour les langues à ressources limitées, en surpassant les méthodes existantes et même GPT-4o-mini sur des benchmarks comme AfriMGSM.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Ce papier présente la première méta-évaluation complète des métriques de latence pour la traduction simultanée parole-parole, révélant des biais structurels liés au segmentage et proposant de nouvelles solutions (YAAL, LongYAAL et SoftSegmenter) intégrées à la boîte à outils OmniSTEval pour des évaluations plus fiables.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Cet article démontre que les modèles de type « decoder-only » sont initialement moins performants que les modèles « encoder-only » pour l'adaptation aux équations aux dérivées partielles, mais propose deux nouvelles méthodes, le « Parallel Flipping » et le « Sequence Doubling », qui rétablissent leur efficacité en imitant la bidirectionnalité.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

Cette étude démontre que le micro-benchmarking des modèles de langage est souvent peu fiable pour classer des modèles aux performances proches, révélant que des échantillons aléatoires peuvent être aussi efficaces que des méthodes sophistiquées et que des tailles d'échantillons beaucoup plus grandes sont nécessaires pour garantir une évaluation précise.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Cette étude démontre que les états internes des grands modèles de langage reflètent principalement le rappel de connaissances paramétriques plutôt que la véracité des réponses, ce qui rend les méthodes de détection standard inefficaces pour les hallucinations basées sur des associations spurious (AHs) qui partagent des géométries d'états cachés similaires aux faits, contrairement aux hallucinations sans association (UHs) qui présentent des représentations distinctes.

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

Cette présentation d'arXiv propose une approche « Juste-à-Temps » qui infère et optimise en temps réel les objectifs spécifiques de l'utilisateur pour transformer les grands modèles de langage en outils spécialisés, surpassant significativement les interactions LLM standard.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

Cette étude démontre que l'incitation au raisonnement de type « chaîne de pensée » améliore significativement la capacité des grands modèles de langage à traduire des textes comportant des dépendances interphrastiques, en particulier pour les modèles déjà performants qui bénéficient d'un effet « les sages deviennent plus sages ».

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis2026-03-09💬 cs.CL

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Cette étude démontre que le codage des données de communication par ChatGPT est aussi cohérent que celui des évaluateurs humains à travers différents groupes démographiques, validant ainsi son utilisation pour des évaluations à grande échelle.

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Cet article propose des stratégies d'inférence Monte Carlo inspirées de la conception expérimentale bayésienne pour améliorer les capacités d'agents de langage à poser des questions stratégiques et à agir rationnellement dans des tâches d'exploration d'information, leur permettant ainsi de surpasser les humains et les modèles de pointe à faible coût.

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

DETECT: Determining Ease and Textual Clarity of German Text Simplifications

Le papier présente DETECT, la première métrique spécifique à l'allemand pour évaluer la simplification automatique de texte en se basant sur des données synthétiques générées par des modèles de langage, et démontre qu'elle surpasse les métriques existantes en corrélant mieux avec les jugements humains sur la simplicité, la préservation du sens et la fluidité.

Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao2026-03-09💬 cs.CL

AfriMTEB and AfriE5: Benchmarking and Adapting Text Embedding Models for African Languages

Cet article présente AfriMTEB, une nouvelle extension du benchmark MTEB couvrant 59 langues africaines avec des tâches inédites, ainsi qu'AdriE5, un modèle d'embeddings textuels adapté qui dépasse les performances des modèles de référence actuels.

Kosei Uemura, Miaoran Zhang, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

Cet article propose une méthode innovante de pilotage des grands modèles de langage en identifiant des sous-espaces de faible rang et des couches optimales spécifiques aux traits de personnalité du Big Five, permettant ainsi un contrôle stable et précis du comportement du modèle sans compromettre sa fluidité ni ses capacités générales.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Critical Confabulation: Can LLMs Hallucinate for Social Good?

Cet article propose la notion de « confabulation critique », où les hallucinations contrôlées des grands modèles de langage sont utilisées pour combler les lacunes des archives historiques causées par les inégalités sociales et politiques, afin de reconstruire des récits plausibles pour les figures oubliées de l'histoire sans sacrifier la rigueur factuelle.

Peiqi Sui, Eamon Duede, Hoyt Long, Richard Jean So2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

Ce papier présente Co-Layout, un cadre novateur combinant des modèles de langage et une programmation en nombres entiers sur grille pour optimiser conjointement la disposition des pièces et le placement des meubles, surpassant les méthodes existantes grâce à une stratégie d'optimisation de grossier à fin.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

Le papier propose SPINE, une méthode d'apprentissage par renforcement à l'inférence qui améliore la stabilité et les performances des modèles de raisonnement en sélectionnant sélectivement les tokens critiques pour les mises à jour et en appliquant une régularisation par bande d'entropie, évitant ainsi l'effondrement des réponses sans nécessiter d'étiquettes ni de modèles de récompense.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

← Précédent Suivant →