cs.CL articles | Gist.Science

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

Ce papier présente MITRA, un assistant IA basé sur la génération augmentée par récupération (RAG) et hébergé localement pour garantir la confidentialité, conçu afin d'aider les chercheurs des collaborations physiques à naviguer efficacement dans la vaste documentation interne en utilisant un pipeline automatisé d'extraction de texte et une architecture de base de données vectorielle à deux niveaux.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Ce papier présente One-Eval, un système agentic automatisé qui transforme les requêtes d'évaluation en langage naturel en flux de travail exécutables et traçables pour simplifier, standardiser et rendre reproductible l'évaluation des grands modèles de langage.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang2026-03-11💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Cette étude propose d'optimiser le traitement des contextes longs dans les frameworks Chain-of-Agents en utilisant des arbres de Chow-Liu pour déterminer un ordre de traitement des chunks basé sur leurs dépendances, réduisant ainsi la perte d'information et surpassant les méthodes d'ordonnancement existantes.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

Cette étude démontre que les modèles de langage dont les prédictions correspondent le mieux aux statistiques des n-grammes simples sont également ceux qui prédisent le plus précisément les temps de lecture, suggérant que ce phénomène est mieux expliqué par des modèles simples que par les statistiques complexes des transformateurs modernes.

James A. Michaelov, Roger P. Levy2026-03-11💬 cs.CL

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Ce papier présente DoWhatISay (DOWIS), un jeu de données multilingue de prompts vocaux et écrits conçu pour évaluer de manière réaliste les modèles de langage audio, révélant que les instructions textuelles surpassent généralement les instructions vocales, sauf pour les tâches dont la sortie est également audio.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues2026-03-11💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Cette étude démontre que sept modèles de langage de pointe, en particulier Claude, surpassent les publicités politiques traditionnelles en matière de persuasion, tout en révélant que l'efficacité des stratégies de prompt dépend fortement du modèle spécifique utilisé.

Zhongren Chen, Joshua Kalla, Quan Le2026-03-11💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Le papier propose MSSR, un cadre de réentraînement adaptatif qui estime la force de mémoire des échantillons et planifie des révisions à intervalles variables pour atténuer l'oubli catastrophique lors du fine-tuning continu des grands modèles de langage, tout en maintenant une adaptation rapide et en surpassant les méthodes existantes.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Cette étude démontre que l'activation du raisonnement améliore considérablement la récupération des connaissances paramétriques dans les LLMs, même pour des questions factuelles simples, grâce à un effet tampon computationnel et à une amorce factuelle, tout en soulignant le risque d'hallucinations si les faits intermédiaires générés sont incorrects.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig2026-03-11💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Ce travail de recherche propose une revue complète du paradigme de fusion de modèles dans l'ère des grands modèles de langage, structurée selon la taxonomie FUSE (Fondations, Stratégies d'Unification, Scénarios et Écosystème) pour analyser les méthodes théoriques et algorithmiques, leurs applications pratiques et les défis futurs.

Mingyang Song, Mao Zheng2026-03-11💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

Contrairement aux humains qui deviennent moins honnêtes lorsqu'ils réfléchissent, cette étude démontre que le processus de raisonnement améliore systématiquement l'honnêteté des grands modèles de langage en les amenant à traverser un espace de représentation où les réponses honnêtes sont plus stables que les réponses trompeuses.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

Ce papier présente CREATE, un nouveau benchmark conçu pour évaluer la capacité des modèles de langage à effectuer un raisonnement associatif créatif en générant des connexions spécifiques et diversifiées entre des concepts, révélant ainsi les limites actuelles des modèles les plus avancés et des techniques de prompting.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett2026-03-11💬 cs.CL

A Survey of Large Language Models

Ce document de synthèse examine les récents progrès des grands modèles de langage (LLM), en se concentrant sur leurs quatre aspects majeurs que sont le pré-entraînement, le réglage par adaptation, l'utilisation et l'évaluation des capacités, tout en présentant les ressources disponibles et en discutant des défis futurs.

Wayne Xin Zhao, Kun Zhou, Junyi Li + 19 more2026-03-10💬 cs.CL

Agent-OM: Leveraging LLM Agents for Ontology Matching

Cet article présente Agent-OM, un nouveau cadre générique exploitant des agents de modèles de langage pour l'appariement d'ontologies, qui démontre des performances compétitives sur des tâches simples et une amélioration significative sur des tâches complexes et en contexte de few-shot par rapport aux systèmes de l'état de l'art.

Zhangcheng Qiang, Weiqing Wang, Kerry Taylor2026-03-10💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

L'article présente Llama-Mob, un modèle de langage Llama-3-8B affiné par instruction qui surpasse les méthodes existantes pour la prédiction de la mobilité humaine à long terme à l'échelle d'une ville et démontre une forte capacité de généralisation zéro-shot.

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru Sezaki2026-03-10💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Ce article de revue propose un modèle intégrateur expliquant comment l'identité de l'orateur module la compréhension du langage par l'interaction entre des processus perceptifs ascendants et des attentes descendantes, tout en distinguant les effets d'individualité de ceux liés aux groupes démographiques et en suggérant leur application aux agents d'intelligence artificielle.

Hanlin Wu, Zhenguang G. Cai2026-03-10💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Ce papier présente le Discrete Key-Value Bottleneck (DKVB), une méthode efficace pour l'apprentissage continu des petits modèles de langage qui atténue l'oubli catastrophique grâce à des mises à jour localisées et une initialisation innovante, tout en réduisant les coûts computationnels.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp2026-03-10💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Ce papier présente HarmonicEval, une métrique d'évaluation automatique sans référence capable d'agréger des scores par critère pour évaluer plusieurs tâches multimodales, et introduit le benchmark MMHE basé sur 18 000 jugements humains pour valider la généralisabilité de cette approche.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Cette étude examine l'impact des priors d'embedding sur le prompt-tuning, révélant que les modèles peuvent fonctionner efficacement dans de nouvelles régions de l'espace d'activation et que la structure de ces espaces varie selon la proximité des tâches, offrant ainsi de nouvelles perspectives pour l'interprétabilité et le contrôle des modèles.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal Kadamba2026-03-10🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Cet article présente un cadre d'ensemble utilisant un seul modèle pour la traduction automatique neuronale, qui améliore la qualité des traductions, notamment pour les paires de langues à ressources limitées, en générant des candidats via une traduction pivot et en les fusionnant postérieurement pour capturer les nuances subtiles de la phrase source.

Seokjin Oh, Keonwoong Noh, Woohwan Jung2026-03-10💬 cs.CL

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

Cette étude présente GRADIEND, une méthode novatrice d'encodage-décodage utilisant les gradients des réseaux de neurones pour identifier et modifier spécifiquement les biais sociétaux (tels que le genre, la race ou la religion) tout en préservant les autres capacités des modèles.

Jonathan Drechsel, Steffen Herbold2026-03-10🤖 cs.LG

← Précédent Suivant →