cs.CL articles | Gist.Science

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

Cet article présente DEBISS, un nouveau corpus de débats individuels, semi-structurés et oraux enrichi d'annotations variées pour des tâches de TAL telles que la transcription, la diérèse, l'extraction d'arguments et l'évaluation de la qualité des débats.

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo + 1 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Cet article présente NCTB-QA, un nouveau jeu de données à grande échelle en langue bengalie issu de manuels scolaires, qui intègre une distribution équilibrée de questions répondables et non répondables pour évaluer et améliorer les performances des modèles de compréhension de texte dans les contextes à ressources limitées.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Ce papier propose INTRA, une méthode de vérification des faits sans recours à la recherche externe qui exploite les représentations internes des grands modèles de langage pour atteindre des performances de pointe et une forte généralisation sur des connaissances rares, multilingues et de longue portée.

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Cette étude révèle que les modèles de raisonnement peuvent manifester un « théâtre de raisonnement » performant, mais que le sondage des activations permet de détecter les véritables changements de croyance et d'arrêter la génération de tokens bien plus tôt, réduisant ainsi considérablement le coût computationnel sans sacrifier la précision.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Cette étude utilise des modèles de langage chinois censurés comme banc d'essai naturel pour évaluer des techniques d'élicitation de l'honnêteté et de détection de mensonges, démontrant que certaines méthodes augmentent les réponses véridiques et se transfèrent à d'autres modèles, bien qu'aucune ne supprime totalement les fausses réponses.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Cette étude démontre que les activations massives et les puits d'attention, bien que souvent co-occurrents dans les Transformers pré-normés en raison d'un artefact architectural, remplissent des fonctions distinctes en agissant respectivement comme des paramètres implicites globaux et des modulateurs locaux des dépendances à court terme.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

Le papier présente POET-X, une variante économe en mémoire et efficace du cadre POET pour l'entraînement des grands modèles de langage, qui permet de préentraîner des modèles à plusieurs milliards de paramètres sur un seul GPU Nvidia H100 là où les optimiseurs standards échouent par manque de mémoire.

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Cet article propose une méthode innovante pour la segmentation d'instances camouflées à vocabulaire ouvert, qui exploite les modèles de diffusion texte--image pour apprendre des représentations visuelles et textuelles multi-échelles afin de surmonter le défi du masquage des objets dans leur environnement.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

RAEE: A Robust Retrieval-Augmented Early Exit Framework for Efficient Inference

Ce papier présente RAEE, un cadre robuste d'arrêt anticipé augmenté par la récupération qui améliore l'efficacité de l'inférence des grands modèles de langage en guidant l'arrêt des couches intermédiaires à l'aide d'informations extraites de données similaires, permettant ainsi d'accélérer le processus tout en maintenant des performances zéro-shot élevées sur diverses tâches.

Lianming Huang, Shangyu Wu, Yufei Cui + 6 more2026-03-05💬 cs.CL

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Cette recherche propose un système innovant de traitement de requêtes sémantiques qui combine des modèles de langage de grande taille (LLM) et le graphe de connaissances scientifiques de l'ANU (ASKG), enrichi par un modèle de document profond (DDM) et une fusion automatique LLM-SPARQL, afin d'améliorer la précision et l'efficacité de l'extraction d'informations sur les travaux de recherche en informatique.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

Cette étude démontre que l'altération des données d'entraînement des modèles de langage permet de confirmer que l'apprentissage des exceptions à la passivation en anglais repose sur deux sources d'induction indépendantes : la fréquence d'usage (enracinement) et la sémantique (notamment l'affectedness).

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL

LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

Ce papier présente LMUnit, une approche d'évaluation des modèles de langage qui utilise des tests unitaires en langage naturel et un modèle de notation unifié pour surmonter les limites des méthodes actuelles, améliorant ainsi la fiabilité et l'efficacité des flux de travail de développement.

Jon Saad-Falcon, Rajan Vivek, William Berrios + 6 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

Cette étude révèle et caractérise le phénomène de « fuite de préférences », une forme de contamination systémique où les modèles de langage utilisés comme juges présentent un biais envers les modèles qu'ils ont générés ou qui leur sont apparentés, compromettant ainsi la fiabilité des évaluations et de la synthèse de données.

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI

OSCAR: Online Soft Compression And Reranking

Le papier présente OSCAR, une méthode innovante de compression douce en ligne et de reranking qui réduit considérablement la charge computationnelle des pipelines RAG tout en préservant leur précision, offrant ainsi une accélération de 2 à 5 fois sans perte de performance pour les modèles de langage de 1 à 24 milliards de paramètres.

Maxime Louis, Thibault Formal, Hervé Dejean + 1 more2026-03-05🤖 cs.AI

Generating Fine Details of Entity Interactions

Ce papier propose un nouveau jeu de données axé sur les interactions et une méthode d'affinement par décomposition assistée par des modèles de langage multimodaux pour améliorer la génération d'images text-to-image riches en interactions complexes entre objets.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

Cet article présente N2M-RSI, un modèle formel minimal démontrant que, dès qu'un agent IA intègre ses propres sorties comme données d'entraînement au-delà d'un seuil d'intégration informationnelle, sa complexité interne croît sans limite, un phénomène qui s'amplifie dans des essaims d'agents communicants.

Rintaro Ando2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Cette étude présente PubHealthBench, un nouveau benchmark de plus de 8000 questions évaluant la connaissance des modèles de langage (LLM) sur les informations de santé publique du Royaume-Uni, révélant que bien que les modèles propriétaires les plus récents surpassent les humains en questions à choix multiples, leurs performances en réponses libres nécessitent encore des garde-fous supplémentaires.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Ce papier propose MoB, une méthode de pruning de tokens visuels fondée sur la théorie du recouvrement et une formulation bi-objectif, qui résout le compromis inhérent entre l'alignement et la préservation visuelle pour offrir une accélération significative des modèles multimodaux avec une perte de performance négligeable.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Le papier présente R1-Code-Interpreter, un modèle de langage entraîné via un apprentissage par renforcement multi-étapes et un curriculum adaptatif pour maîtriser l'utilisation autonome d'interpréteurs de code sur des tâches variées, surpassant ainsi les performances de GPT-4o avec une précision accrue et des capacités d'auto-vérification émergentes.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Cet article propose la « Supervised Calibration », un cadre unificateur basé sur la minimisation de la perte qui améliore l'apprentissage en contexte des grands modèles de langage en apprenant des transformations affines optimales pour corriger les biais et réorienter les frontières de décision, surpassant ainsi les méthodes de calibration existantes sur plusieurs modèles et jeux de données.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

← Précédent Suivant →