cs.CL articles | Gist.Science

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

Ce papier présente le protocole de données d'agent (ADP), un langage de représentation léger qui unifie des ensembles de données hétérogènes pour permettre un fine-tuning efficace et performant de modèles d'agents sans nécessiter d'ajustements spécifiques par domaine.

Yueqi Song, Ketan Ramaneti, Zaid Sheikh + 18 more2026-03-05🤖 cs.AI

CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field

Ce papier présente CareMedEval, un nouveau jeu de données dérivé d'examens médicaux français conçu pour évaluer les capacités de raisonnement critique et d'analyse de littérature scientifique des grands modèles de langage, révélant ainsi leurs limites actuelles dans ce domaine spécialisé.

Doria Bonzi, Alexandre Guiggi, Frédéric Béchet + 2 more2026-03-05🤖 cs.AI

Dutch Metaphor Extraction from Cancer Patients' Interviews and Forum Data using LLMs and Human in the Loop

Cet article présente la création du corpus HealthQuote.NL, qui extrait et valide des métaphores utilisées par des patients cancéreux néerlandophones à partir d'entretiens et de forums en combinant des modèles de langage de pointe avec une validation humaine, afin d'améliorer la communication et les soins de santé.

Lifeng Han, David Lindevelt, Sander Puts + 2 more2026-03-05💬 cs.CL

Categorical Emotions or Appraisals - Which Emotion Model Explains Argument Convincingness Better?

En se basant sur le corpus ContArgA, cette étude démontre que les théories d'évaluation (appraisals) surpassent les modèles d'émotions catégorielles pour prédire la force persuasive d'un argument, car elles capturent mieux la subjectivité de l'évaluation cognitive du destinataire.

Lynn Greschner, Meike Bauer, Sabine Weber + 1 more2026-03-05💬 cs.CL

Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque

Cet article présente le développement d'un modèle de langage multimodal performant pour le basque en démontrant qu'un faible pourcentage de données multimodales suffit pour obtenir de bons résultats et qu'un modèle de langage de base déjà adapté au basque n'est pas nécessaire.

Lukas Arana, Julen Etxaniz, Ander Salaberria + 1 more2026-03-05🤖 cs.AI

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

Le papier présente Dripper, un cadre léger basé sur des modèles de langage de petite taille qui reformule l'extraction de contenu principal comme une tâche d'étiquetage de séquence contrainte, offrant ainsi un compromis optimal entre efficacité et précision tout en surpassant les méthodes heuristiques et rivalisant avec des modèles massifs.

Mengjie Liu, Jiahui Peng, Wenchang Ning + 14 more2026-03-05💬 cs.CL

What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models

Cette étude explore les origines des biais de genre dans les modèles de traduction automatique en identifiant, via des explications contrastives, quels mots source déclenchent des inflexions de genre spécifiques et en démontrant une corrélation entre ces attributions du modèle et les perceptions humaines.

Janiça Hackenbuchner, Arda Tezcan, Joke Daems2026-03-05💬 cs.CL

NRR-Core: Non-Resolution Reasoning as a Computational Framework for Contextual Identity and Ambiguity Preservation

Le papier propose NRR-Core, un cadre de raisonnement non résolutif qui préserve l'ambiguïté et l'identité contextuelle en remplaçant l'effondrement sémantique prématuré des systèmes d'IA actuels par la coexistence d'interprétations multiples via des principes de non-identité et d'identité approximative.

Kei Saito2026-03-05🤖 cs.AI

A Systematic Analysis of Biases in Large Language Models

Cette étude analyse systématiquement les biais politiques, idéologiques, géopolitiques, linguistiques et de genre présents dans quatre grands modèles de langage, révélant que malgré leur alignement visant la neutralité, ils conservent des inclinaisons et des affinités variées.

Xulang Zhang, Rui Mao, Erik Cambria2026-03-05🤖 cs.AI

Generalization of RLVR Using Causal Reasoning as a Testbed

Cette étude démontre que l'apprentissage par renforcement avec récompenses vérifiables (RLVR) améliore la généralisation des modèles de langage aux tâches de raisonnement causal, à condition que le modèle possède une compétence initiale suffisante et que la taille du modèle et le niveau de difficulté des requêtes d'entraînement soient adaptés.

Brian Lu, Hongyu Zhao, Shuo Sun + 3 more2026-03-05🤖 cs.AI

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Ce papier présente DevRev-Search, un benchmark de recherche technique construit automatiquement, et propose une stratégie d'adaptation préservant l'index qui affine uniquement l'encodeur de requête pour améliorer la pertinence dans les systèmes multi-locataires sans nécessiter de réindexation coûteuse.

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI

Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning

Cet article propose une méthode d'apprentissage post-entraînement où les graphes de connaissances servent de modèles de récompense implicites pour guider les grands modèles de langage vers un raisonnement compositionnel, leur permettant de surpasser des systèmes frontier dans des tâches médicales complexes grâce à une généralisation zéro-shot.

Yuval Kansal, Niraj K. Jha2026-03-05✓ Author reviewed ⓘ🤖 cs.AI

NRR-Phi: Text-to-State Mapping for Ambiguity Preservation in LLM Inference

Le papier présente NRR-Phi, un cadre formel de mappage texte-état qui transforme le langage naturel en un espace d'états non-collapsant préservant les multiples interprétations ambiguës grâce à une pipeline hybride de détection de conflits et d'extraction, comblant ainsi le lien algorithmique manquant entre le texte et l'espace d'états du Raisonnement Non-Résolutif (NRR) pour retarder l'effondrement sémantique prématuré des grands modèles de langage.

Kei Saito2026-03-05🤖 cs.AI

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Cette étude présente la première analyse empirique de l'apprentissage de l'abstention chez les grands modèles de langage pour le questionnement temporel, démontrant qu'un pipeline combinant la supervision par chaîne de pensée et l'apprentissage par renforcement permet de surpasser les modèles de pointe comme GPT-4o tout en améliorant significativement la fiabilité sur les questions non répondables.

Xinyu Zhou, Chang Jin, Carsten Eickhoff + 2 more2026-03-05🤖 cs.AI

Rewards as Labels: Revisiting RLVR from a Classification Perspective

Cet article propose REAL, un cadre novateur qui reformule l'apprentissage par renforcement avec récompenses vérifiables comme un problème de classification pour corriger les biais de gradient des méthodes existantes et améliorer significativement les performances des modèles de langage dans le raisonnement mathématique.

Zepeng Zhai, Meilin Chen, Jiaxuan Zhao + 3 more2026-03-05🤖 cs.LG

Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding

Le papier présente SureLock, une méthode qui accélère le décodage des modèles de diffusion masqués en verrouillant les positions de tokens convergées pour éviter les recalculs inutiles, réduisant ainsi la complexité computationnelle de 30 à 50 % sans compromettre la qualité de génération.

Daisuke Oba, Danushka Bollegala, Masahiro Kaneko + 1 more2026-03-05🤖 cs.LG

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

Cette étude révèle que les modèles de raisonnement avancés n'améliorent pas systématiquement les performances dans les tâches de théorie de l'esprit, et peuvent même y échouer en raison d'une dépendance aux raccourcis de correspondance d'options et d'une inefficacité du raisonnement prolongé, soulignant ainsi la nécessité de développer des capacités spécifiques au-delà des méthodes de raisonnement actuelles.

Nanxu Gong, Haotian Li, Sixun Dong + 3 more2026-03-05🤖 cs.AI

Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

Cette étude pionnière en traitement automatique des langues présente le premier jeu de données numérique pour le dialecte de Mayence (Meenzerisch) et démontre que les grands modèles de langage actuels échouent à le comprendre ou à le générer avec précision, soulignant ainsi l'urgence de développer davantage de ressources pour la préservation des dialectes allemands.

Minh Duc Bui, Manuel Mager, Peter Herbert Kann + 1 more2026-03-05💬 cs.CL

Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks

Cet article présente un nouveau jeu de données tchèque enrichi en termes d'opinion pour l'analyse de sentiment basée sur les aspects dans le domaine de la restauration, accompagné d'une évaluation approfondie de modèles de langage et d'une méthode de traduction et d'alignement des étiquettes pour surmonter les défis des langues à ressources limitées.

Jakub Šmíd, Pavel Přibáň, Pavel Král2026-03-05💬 cs.CL

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Cette étude démontre que, pour le déploiement clinique en ressources limitées, Llama 3.2 3B offre le meilleur équilibre entre précision et fiabilité, tout en révélant que les modèles à faible coût peuvent être constamment erronés et que l'entraînement de domaine seul ne suffit pas sans instruction.

Shravani Hariprasad2026-03-05🤖 cs.AI

← Précédent Suivant →