cs.CL articles | Gist.Science

Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

Cette étude pionnière en traitement automatique des langues présente le premier jeu de données numérique pour le dialecte de Mayence (Meenzerisch) et démontre que les grands modèles de langage actuels échouent à le comprendre ou à le générer avec précision, soulignant ainsi l'urgence de développer davantage de ressources pour la préservation des dialectes allemands.

Minh Duc Bui, Manuel Mager, Peter Herbert Kann + 1 more2026-03-05💬 cs.CL

Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks

Cet article présente un nouveau jeu de données tchèque enrichi en termes d'opinion pour l'analyse de sentiment basée sur les aspects dans le domaine de la restauration, accompagné d'une évaluation approfondie de modèles de langage et d'une méthode de traduction et d'alignement des étiquettes pour surmonter les défis des langues à ressources limitées.

Jakub Šmíd, Pavel Přibáň, Pavel Král2026-03-05💬 cs.CL

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Cette étude démontre que, pour le déploiement clinique en ressources limitées, Llama 3.2 3B offre le meilleur équilibre entre précision et fiabilité, tout en révélant que les modèles à faible coût peuvent être constamment erronés et que l'entraînement de domaine seul ne suffit pas sans instruction.

Shravani Hariprasad2026-03-05🤖 cs.AI

A Study on Building Efficient Zero-Shot Relation Extraction Models

Cette étude évalue la robustesse des modèles d'extraction de relations en zéro-shot face à des scénarios réalistes, en proposant une typologie et des stratégies pour améliorer leur efficacité, tout en démontrant que l'approche AlignRE surpasse les autres méthodes existantes.

Hugo Thomas, Caio Corro, Guillaume Gravier + 1 more2026-03-05💬 cs.CL

Extracting Training Dialogue Data from Large Language Model based Task Bots

Cet article présente une étude quantitative systématique révélant que les modèles de dialogue basés sur les grands modèles de langage (LLM) mémorisent et exposent des données d'entraînement sensibles, et propose de nouvelles techniques d'attaque efficaces pour extraire ces données tout en identifiant des stratégies de mitigation.

Shuo Zhang, Junzhou Zhao, Junji Hou + 3 more2026-03-05🤖 cs.AI

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

Cet article présente un cadre d'annotation de graphes narratifs intégrant l'analyse qualitative de contenu pour améliorer la qualité des annotations, et évalue l'impact de différentes représentations et métriques sur l'accord inter-annotateurs via une expérience factorielle sur des récits d'inflation.

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

Ce chapitre examine l'état actuel des détecteurs de textes générés par l'IA, propose des directives pour leur utilisation responsable et évalue empiriquement leur capacité à généraliser la détection entre différents grands modèles de langage (LLM) afin d'orienter leur développement pratique.

Jiangang Hao2026-03-05💬 cs.CL

LaTeX Compilation: Challenges in the Era of LLMs

Cet article critique les limitations de TeX à l'ère des modèles de langage et propose Mogan STEM, un éditeur structuré WYSIWYG qui surpasse TeX en efficacité, en localisation des erreurs et en optimisation pour l'entraînement de LLMs grâce à son format .tmu à faible entropie.

Tianyou Liu, Ziqiang Li, Xurui Liu + 1 more2026-03-05💬 cs.CL

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Cet article propose un cadre de collaboration multi-agents inspiré du processus cognitif humain « proposer-évaluer-réviser » pour améliorer l'extraction d'arguments d'événements au niveau du document en configuration zéro-shot, en générant et en optimisant itérativement des données synthétiques via un apprentissage par renforcement afin de surmonter les limites des méthodes existantes.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Ce papier présente Code2Math, un cadre multi-agents qui utilise l'exécution de code pour faire évoluer automatiquement des problèmes mathématiques existants en variantes plus complexes et solubles, offrant ainsi une solution scalable à la pénurie de défis mathématiques de haut niveau pour l'entraînement des modèles de langage.

Dadi Guo, Yuejin Xie, Qingyu Liu + 7 more2026-03-05💬 cs.CL

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

AriadneMem est un système de mémoire structuré pour les agents LLM qui améliore la précision des réponses multi-sauts et la gestion des mises à jour d'état tout en réduisant considérablement le temps d'exécution et l'utilisation du contexte, grâce à une approche en deux phases combinant filtrage, coalescence conflictuelle et découverte algorithmique de liens dans un graphe.

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models

Cette étude révèle la persistance et l'émergence de divers biais dans les modèles de récompense, puis propose une méthode de façonnage de récompense mécaniste simple et extensible pour atténuer ces biais sans dégrader la qualité globale.

Daniel Fein, Max Lamparth, Violet Xiang + 2 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

Ce papier présente MA-RAG, un cadre d'inférence agentic multi-tours qui améliore le raisonnement médical en transformant les conflits sémantiques en requêtes de recherche itératives pour atteindre un consensus de haute fidélité, surpassant ainsi les méthodes existantes de +6,8 points de précision en moyenne.

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

Cet article présente SE-Search, un agent de recherche autonome qui améliore les performances des modèles de langage en combinant une purification de la mémoire, un entraînement par requêtes atomiques et des récompenses denses pour optimiser le processus de recherche et réduire les erreurs factuelles.

Jian Li, Yizhang Jin, Dongqi Liu + 9 more2026-03-05💬 cs.CL

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Cette étude présente une architecture hybride de modèles de langage, combinant un fine-tuning supervisé sur des faits agricoles vérifiés et une couche d'adaptation culturelle, qui améliore la fiabilité, la sécurité et le rapport coût-efficacité des systèmes d'avis agricoles pour les petits exploitants, tout en introduisant un cadre d'évaluation rigoureux et une bibliothèque de prompts open source.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

Cette étude révèle que, contrairement à l'exploration diversifiée des humains, les grands modèles de langage actuels divergent considérablement dans la sélection de leurs objectifs en privilégiant l'exploitation de solutions uniques ou affichant de faibles performances, ce qui remet en cause leur fiabilité en tant que substituts aux préférences humaines dans des tâches ouvertes.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

Le papier présente PlugMem, un module de mémoire plugin indépendant des tâches qui améliore les agents LLM en structurant les souvenirs épisodiques sous forme d'un graphe de connaissances compact et orienté vers la décision, surpassant ainsi les approches existantes en termes d'efficacité et de densité d'information sur divers benchmarks.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

Ce papier présente TTSR, un cadre d'entraînement auto-évolutif au moment du test qui améliore continuellement le raisonnement des grands modèles de langage en faisant alterner un même modèle pré-entraîné entre les rôles d'élève résolvant des problèmes et de professeur analysant les échecs pour générer des questions ciblées.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

Le papier présente TATRA, une méthode d'ingénierie de prompt sans entraînement qui génère dynamiquement des exemples few-shot adaptés à chaque instance, surpassant ainsi les approches d'optimisation coûteuses et dépendantes de données sur des tâches de classification et de raisonnement mathématique.

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Cette étude audite la fabrication de références par dix grands modèles de langage dans quatre domaines académiques, révélant des taux d'hallucination variables et démontrant que la vérification par consensus multi-modèles ou la répétition dans l'invite, ainsi qu'un classifieur léger basé sur les caractéristiques bibliographiques, constituent des méthodes efficaces pour détecter les citations fantômes sans requérir de bases de données externes.

MZ Naser2026-03-05💬 cs.CL

← Précédent Suivant →