cs.CL articles | Gist.Science

WebDS: An End-to-End Benchmark for Web-based Data Science

Ce papier présente WebDS, le premier benchmark de bout en bout pour la science des données sur le web, qui révèle un écart significatif entre les performances des agents LLM actuels et celles des humains face à des tâches complexes et multimodales nécessitant l'utilisation d'outils variés.

Ethan Hsu, Hong Meng Yam, Ines Bouissou + 9 more2026-03-05🤖 cs.AI

SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection

Le papier présente SEVADE, un cadre d'analyse multi-agents auto-évoluant avec évaluation découplée qui surpasse les méthodes existantes en détection de sarcasme grâce à une architecture séparant le raisonnement complexe du jugement final pour réduire les hallucinations.

Ziqi Liu, Ziyang Zhou, Yilin Li + 4 more2026-03-05💬 cs.CL

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

Ce papier présente ObfusQAte, un cadre novateur conçu pour évaluer la robustesse des modèles de langage face à des questions factuelles obfusquées, révélant ainsi leur tendance à échouer ou à halluciner lorsqu'ils sont confrontés à des variations linguistiques subtiles.

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru + 1 more2026-03-05🤖 cs.AI

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Ce papier présente MultiWikiQA, un nouveau benchmark de compréhension de lecture couvrant 306 langues avec plus d'un million d'échantillons générés à partir de Wikipédia et validés par une évaluation humaine, démontrant ainsi la difficulté de la tâche et les disparités de performance entre les modèles linguistiques.

Dan Saattrup Smart2026-03-05💬 cs.CL

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

Les auteurs proposent un cadre d'élagage léger et préservant l'index qui filtre les régions non informatives des documents avant leur traitement par des modèles vision-langage, réduisant ainsi considérablement les coûts de calcul tout en maintenant une précision comparable.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

Cet article propose StaR, une méthode de raisonnement multimodal qui améliore significativement la fiabilité des agents dans l'exécution de commandes de basculement (toggle) sur les interfaces graphiques en leur permettant de percevoir et de raisonner sur l'état actuel du système.

Zongru Wu, Rui Mao, Zhiyuan Tian + 7 more2026-03-05🤖 cs.AI

Trust Me, I Can Convince You: The Contextualized Argument Appraisal Framework

Cet article propose le cadre d'évaluation argumentative contextualisé (ContArgA), qui intègre des modèles d'apprentissage psychologique pour analyser l'interdépendance entre l'émetteur, le récepteur et l'argument, démontrant via un corpus annoté que la persuasivité dépend fortement des émotions subjectives et de la familiarité perçue par le récepteur.

Lynn Greschner, Sabine Weber, Roman Klinger2026-03-05💬 cs.CL

Non-Collaborative User Simulators for Tool Agents

Cet article propose un nouveau simulateur d'utilisateurs non collaboratifs capable de générer des comportements réalistes et difficiles, révélant ainsi la vulnérabilité des agents d'outils actuels face à ces scénarios et soulignant la nécessité de renforcer leur robustesse.

Jeonghoon Shim, Woojung Song, Cheyon Jin + 2 more2026-03-05💬 cs.CL

Towards Personalized Deep Research: Benchmarks and Evaluations

Cet article présente le PDR-Bench, le premier benchmark évaluant la personnalisation des agents de recherche approfondie grâce à 250 requêtes réalistes et le cadre d'évaluation PQR, comblant ainsi le manque d'évaluations pour les scénarios personnalisés.

Yuan Liang, Jiaxian Li, Yuqing Wang + 11 more2026-03-05🤖 cs.AI

GraphMERT: Efficient and Scalable Distillation of Reliable Knowledge Graphs from Unstructured Data

Le papier présente GraphMERT, un modèle neuronal compact et évolutif capable de distiller des graphes de connaissances fiables, factuels et ontologiquement valides à partir de textes non structurés, surpassant ainsi les grands modèles de langage en termes de précision et de fiabilité pour les applications neurosymboliques.

Margarita Belova, Jiaxin Xiao, Shikhar Tuli + 1 more2026-03-05🤖 cs.AI

The Geometry of Reasoning: Flowing Logics in Representation Space

Cet article propose un cadre géométrique novateur qui modélise le raisonnement des grands modèles de langage comme des flux lisses dans l'espace des représentations, démontrant que l'apprentissage par prédiction de token suffit à internaliser des invariants logiques sous forme de géométrie d'ordre supérieur, indépendamment de l'architecture ou des données d'entraînement.

Yufa Zhou, Yixiao Wang, Xunjian Yin + 2 more2026-03-05🤖 cs.AI

Circuit Insights: Towards Interpretability Beyond Activations

Ce papier présente WeightLens et CircuitLens, deux méthodes complémentaires qui surpassent les approches d'interprétabilité basées sur les activations en analysant directement les poids et les interactions entre composants pour permettre une découverte de circuits mécaniques plus robuste, évolutive et indépendante des données.

Elena Golimblevskaia, Aakriti Jain, Bruno Puri + 3 more2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

Cet article présente COGS, un cadre de synthèse de données ancré sur la composition qui améliore les capacités de raisonnement des modèles de langage multimodaux préentraînés en décomposant et recomposant systématiquement des questions semences pour générer des données synthétiques, permettant ainsi des gains significatifs sur des tâches de raisonnement visuel complexes comme l'analyse de graphiques et de documents web.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

Annotation-Efficient Universal Honesty Alignment

Ce papier propose EliCal, un cadre en deux étapes combinant l'élicitation de la confiance par auto-vérification et un calibrage avec peu d'annotations, pour atteindre une alignement universel sur l'honnêteté des LLMs de manière économe en données, soutenu par le nouveau benchmark HonestyBench.

Shiyu Ni, Keping Bi, Jiafeng Guo + 4 more2026-03-05💬 cs.CL

Citation Failure: Definition, Analysis and Efficient Mitigation

Cette étude propose d'abord le benchmark CITECONTROL pour analyser les défaillances de citation dans les systèmes RAG basés sur les LLM, puis introduit le framework CITENTION, qui intègre des méthodes génératives, d'attention et de récupération pour mitiger efficacement ces échecs.

Jan Buchmann, Iryna Gurevych2026-03-05💬 cs.CL

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

Le cadre REVISION propose une approche hybride combinant un minage de raisonnements hors ligne et une prise de décision en ligne pour identifier les intentions implicites des utilisateurs dans la recherche visuelle sur Taobao, réduisant ainsi significativement le taux de non-clics grâce à des stratégies d'optimisation adaptatives.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI

MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

Ce papier présente MuSaG, le premier jeu de données allemand multimodal pour la détection de l'ironie, qui aligne texte, audio et vidéo avec des annotations humaines et révèle un écart significatif entre les performances des modèles actuels (optimisés pour le texte) et la capacité humaine à exploiter les indices audio.

Aaron Scott, Maike Züfle, Jan Niehues2026-03-05🤖 cs.AI

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

Ce papier présente le protocole de données d'agent (ADP), un langage de représentation léger qui unifie des ensembles de données hétérogènes pour permettre un fine-tuning efficace et performant de modèles d'agents sans nécessiter d'ajustements spécifiques par domaine.

Yueqi Song, Ketan Ramaneti, Zaid Sheikh + 18 more2026-03-05🤖 cs.AI

CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field

Ce papier présente CareMedEval, un nouveau jeu de données dérivé d'examens médicaux français conçu pour évaluer les capacités de raisonnement critique et d'analyse de littérature scientifique des grands modèles de langage, révélant ainsi leurs limites actuelles dans ce domaine spécialisé.

Doria Bonzi, Alexandre Guiggi, Frédéric Béchet + 2 more2026-03-05🤖 cs.AI

Dutch Metaphor Extraction from Cancer Patients' Interviews and Forum Data using LLMs and Human in the Loop

Cet article présente la création du corpus HealthQuote.NL, qui extrait et valide des métaphores utilisées par des patients cancéreux néerlandophones à partir d'entretiens et de forums en combinant des modèles de langage de pointe avec une validation humaine, afin d'améliorer la communication et les soins de santé.

Lifeng Han, David Lindevelt, Sander Puts + 2 more2026-03-05💬 cs.CL

← Précédent Suivant →