cs.CL articles | Gist.Science

OSCAR: Online Soft Compression And Reranking

Le papier présente OSCAR, une méthode innovante de compression douce en ligne et de reranking qui réduit considérablement la charge computationnelle des pipelines RAG tout en préservant leur précision, offrant ainsi une accélération de 2 à 5 fois sans perte de performance pour les modèles de langage de 1 à 24 milliards de paramètres.

Maxime Louis, Thibault Formal, Hervé Dejean + 1 more2026-03-05🤖 cs.AI

Generating Fine Details of Entity Interactions

Ce papier propose un nouveau jeu de données axé sur les interactions et une méthode d'affinement par décomposition assistée par des modèles de langage multimodaux pour améliorer la génération d'images text-to-image riches en interactions complexes entre objets.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

Cet article présente N2M-RSI, un modèle formel minimal démontrant que, dès qu'un agent IA intègre ses propres sorties comme données d'entraînement au-delà d'un seuil d'intégration informationnelle, sa complexité interne croît sans limite, un phénomène qui s'amplifie dans des essaims d'agents communicants.

Rintaro Ando2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Cette étude présente PubHealthBench, un nouveau benchmark de plus de 8000 questions évaluant la connaissance des modèles de langage (LLM) sur les informations de santé publique du Royaume-Uni, révélant que bien que les modèles propriétaires les plus récents surpassent les humains en questions à choix multiples, leurs performances en réponses libres nécessitent encore des garde-fous supplémentaires.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Ce papier propose MoB, une méthode de pruning de tokens visuels fondée sur la théorie du recouvrement et une formulation bi-objectif, qui résout le compromis inhérent entre l'alignement et la préservation visuelle pour offrir une accélération significative des modèles multimodaux avec une perte de performance négligeable.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Le papier présente R1-Code-Interpreter, un modèle de langage entraîné via un apprentissage par renforcement multi-étapes et un curriculum adaptatif pour maîtriser l'utilisation autonome d'interpréteurs de code sur des tâches variées, surpassant ainsi les performances de GPT-4o avec une précision accrue et des capacités d'auto-vérification émergentes.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Cet article propose la « Supervised Calibration », un cadre unificateur basé sur la minimisation de la perte qui améliore l'apprentissage en contexte des grands modèles de langage en apprenant des transformations affines optimales pour corriger les biais et réorienter les frontières de décision, surpassant ainsi les méthodes de calibration existantes sur plusieurs modèles et jeux de données.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

Cette étude identifie et quantifie les biais idiosyncrasiques des modèles de préférence envers des caractéristiques superficielles comme la longueur ou le jargon, puis propose une méthode d'augmentation de données par contre-factuels pour réduire efficacement ces erreurs de calibration tout en préservant les performances globales.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

Cet article présente CounselBench, un benchmark à grande échelle élaboré avec des professionnels de la santé mentale pour évaluer et tester la robustesse des modèles de langage dans des scénarios de questions-réponses réalistes, révélant à la fois leurs limites cliniques et les défaillances des juges automatisés.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

Query-Level Uncertainty in Large Language Models

Cette présentation propose une méthode sans entraînement appelée « Internal Confidence » pour détecter les limites des connaissances des grands modèles de langage au niveau de la requête, permettant ainsi une inférence adaptative plus efficace et économique.

Lihu Chen, Gerard de Melo, Fabian M. Suchanek + 1 more2026-03-05💬 cs.CL

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

Cet article propose une méthode de biaisage contextuel permettant d'améliorer la reconnaissance des mots présentant un décalage entre leur prononciation et leur orthographe en exploitant des corrections de substitutions fournies par l'utilisateur en temps réel, ce qui réduit significativement le taux d'erreur sur ces mots spécifiques sans dégrader les performances globales.

Christian Huber, Alexander Waibel2026-03-05🤖 cs.LG

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

Ce papier présente RLVER, un cadre d'apprentissage par renforcement innovant qui utilise des récompenses émotionnelles vérifiables générées par des utilisateurs simulés pour améliorer considérablement l'intelligence émotionnelle des modèles de langage tout en préservant leurs compétences cognitives.

Peisong Wang, Ruotian Ma, Bang Zhang + 13 more2026-03-05🤖 cs.AI

UQLM: A Python Package for Uncertainty Quantification in Large Language Models

Ce papier présente UQLM, une bibliothèque Python qui utilise des techniques de quantification de l'incertitude pour détecter les hallucinations des grands modèles de langage et améliorer la fiabilité de leurs réponses.

Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik + 3 more2026-03-05🤖 cs.AI

From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems

Cette étude démontre que l'intégration de la résolution de coréférence améliore significativement l'efficacité de la récupération et la qualité des réponses dans les systèmes de Génération Augmentée par Récupération (RAG), en particulier pour les modèles plus petits et grâce à l'adoption de stratégies de pooling moyen.

Youngjoon Jang, Seongtae Hong, Junyoung Son + 3 more2026-03-05🤖 cs.AI

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Cette étude révèle que les grands modèles de langage généralisent des tâches inédites grâce à un mécanisme de « fonction d'induction » réutilisable et composable, où plusieurs têtes d'attention collaborent en parallèle pour extraire et appliquer des règles abstraites, comme démontré par l'analyse de l'addition décalée.

Qinyuan Ye, Robin Jia, Xiang Ren2026-03-05🤖 cs.AI

Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification

Cet article présente le premier benchmark multilingue évaluant neuf langues pour la désintoxication de texte, démontrant que les métriques proposées, notamment les approches « LLM-as-a-judge », surpassent les méthodes existantes en corrélant mieux avec les jugements humains.

Vitaly Protasov, Nikolay Babakov, Daryna Dementieva + 1 more2026-03-05💬 cs.CL

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

Le papier présente Text2VLM, un pipeline novateur qui transforme des jeux de données textuels en prompts multimodaux pour évaluer la vulnérabilité des modèles de langage visuel aux attaques par injection de prompts typographiques, révélant ainsi des failles d'alignement critiques et un écart de performance significatif par rapport aux modèles propriétaires.

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI

WebDS: An End-to-End Benchmark for Web-based Data Science

Ce papier présente WebDS, le premier benchmark de bout en bout pour la science des données sur le web, qui révèle un écart significatif entre les performances des agents LLM actuels et celles des humains face à des tâches complexes et multimodales nécessitant l'utilisation d'outils variés.

Ethan Hsu, Hong Meng Yam, Ines Bouissou + 9 more2026-03-05🤖 cs.AI

SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection

Le papier présente SEVADE, un cadre d'analyse multi-agents auto-évoluant avec évaluation découplée qui surpasse les méthodes existantes en détection de sarcasme grâce à une architecture séparant le raisonnement complexe du jugement final pour réduire les hallucinations.

Ziqi Liu, Ziyang Zhou, Yilin Li + 4 more2026-03-05💬 cs.CL

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

Ce papier présente ObfusQAte, un cadre novateur conçu pour évaluer la robustesse des modèles de langage face à des questions factuelles obfusquées, révélant ainsi leur tendance à échouer ou à halluciner lorsqu'ils sont confrontés à des variations linguistiques subtiles.

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru + 1 more2026-03-05🤖 cs.AI

← Précédent Suivant →