cs.CL articles | Gist.Science

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

Le papier présente COLD-Steer, un cadre d'entraînement gratuit qui contrôle le comportement des grands modèles de langage en approxifiant les changements d'activation résultant d'une descente de gradient sur des exemples en contexte, permettant ainsi un pilotage efficace avec jusqu'à 50 fois moins d'échantillons que les méthodes existantes.

Kartik Sharma, Rakshit S. Trivedi2026-03-09🤖 cs.AI

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

Le papier présente BRTR, un cadre agentique multimodal qui améliore la compréhension et l'édition de feuilles de calcul d'entreprise complexes en remplaçant la récupération unique par une boucle itérative d'appels d'outils, atteignant ainsi des performances de pointe sur plusieurs benchmarks grâce à une approche auditable et optimisée.

Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul2026-03-09💬 cs.CL

Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning

Cet article présente un cadre ASR multilingue contextuel qui améliore la qualité de la transcription en alignant les représentations de la parole et du contexte via un apprentissage par contraste, permettant ainsi de gérer efficacement plus de 1 500 heures de conversations dans 11 langues et 5 dialectes anglais.

Yuchen Zhang, Haralambos Mouratidis, Ravi Shekhar2026-03-09💬 cs.CL

KCLarity at SemEval-2026 Task 6: Encoder and Zero-Shot Approaches to Political Evasion Detection

Ce papier présente la participation de l'équipe KCLarity à la tâche CLARITY de SemEval 2026, où ils comparent des approches d'encodage et de zéro-shot pour détecter l'évasion politique, révélant que si RoBERTa-large excelle sur l'ensemble de test public, le modèle GPT-5.2 en zéro-shot généralise mieux sur l'ensemble d'évaluation caché.

Archie Sage, Salvatore Greco2026-03-09💬 cs.CL

EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records

Ce papier présente EHRSQL, un nouveau benchmark pratique texte-vers-SQL pour les dossiers médicaux électroniques, construit à partir de données réelles collectées auprès de personnel hospitalier et adapté aux défis spécifiques du secteur de la santé tels que la complexité des requêtes, la gestion du temps et la détection des questions sans réponse.

Gyubok Lee, Hyeonji Hwang, Seongsu Bae + 6 more2026-03-06💻 cs

Large Language Models are Contrastive Reasoners

Ce papier démontre que l'ajout d'une simple instruction demandant au modèle de fournir une réponse correcte et une réponse erronée (prompting contrastif) améliore considérablement les capacités de raisonnement des grands modèles de langage sur diverses tâches, surpassant souvent les méthodes d'inférence en zéro ou quelques coups existantes.

Liang Yao2026-03-06💻 cs

INMS: Memory Sharing for Large Language Model based Agents

L'article présente INMS, un cadre de partage de mémoire asynchrone qui améliore les performances des agents basés sur les grands modèles de langage en établissant un pool de mémoire conversationnelle partagée pour faciliter l'échange dynamique de connaissances et l'auto-amélioration collective.

Hang Gao, Yongfeng Zhang2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

Ce papier présente EasyAnimate, un cadre de génération vidéo haute performance qui combine l'attention hybride par fenêtres, la rétropropagation de récompense et des stratégies d'entraînement innovantes pour atteindre des résultats de pointe en qualité et en efficacité.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Vector Retrieval with Similarity and Diversity: How Hard Is It?

Cet article présente une nouvelle approche théorique et algorithmique pour la récupération de vecteurs équilibrant similarité et diversité, prouvant la complexité NP-complète du problème et proposant un heuristique sans paramètre qui surpasse les méthodes existantes comme MMR et k-DPP.

Hang Gao, Dong Deng, Yongfeng Zhang2026-03-06💻 cs

Enhancing Pancreatic Cancer Staging with Large Language Models: The Role of Retrieval-Augmented Generation

Cette étude démontre que l'utilisation de la génération augmentée par la récupération (RAG) dans NotebookLM améliore significativement la précision du stadification du cancer du pancréas par rapport au modèle Gemini 2.0 Flash seul, tout en offrant une transparence clinique grâce à la présentation des sources de connaissances externes.

Hisashi Johno, Yuki Johno, Akitomo Amakawa + 9 more2026-03-06💻 cs

Enhancing multimodal analogical reasoning with Logic Augmented Generation

Cet article présente un cadre de génération augmentée par la logique (LAG) qui combine des graphes de connaissances sémantiques et des heuristiques d'incitation pour améliorer le raisonnement analogique multimodal, surpassant les méthodes actuelles dans la détection et la compréhension des métaphores visuelles tout en offrant un processus de raisonnement plus explicable.

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles

Cet article présente un outil semi-automatique utilisant des LLM et des graphes de connaissances pour évaluer la véracité scientifique des articles sur le changement climatique, tout en soulignant les limites actuelles liées à l'échelle de traitement et à l'insuffisance des bases de connaissances de référence.

Tim Wittenborg, Constantin Sebastian Tremel, Markus Stocker + 1 more2026-03-06💻 cs

Learning Virtual Machine Scheduling in Cloud Computing through Language Agents

Ce papier propose MiCo, un cadre hiérarchique d'agents linguistiques piloté par un grand modèle de langage (LLM) qui résout efficacement le problème complexe d'ordonnancement dynamique des machines virtuelles dans le cloud en atteignant un taux de compétitivité de 96,9 % sur des scénarios à grande échelle.

JieHao Wu, Ziwei Wang, Junjie Sheng + 3 more2026-03-06💻 cs

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

Ce papier présente CausalPitfalls, un benchmark complet conçu pour évaluer rigoureusement les capacités des grands modèles de langage à surmonter les pièges statistiques de l'inférence causale, révélant ainsi leurs limitations actuelles dans ce domaine critique.

Jin Du, Li Chen, Xun Xian + 6 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

Ce papier présente ShIOEnv, un environnement d'exécution Bash compatible Gymnasium qui comble le manque de données d'entrées-sorties de shell en générant 2,1 millions de paires via une synthèse contrainte par grammaire et un signal d'irréductibilité auto-supervisé, permettant ainsi d'améliorer la précision de la modélisation du comportement d'exécution des commandes par rapport aux approches sans exécution.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

Le papier présente SealQA, un nouveau benchmark évaluant les modèles de langage augmentés par la recherche sur des questions factuelles complexes où les résultats du web sont bruyants ou contradictoires, révélant ainsi les limites critiques des modèles d'IA les plus avancés actuels en matière de raisonnement et de gestion du contexte long.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

A Signal Contract for Online Language Grounding and Discovery in Decision-Making

Ce papier présente LUCIFER, un middleware d'inférence qui établit un contrat de signal pour découpler la compréhension du langage naturel des systèmes de décision autonomes, permettant ainsi une mise à jour en ligne robuste et une amélioration simultanée de la sécurité et de l'efficacité de la collecte d'informations dans des tâches comme le sauvetage.

Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo2026-03-06💻 cs

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

L'article présente EDINET-Bench, un nouveau benchmark open-source en japonais évaluant les capacités des grands modèles de langage sur des tâches financières complexes issues de rapports annuels, révélant leurs limites actuelles et soulignant la nécessité de cadres d'évaluation plus riches intégrant des simulations réalistes et un soutien au raisonnement.

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Cette étude démontre que le fine-tuning par renforcement (RFT) préserve mieux les connaissances antérieures des modèles multimodaux que le fine-tuning supervisé (SFT) en raison d'une dynamique d'apprentissage moins perturbatrice, suggérant que la distribution des données d'entraînement est un facteur déterminant dans la prévention de l'oubli catastrophique.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

Ce papier présente La Leaderboard, la première plateforme open-source communautaire évaluant les grands modèles de langage sur 66 jeux de données couvrant les variétés du castillan ainsi que le basque, le catalan et le galicien, tout en promouvant une méthodologie d'évaluation plus économe en ressources.

María Grandury, Javier Aula-Blasco, Júlia Falcão + 22 more2026-03-06💻 cs

← Précédent Suivant →