cs.CL articles | Gist.Science

Enhancing multimodal analogical reasoning with Logic Augmented Generation

Cet article présente un cadre de génération augmentée par la logique (LAG) qui combine des graphes de connaissances sémantiques et des heuristiques d'incitation pour améliorer le raisonnement analogique multimodal, surpassant les méthodes actuelles dans la détection et la compréhension des métaphores visuelles tout en offrant un processus de raisonnement plus explicable.

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles

Cet article présente un outil semi-automatique utilisant des LLM et des graphes de connaissances pour évaluer la véracité scientifique des articles sur le changement climatique, tout en soulignant les limites actuelles liées à l'échelle de traitement et à l'insuffisance des bases de connaissances de référence.

Tim Wittenborg, Constantin Sebastian Tremel, Markus Stocker + 1 more2026-03-06💻 cs

Learning Virtual Machine Scheduling in Cloud Computing through Language Agents

Ce papier propose MiCo, un cadre hiérarchique d'agents linguistiques piloté par un grand modèle de langage (LLM) qui résout efficacement le problème complexe d'ordonnancement dynamique des machines virtuelles dans le cloud en atteignant un taux de compétitivité de 96,9 % sur des scénarios à grande échelle.

JieHao Wu, Ziwei Wang, Junjie Sheng + 3 more2026-03-06💻 cs

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

Ce papier présente CausalPitfalls, un benchmark complet conçu pour évaluer rigoureusement les capacités des grands modèles de langage à surmonter les pièges statistiques de l'inférence causale, révélant ainsi leurs limitations actuelles dans ce domaine critique.

Jin Du, Li Chen, Xun Xian + 6 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

Ce papier présente ShIOEnv, un environnement d'exécution Bash compatible Gymnasium qui comble le manque de données d'entrées-sorties de shell en générant 2,1 millions de paires via une synthèse contrainte par grammaire et un signal d'irréductibilité auto-supervisé, permettant ainsi d'améliorer la précision de la modélisation du comportement d'exécution des commandes par rapport aux approches sans exécution.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

Le papier présente SealQA, un nouveau benchmark évaluant les modèles de langage augmentés par la recherche sur des questions factuelles complexes où les résultats du web sont bruyants ou contradictoires, révélant ainsi les limites critiques des modèles d'IA les plus avancés actuels en matière de raisonnement et de gestion du contexte long.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

A Signal Contract for Online Language Grounding and Discovery in Decision-Making

Ce papier présente LUCIFER, un middleware d'inférence qui établit un contrat de signal pour découpler la compréhension du langage naturel des systèmes de décision autonomes, permettant ainsi une mise à jour en ligne robuste et une amélioration simultanée de la sécurité et de l'efficacité de la collecte d'informations dans des tâches comme le sauvetage.

Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo2026-03-06💻 cs

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

L'article présente EDINET-Bench, un nouveau benchmark open-source en japonais évaluant les capacités des grands modèles de langage sur des tâches financières complexes issues de rapports annuels, révélant leurs limites actuelles et soulignant la nécessité de cadres d'évaluation plus riches intégrant des simulations réalistes et un soutien au raisonnement.

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Cette étude démontre que le fine-tuning par renforcement (RFT) préserve mieux les connaissances antérieures des modèles multimodaux que le fine-tuning supervisé (SFT) en raison d'une dynamique d'apprentissage moins perturbatrice, suggérant que la distribution des données d'entraînement est un facteur déterminant dans la prévention de l'oubli catastrophique.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

Ce papier présente La Leaderboard, la première plateforme open-source communautaire évaluant les grands modèles de langage sur 66 jeux de données couvrant les variétés du castillan ainsi que le basque, le catalan et le galicien, tout en promouvant une méthodologie d'évaluation plus économe en ressources.

María Grandury, Javier Aula-Blasco, Júlia Falcão + 22 more2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

Le papier présente MuRating, un cadre évolutif qui transfère les signaux de qualité des données anglaises vers un évaluateur multilingue unique pour sélectionner des sous-ensembles de données équilibrés, améliorant ainsi significativement les performances des modèles de langage multilingues sur des tâches exigeantes en connaissances.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Eka-Eval: An Evaluation Framework for Low-Resource Multilingual Large Language Models

Le papier présente Eka-Eval, un cadre d'évaluation open-source et modulaire conçu pour évaluer de manière complète et accessible les grands modèles de langage multilingues, y compris ceux dédiés aux langues à ressources limitées, en intégrant plus de 55 benchmarks et en surpassant les solutions existantes en termes d'ergonomie et de reproductibilité.

Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal + 1 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Cet article présente TreeBench, un benchmark diagnostique évaluant le raisonnement visuel ancré par des preuves traçables, et propose TreeVGR, une méthode d'apprentissage par renforcement qui améliore significativement les performances des modèles en localisation et en raisonnement explicite.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Le papier présente Vevo2, un cadre unifié et contrôlable pour la génération de voix parlée et chantée qui surmonte le manque de données annotées grâce à deux tokenizeurs audio innovants et des stratégies d'apprentissage combinées, permettant ainsi une maîtrise flexible de la prosodie, du style et du timbre pour diverses tâches de synthèse et d'édition.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

Cette étude démontre que la quantisation des grands modèles de langage a un impact nuancé sur les biais, réduisant la toxicité mais augmentant légèrement les stéréotypes et l'injustice dans les tâches génératives, ce qui souligne la nécessité d'équilibrer l'efficacité et les considérations éthiques.

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Cet article propose une nouvelle approche d'alignement acoustique-linguistique pour la reconnaissance automatique de la parole, modélisant la correspondance comme un problème de détection via un transport optimal déséquilibré afin de gérer les asymétries structurelles et le bruit, améliorant ainsi le transfert de connaissances et les performances du système.

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Ce papier présente TSPC, une architecture novatrice à deux étapes centrée sur les phonèmes qui améliore significativement la reconnaissance de la parole en code-switching vietnamien-anglais en atteignant un taux d'erreur de mots de 19,06 % avec des ressources de calcul réduites.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Linguistic trajectories of bipolar disorder on social media

Cette étude démontre que l'analyse longitudinale des publications sur les réseaux sociaux permet de retracer les changements linguistiques associés au trouble bipolaire, révélant des perturbations à l'annonce du diagnostic et des fluctuations saisonnières annuelles des symptômes dans les années suivantes.

Laurin Plank, Armin Zlomuzica2026-03-06💻 cs

Llama-Mimi: Exploring the Limits of Flattened Speech Language Modeling

L'article présente Llama-Mimi, un modèle de langage vocal qui aplatit les tokens RVQ multi-niveaux du codec Mimi en une seule séquence pour les modéliser de manière autoregressive via un simple Transformer, surpassant ainsi les architectures hiérarchiques existantes sur la plupart des tâches et obtenant les meilleurs résultats en matière de cohérence acoustique.

Issa Sugiura, Shuhei Kurita, Yusuke Oda + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Cette étude révèle que les modèles de langage servant de base aux systèmes de parole peinent à gérer les disfluences de la conversation spontanée, privilégiant souvent l'abstraction sémantique au détriment de la fidélité structurelle, ce qui compromet leur robustesse malgré les performances prometteuses du fine-tuning.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

← Précédent Suivant →