cs.CL articles | Gist.Science

Rethinking the Role of LLMs in Time Series Forecasting

Cette étude à grande échelle démontre que les modèles de langage (LLM) améliorent significativement la prévision des séries temporelles, en particulier lors de changements de distribution, en validant l'importance de l'alignement préalable et du rôle complémentaire de la préformation et de l'architecture.

Xin Qiu, Junlong Tong, Yirong Sun + 3 more2026-03-04💬 cs.CL

Spilled Energy in Large Language Models

Cet article propose une méthode sans entraînement pour détecter les hallucinations dans les grands modèles de langage en réinterprétant leur classificateur softmax comme un modèle basé sur l'énergie et en utilisant de nouvelles métriques d'énergie dissipée et marginalisée directement dérivées des logits.

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi2026-03-04💬 cs.CL

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Ce papier présente CFE-Bench, un nouveau benchmark multimodal évaluant les capacités de raisonnement des grands modèles de langage sur plus de 20 domaines STEM à l'aide de problèmes d'examen universitaires authentiques, révélant que même les modèles les plus avancés peinent à maintenir des états intermédiaires cohérents dans des solutions multi-étapes malgré des performances correctes sur des sous-questions isolées.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

Ce papier présente RuCL, un cadre novateur d'apprentissage curriculaire stratifié qui améliore le raisonnement des modèles de langage multimodaux en reformulant la conception des récompenses via des rubriques généralisées et pondérées dynamiquement, permettant ainsi d'atteindre des performances record tout en évitant le piratage de récompenses.

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

Cet article présente un cadre de traduction automatique guidée par la parole (SMT) intégrant la parole et le texte dans un modèle de langage multimodal, qui utilise un mécanisme d'auto-évolution pour générer des données synthétiques et atteint des performances de pointe sur les benchmarks Multi30K et FLORES-200.

Yexing Du, Youcheng Pan, Zekun Wang + 7 more2026-03-04💬 cs.CL

DeepXiv-SDK: An Agentic Data Interface for Scientific Literature

Ce papier présente DeepXiv-SDK, une interface de données agentic à trois couches qui transforme la littérature scientifique non structurée en formats normalisés et fournit des outils d'accès efficaces pour les agents LLM, couvrant actuellement l'ensemble du corpus ArXiv avec une synchronisation quotidienne.

Hongjin Qian, Ziyi Xia, Ze Liu + 11 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

Ce papier présente « Super Research », une nouvelle tâche et un benchmark évaluant la capacité des modèles de langage à résoudre des questions de recherche extrêmement complexes grâce à une décomposition structurée, une recherche à la fois très large et très profonde, et un protocole d'audit rigoureux.

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

Cet article présente uCDCR, un jeu de données unifié qui consolide divers corpus de résolution de coréférence inter-documents en anglais pour analyser systématiquement leurs propriétés lexicales et améliorer la généralisabilité des modèles, tout en démontrant que la résolution des entités et des événements constitue une tâche complexe qui ne doit pas se limiter aux événements.

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

Le papier présente QIME, un cadre fondé sur l'ontologie qui génère des embeddings médicaux interprétables en représentant le texte par des réponses binaires à des questions cliniquement significatives, surpassant les méthodes interprétables existantes et se rapprochant des performances des encodeurs boîte noire tout en fournissant des explications concises.

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Ce papier présente ClinConsensus, un benchmark chinois basé sur le consensus d'experts cliniques évaluant les grands modèles de langage médicaux sur des cas ouverts et complexes à travers tout le continuum de soins, en proposant une nouvelle métrique de cohérence et un cadre d'évaluation à double juge pour identifier les forces et les limites actuelles de ces modèles.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

Recursive Think-Answer Process for LLMs and VLMs

Cet article propose le processus récursif R-TAP, qui améliore la précision et l'efficacité des modèles de langage et de vision en intégrant un générateur de confiance pour des cycles de raisonnement itératifs, réduisant ainsi les erreurs et les expressions d'auto-réflexion par rapport aux approches en passage unique.

Byung-Kwan Lee, Youngchae Chee, Yong Man Ro2026-03-04💬 cs.CL

A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences

Cet article présente un modèle de substitut capable de préserver simultanément la distribution de fréquence des symboles (loi de Zipf) et la structure de corrélation à long terme des séquences symboliques, telles que le langage écrit et l'ADN, en mappant un bruit gaussien fractionnaire sur l'histogramme empirique.

Marcelo A. Montemurro, Mirko Degli Esposti2026-03-04🧬 q-bio

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

Cette étude démontre que l'évolution durable des modèles de langage par auto-jeu nécessite un pipeline d'auto-synthèse garantissant un gain d'information apprenable croissant, obtenu grâce à une co-évolution asymétrique, une croissance des capacités et une recherche proactive d'informations.

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL

Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

Ce papier démontre que l'apprentissage de portes d'attention parcimonieuses est inefficace car les projections Q/K/V s'adaptent au masquage imposé, un phénomène de « routage absorbé » qui rend les portes aléatoires aussi performantes que les portes apprises et favorise ainsi les approches post-hoc.

Keston Aquino-Michaels2026-03-04💬 cs.CL

Safety Training Persists Through Helpfulness Optimization in LLM Agents

Cette étude révèle que, contrairement aux attentes, l'entraînement à la sécurité persiste lors d'un optimisation ultérieure de l'utilité chez les agents LLM, et que toutes les configurations d'entraînement convergent vers une frontière de Pareto linéaire sans parvenir à une stratégie optimale combinant les deux objectifs.

Benjamin Plaut2026-03-04💬 cs.CL

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

Le papier présente HELIOS, un modèle innovant qui améliore la récupération table-texte en harmonisant la fusion précoce et tardive avec le raisonnement des LLM pour surmonter les limites des approches existantes et atteindre des performances record sur le benchmark OTT-QA.

Sungho Park, Joohyung Yun, Jongwuk Lee + 1 more2026-03-04💬 cs.CL

Universal Conceptual Structure in Neural Translation: Probing NLLB-200's Multilingual Geometry

En analysant la géométrie des représentations du modèle de traduction NLLB-200, cette étude démontre que celui-ci a appris à la fois la structure généalogique des langues et des associations conceptuelles universelles, révélant ainsi une organisation sémantique neutre par rapport à la langue qui rappelle les hubs neuronaux du cerveau humain.

Kyle Elliott Mathewson2026-03-04💬 cs.CL

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

Cette étude propose un cadre théorique et empirique unifié démontrant que, bien que les modèles de diffusion linguistiques (DLM) voient leur risque d'extraction de données d'entraînement augmenter avec la résolution d'échantillonnage, ils présentent globalement une fuite d'informations personnellement identifiables (PII) nettement inférieure à celle des modèles de langage autoregressifs (ARM).

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

Ce papier présente RO-N3WS, un nouveau jeu de données de parole roumaine diversifié conçu pour améliorer la généralisation des systèmes de reconnaissance automatique de la parole dans des conditions à ressources limitées, démontrant que même un ajustement fin limité sur ces données réelles entraîne des réductions significatives du taux d'erreur de mots par rapport aux modèles de base en zéro-shot.

Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe2026-03-04💬 cs.CL

A Directed Graph Model and Experimental Framework for Design and Study of Time-Dependent Text Visualisation

Cette étude propose un modèle de graphe orienté et un cadre expérimental utilisant des textes synthétiques générés par LLM pour évaluer la visualisation temporelle de discours textuels, révélant que l'interprétation des motifs relationnels par les utilisateurs est complexe et suggérant la nécessité d'approches de visualisation plus adaptatives plutôt que standardisées.

Songhai Fan, Simon Angus, Tim Dwyer + 3 more2026-03-04💬 cs.CL

← Précédent Suivant →