cs.CL articles | Gist.Science

SpiroLLM: Finetuning Pretrained LLMs to Understand Spirogram Time Series with Clinical Validation in COPD Reporting

En s'appuyant sur une cohorte de 234 028 individus de la UK Biobank, cette étude présente SpiroLLM, le premier grand modèle de langage multimodal capable d'interpréter les spirogrammes pour générer des rapports diagnostiques interprétables et fiables pour la maladie pulmonaire obstructive chronique (MPOC), surpassant ainsi les modèles textuels traditionnels en robustesse et en précision.

Shuhao Mei, Yongchao Long, Xiaoyu Xiao + 6 more2026-03-03💬 cs.CL

Diversity-Enhanced Reasoning for Subjective Questions

Ce papier propose MultiRole-R1, un cadre d'entraînement enrichi par la diversité qui améliore le raisonnement subjectif des grands modèles de langage en intégrant des perspectives multiples et une diversité au niveau des tokens, tout en maintenant des performances élevées sur des tâches objectives comme le raisonnement mathématique.

Yumeng Wang, Zhiyuan Fan, Jiayu Liu + 2 more2026-03-03💬 cs.CL

Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs

Cette étude démontre que les grands modèles de langage peuvent généraliser des données apprises par cœur en les réinterprétant via des prompts sémantiques, remettant ainsi en cause l'idée que le par cœur nuit nécessairement à la généralisation.

Qinyuan Wu, Soumi Das, Mahsa Amani + 4 more2026-03-03💬 cs.CL

DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router

DeepSieve est un cadre RAG agentique qui améliore la précision de la récupération et la profondeur du raisonnement pour les requêtes complexes en décomposant les questions et en acheminant dynamiquement chaque sous-question vers la source de connaissances la plus pertinente grâce à un mécanisme de routage et de distillation multi-étapes.

Minghao Guo, Qingcheng Zeng, Xujiang Zhao + 5 more2026-03-03💬 cs.CL

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

L'article présente Uni-CoT, un cadre de raisonnement en chaîne de pensée unifié qui combine la compréhension et la génération d'images pour effectuer un raisonnement multimodal cohérent et évolutif grâce à une nouvelle paradigme de raisonnement à deux niveaux, atteignant des performances de pointe sur des benchmarks d'édition et de génération d'images tout en étant entraîné efficacement sur seulement 8 GPU A100.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

Cette étude démontre que pour les modèles de type Mixture-of-Experts, l'optimisation des tâches de raisonnement ne dépend pas uniquement de la perte d'entraînement, mais repose sur un équilibre conjoint entre le nombre de FLOPs actifs et le nombre de tokens par paramètre, contrairement aux tâches de mémorisation qui bénéficient principalement d'une augmentation du nombre total de paramètres.

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura + 4 more2026-03-03💬 cs.CL

EigenBench: A Comparative Behavioral Measure of Value Alignment

EigenBench est une méthode en boîte noire qui évalue l'alignement des valeurs des modèles de langage par rapport à une constitution donnée en agrégeant leurs jugements mutuels via EigenTrust, produisant des scores corrélés aux évaluations humaines sans nécessiter de vérités terrain.

Jonathn Chang, Leonhard Piff, Suvadip Sana + 2 more2026-03-03💬 cs.CL

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Cet article propose GACD, une méthode d'inférence basée sur les gradients qui atténue les hallucinations des modèles multimodaux en estimant et en rééquilibrant les biais textuels et visuels sans nécessiter de fine-tuning.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

Post-training Large Language Models for Diverse High-Quality Responses

Les auteurs proposent DQO, une méthode d'optimisation post-entraînement basée sur les processus ponctuels déterminantaux qui améliore la diversité sémantique des réponses des grands modèles de langage sans compromettre leur qualité.

Yilei Chen, Souradip Chakraborty, Lorenz Wolf + 2 more2026-03-03💬 cs.CL

BinaryShield: Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

BinaryShield est le premier système de partage d'intelligence sur les menaces respectant la vie privée, qui génère des empreintes cryptographiques à partir de prompts suspects pour détecter les injections de prompts entre services LLM tout en garantissant la conformité réglementaire.

Waris Gill, Natalie Isak, Matthew Dressman2026-03-03💬 cs.CL

Distribution-Aligned Decoding for Efficient LLM Task Adaptation

Cet article présente SVDecode, une méthode légère et théoriquement fondée qui améliore l'adaptation des grands modèles de langage à des tâches spécifiques en alignant directement leur distribution de sortie via un vecteur de guidage extrait du gradient de divergence KL, évitant ainsi des mises à jour de poids coûteuses tout en surpassant les méthodes d'adaptation paramétrique efficaces (PEFT) existantes.

Senkang Hu, Xudong Han, Jinqi Jiang + 5 more2026-03-03💬 cs.CL

Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference

Cette étude à grande échelle démontre que la génération de code par les grands modèles de langage (LLM) surpasse les autres modes d'interaction pour l'inférence graphique, en particulier sur des graphes à longueurs de texte élevées ou à forte hétérophilie, offrant ainsi des directives claires pour l'avenir de l'apprentissage automatique sur graphes enrichis en texte.

Ben Finkelshtein, Silviu Cucerzan, Sujay Kumar Jauhar + 1 more2026-03-03💬 cs.CL

PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

Cet article présente PMark, une nouvelle méthode de tatouage sémantique pour les grands modèles de langage qui, grâce à un cadre théorique fondé sur des fonctions proxy et des contraintes de canal, garantit une robustesse accrue contre les paraphrases tout en préservant la qualité du texte sans distorsion.

Jiahao Huo, Shuliang Liu, Bin Wang + 5 more2026-03-03💬 cs.CL

Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

Ce papier propose la Group Tree Optimization (GTO), une nouvelle méthode qui aligne l'entraînement du modèle de brouillon sur la politique de décodage en arbre pour résoudre le désalignement des stratégies existantes, augmentant ainsi la longueur d'acceptation et la vitesse d'inférence des grands modèles de langage par rapport à l'état de l'art.

Shijing Hu, Jingyang Li, Zhihui Lu + 1 more2026-03-03💬 cs.CL

Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs

Cet article propose T2PAM, un nouveau paradigme d'adaptation de politique en temps réel pour les interactions multi-tours avec les LLMs, opérationnalisé par l'algorithme léger ROSA qui permet une mise à jour efficace des paramètres en une seule étape pour s'aligner sur les préférences de l'utilisateur sans optimisation itérative coûteuse.

Chenxing Wei, Hong Wang, Ying He + 2 more2026-03-03💬 cs.CL

Train Once, Answer All: Many Pretraining Experiments for the Cost of One

Ce papier propose une méthode novatrice permettant de mener plusieurs expériences de préentraînement simultanées au sein d'une seule exécution de formation, réduisant ainsi considérablement les coûts de calcul tout en validant la rigueur scientifique et la fiabilité des résultats sur des modèles de langage de grande taille.

Sebastian Bordt, Martin Pawelczyk2026-03-03💬 cs.CL

Reasoning or Retrieval? A Study of Answer Attribution on Large Reasoning Models

Cette étude révèle que les modèles de raisonnement à grande échelle souffrent d'une incohérence entre leurs traces de raisonnement et leurs réponses finales en raison d'une compétition entre le raisonnement et la récupération mémorielle, et propose le cadre FARL pour supprimer ces raccourcis et favoriser un véritable développement des capacités de raisonnement.

Yuhui Wang, Changjiang Li, Guangke Chen + 2 more2026-03-03💬 cs.CL

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Cet article démontre que l'algorithme REINFORCE à base relative de groupe (GRPO) possède une interprétation nativement hors politique, offrant ainsi un cadre théorique unifié pour corriger les idées reçues sur son fonctionnement et guider la conception de nouvelles méthodes d'apprentissage par renforcement hors politique pour les grands modèles de langage.

Chaorui Yao, Yanxi Chen, Yuchang Sun + 5 more2026-03-03💬 cs.CL

Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention

Cet article propose l'Intervened Preference Optimization (IPO), une méthode d'alignement qui améliore significativement la sécurité des modèles de raisonnement en remplaçant les étapes de conformité par des déclencheurs de sécurité, réduisant ainsi la nocivité de plus de 30 % tout en préservant les performances de raisonnement.

Yichi Zhang, Yue Ding, Jingwen Yang + 7 more2026-03-03💬 cs.CL

Dynamic Level Sets

Cet article introduit et analyse le concept mathématique inédit de « ensembles de niveaux dynamiques », qui repose sur le principe d'automodification pour expliquer comment un processus physique incomputable peut reconfigurer un ensemble logique invariant à chaque étape, élargissant ainsi la portée de la théorie de la calculabilité au-delà des résultats classiques sur les machines de Turing probabilistes.

Michael Stephen Fiske2026-03-03🔢 math-ph

← Précédent Suivant →