cs.CL articles | Gist.Science

Calibrating Verbalized Confidence with Self-Generated Distractors

Cet article propose DINCO, une méthode qui améliore la calibration des scores de confiance verbalisés des grands modèles de langage en normalisant ces scores par rapport à des distracteurs auto-générés et en intégrant la cohérence entre un générateur et un validateur, réduisant ainsi le surconfiance et surpassant les approches basées sur la simple auto-cohérence.

Victor Wang, Elias Stengel-Eskin2026-03-03💬 cs.CL

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Ce papier présente EditReward, un modèle de récompense open-source entraîné sur un vaste ensemble de données de préférences humaines annotées par des experts, qui surpasse les modèles existants en alignement avec les préférences humaines et permet d'identifier des sous-ensembles de données de haute qualité pour améliorer l'entraînement des modèles d'édition d'images.

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

Le papier présente MENLO, un cadre d'évaluation et un jeu de données annotés par des humains pour 47 langues visant à mesurer et à améliorer la qualité native des réponses des grands modèles de langage grâce à l'apprentissage par renforcement et à l'alignement des préférences.

Chenxi Whitehouse, Sebastian Ruder, Tony Lin + 6 more2026-03-03💬 cs.CL

GEM: A Gym for Agentic LLMs

Ce papier présente GEM, un simulateur d'environnement open-source et standardisé conçu pour faciliter l'apprentissage par expérience des LLMs agents, offrant à la fois un cadre d'entraînement flexible, une suite d'environnements diversifiés et des outils d'évaluation complets.

Zichen Liu, Anya Sims, Keyu Duan + 16 more2026-03-03💬 cs.CL

RLP: Reinforcement as a Pretraining Objective

Ce papier présente RLP, une nouvelle méthode de préentraînement qui intègre l'apprentissage par renforcement en traitant la chaîne de pensée comme une action exploratoire récompensée par le gain d'information, permettant ainsi d'acquérir des capacités de raisonnement indépendantes dès la phase de préentraînement et d'améliorer significativement les performances sur des tâches complexes de mathématiques et de sciences.

Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye + 5 more2026-03-03💬 cs.CL

ExGRPO: Learning to Reason from Experience

Ce papier propose ExGRPO, un cadre d'optimisation stratégique qui améliore l'efficacité et la stabilité de l'apprentissage par renforcement des modèles de raisonnement en réutilisant et en priorisant sélectivement les expériences passées les plus pertinentes, telles que celles caractérisées par leur justesse et leur entropie.

Runzhe Zhan, Yafu Li, Zhi Wang + 5 more2026-03-03💬 cs.CL

What Scales in Cross-Entropy Scaling Law?

Cet article propose une décomposition de la perte d'entropie croisée révélant que seule la composante « erreur-entropie » suit une loi d'échelle robuste, expliquant ainsi pourquoi la loi d'échelle traditionnelle échoue aux très grandes échelles et établissant une nouvelle base théorique pour le développement des modèles de langage.

Junxi Yan, Zixi Wei, Qingyao Ai + 2 more2026-03-03💬 cs.CL

PoLi-RL: A Point-to-List Reinforcement Learning Framework for Conditional Semantic Textual Similarity

Le papier présente PoLi-RL, un cadre d'apprentissage par renforcement novateur de type « point-to-list » qui surmonte les limites des approches existantes pour la similarité sémantique textuelle conditionnelle (C-STS) grâce à un curriculum en deux étapes et un mécanisme de récompense de classement parallèle, établissant ainsi un nouvel état de l'art sur le benchmark officiel.

Zixin Song, Bowen Zhang, Qian-Wen Zhang + 3 more2026-03-03💬 cs.CL

TiTok: Transfer Token-level Knowledge via Contrastive Excess to Transplant LoRA

Le papier présente TiTok, un cadre novateur qui permet le transfert de LoRA entre différents modèles de base en exploitant un excès contrastif au niveau des tokens pour filtrer sélectivement des données synthétiques, évitant ainsi la nécessité de modèles supplémentaires tout en améliorant significativement les performances.

Chanjoo Jung, Jaehyung Kim2026-03-03💬 cs.CL

SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs

Le papier présente SwiReasoning, un cadre d'inférence sans entraînement qui améliore la précision et l'efficacité des grands modèles de langage en alternant dynamiquement entre raisonnement explicite et latent, tout en limitant le surréflexion grâce à des mécanismes de confiance et de blocage.

Dachuan Shi, Abedelkadir Asi, Keying Li + 4 more2026-03-03💬 cs.CL

Training Large Language Models To Reason In Parallel With Global Forking Tokens

Cet article propose une méthode d'entraînement nommée SSFT, combinée à une optimisation de politique (GFPO), qui utilise des tokens de bifurcation globaux pour préserver la diversité des modes de raisonnement parallèle et améliorer les performances des modèles de langage sur des tâches complexes de mathématiques et de génération de code.

Sheng Jia, Xiao Wang, Shiva Prasad Kasiviswanathan2026-03-03💬 cs.CL

MASA: Rethinking the Representational Bottleneck in LoRA with Multi-A Shared Adaptation

Le papier présente MASA, une méthode d'adaptation efficace qui surmonte le goulot d'étranglement représentationnel de LoRA en remplaçant sa unique matrice de projection descendante par un ensemble asymétrique d'experts spécialisés, améliorant ainsi les performances sur diverses tâches tout en conservant un nombre de paramètres apprenables comparable.

Qin Dong, Yuntian Tang, Heming Jia + 7 more2026-03-03💬 cs.CL

Exposing Citation Vulnerabilities in Generative Engines

Cette étude révèle que les moteurs de génération d'answers sont vulnérables aux attaques par empoisonnement en raison de la faible barrière d'injection de contenu des sources citées, un risque particulièrement élevé dans le contexte politique américain par rapport au japonais, et propose des critères d'évaluation pour mieux identifier et atténuer ces menaces.

Riku Mochizuki, Shusuke Komatsu, Souta Noguchi + 1 more2026-03-03💬 cs.CL

LAD-RAG: Layout-aware Dynamic RAG for Visually-Rich Document Understanding

LAD-RAG est un cadre RAG dynamique et conscient de la mise en page qui améliore la compréhension des documents visuellement riches en construisant un graphe symbolique pour capturer la structure et les dépendances inter-pages, permettant ainsi une récupération adaptative des preuves par un agent LLM et dépassant les méthodes conventionnelles en précision et en rappel.

Zhivar Sourati, Zheng Wang, Marianne Menglin Liu + 8 more2026-03-03💬 cs.CL

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

Ce papier présente TTOM, un cadre sans entraînement qui améliore la génération vidéo compositionnelle en alignant les modèles de fondation vidéo sur des layouts spatio-temporels via une optimisation et une mémorisation paramétriques en temps d'exécution.

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

ExPO-HM: Learning to Explain-then-Detect for Hateful Meme Detection

Le papier présente ExPO-HM, une méthode novatrice qui améliore la détection des mèmes haineux en combinant un apprentissage supervisé, une optimisation par politique avec apprentissage par curriculum et une entropie décisionnelle conditionnelle pour générer des explications interprétables tout en surpassant les approches précédentes sur plusieurs benchmarks.

Jingbiao Mei, Mingsheng Sun, Jinghong Chen + 4 more2026-03-03💬 cs.CL

WAXAL: A Large-Scale Multilingual African Language Speech Corpus

Ce papier présente WAXAL, un corpus de parole multilingue à grande échelle et open source couvrant 24 langues africaines avec des données pour la reconnaissance et la synthèse vocale, conçu pour réduire la fracture numérique et favoriser le développement de technologies inclusives.

Abdoulaye Diack, Perry Nelson, Kwaku Agbesi + 40 more2026-03-03⚡ eess

Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement

Ce papier présente URSA-GAN, un cadre génératif unifié qui utilise une architecture à double encodage et une perturbation stochastique dynamique pour adapter robustement la reconnaissance et l'amélioration de la parole à des conditions de bruit et de canal inconnues, réduisant ainsi significativement les erreurs et améliorant les métriques perceptuelles.

Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang + 1 more2026-03-03⚡ eess

Dynamic Level Sets

Cet article introduit et analyse le concept mathématique inédit de « ensembles de niveaux dynamiques », qui repose sur le principe d'automodification pour expliquer comment un processus physique incomputable peut reconfigurer un ensemble logique invariant à chaque étape, élargissant ainsi la portée de la théorie de la calculabilité au-delà des résultats classiques sur les machines de Turing probabilistes.

Michael Stephen Fiske2026-03-03🔢 math-ph

Deepfake Word Detection by Next-token Prediction using Fine-tuned Whisper

Cet article présente une méthode rentable de détection de mots deepfake qui consiste à affiner le modèle Whisper pour identifier les mots synthétiques lors de la transcription par prédiction de jeton suivant, en utilisant des données partiellement vocodées pour réduire les coûts de collecte, tout en démontrant des performances compétitives sur des données in-domaine et un potentiel de généralisation à améliorer sur des données out-of-domaine.

Hoan My Tran, Xin Wang, Wanying Ge + 2 more2026-03-03⚡ eess

← Précédent Suivant →