cs.CL articles | Gist.Science

F-Actor: Controllable Conversational Behaviour in Full-Duplex Models

Ce papier présente F-Actor, le premier modèle de parole conversationnelle en duplex intégral open-source et suivant des instructions, capable d'adapter dynamiquement son comportement (comme les interruptions ou les encouragements) et sa voix grâce à un entraînement efficace sur 2 000 heures de données sans préentraînement à grande échelle.

Maike Züfle, Ondrej Klejch, Nicholas Sanders + 3 more2026-03-06💻 cs

The unreasonable effectiveness of pattern matching

Ce papier démontre que la capacité des grands modèles de langage à extraire du sens de textes dénués de sens repose sur l'efficacité remarquable du repérage de motifs structurels, prouvant que cette compétence est un ingrédient fondamental de l'intelligence plutôt qu'une simple imitation.

Gary Lupyan, Blaise Agüera y Arcas2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Ce papier présente Yuan3.0 Ultra, un modèle de langage open-source de type MoE orienté entreprise qui utilise l'algorithme de pruning d'experts adaptatif par couche (LAEP) pour améliorer l'efficacité du pré-entraînement et obtenir des performances de pointe sur des tâches spécialisées tout en réduisant la taille totale du modèle.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Cette étude révèle que les modèles fondationnels actuels peinent à identifier les moments clés dans des vidéos de football, car ils dépendent trop d'une seule modalité et échouent à synthétiser efficacement les informations croisées, soulignant ainsi le besoin d'architectures modulaires et de procédures d'entraînement complémentaires.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Ce papier présente le Self-Distilled Reasoner, un cadre d'auto-distillation sur politique où un seul modèle joue à la fois le rôle d'enseignant (conditionné sur des traces de raisonnement privilégiées) et d'élève (ne voyant que la question), permettant d'améliorer les capacités de raisonnement mathématique avec une efficacité tokenique bien supérieure aux méthodes d'apprentissage par renforcement.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Le papier présente VIP, une stratégie d'allocation de rollouts adaptative qui optimise l'efficacité de l'apprentissage par renforcement en ligne en attribuant dynamiquement le budget de calcul aux prompts les plus informatifs pour minimiser la variance du gradient, surpassant ainsi les méthodes d'allocation uniforme.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

LatentChem introduit une interface de raisonnement latent qui découple le calcul chimique de la génération textuelle, permettant aux modèles d'effectuer des inférences complexes dans un espace continu pour obtenir des performances supérieures et une accélération significative par rapport aux méthodes traditionnelles basées sur la chaîne de pensée explicite.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

The Convergence of Schema-Guided Dialogue Systems and the Model Context Protocol

Cet article établit la convergence fondamentale entre les systèmes de dialogue guidés par schéma (SGD) et le protocole de contexte de modèle (MCP) pour définir un paradigme unifié d'interaction LLM-agent, en proposant cinq principes de conception de schémas qui comblent les lacunes actuelles et offrent un mécanisme évolutif de gouvernance pour les systèmes d'IA.

Andreas Schlapbach2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Cette étude présente un cadre d'évaluation par « red teaming » clinique automatisé qui, grâce à des simulations de thérapie avec des agents patients dynamiques, révèle des risques iatrogènes critiques dans l'utilisation des modèles de langage pour le soutien en santé mentale et valide un outil de visualisation pour auditer ces systèmes auprès de diverses parties prenantes.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking

Le papier présente JAILBREAK FOUNDRY, un système multi-agents qui automatise la traduction des articles de recherche sur les jailbreaks en modules exécutables pour permettre une évaluation reproductible et standardisée des vulnérabilités des grands modèles de langage.

Zhicheng Fang, Jingjie Zheng, Chenxu Fu, Wei Xu2026-03-06🔒 cs.CR

Learn Hard Problems During RL with Reference Guided Fine-tuning

Ce papier présente ReGFT, une méthode de fine-tuning guidé par des références qui synthétise des trajectoires de raisonnement positives à partir de solutions humaines partielles pour surmonter la rareté des récompenses et améliorer l'apprentissage par renforcement en mathématiques.

Yangzhen Wu, Shanda Li, Zixin Wen + 5 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Cet article présente VoxKnesset, un ensemble de données ouvert et longitudinal de 2 300 heures de discours parlementaire hébreu couvrant 15 ans, conçu pour modéliser les changements vocaux liés au vieillissement et évaluer la robustesse des systèmes de reconnaissance vocale face au vieillissement des locuteurs.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

Le papier présente FreeAct, un cadre de quantisation innovant qui améliore les performances des modèles de langage en libérant les activations de contraintes statiques pour leur permettre d'adapter dynamiquement des transformations spécifiques à chaque type de token, surpassant ainsi les méthodes existantes sur les modèles de diffusion et multimodaux.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

Ce papier propose une construction incrémentale de graphes $k$ -NN qui garantit par conception la connectivité du graphe, permettant ainsi d'améliorer la robustesse du clustering spectral sur des embeddings textuels, en particulier dans les régimes de faible $k$ où les graphes standards deviennent disjoints.

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Cette étude propose un modèle théorique basé sur une fonction d'ensemble à valeurs d'ensemble pour expliquer le changement dynamique du genre grammatical et la formation des mots, en particulier en rifain, en modélisant le couplage non linéaire entre les items lexicaux et les modèles morphologiques.

Mohamed El Idrissi2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

Ce papier établit un lien fondamental entre la parallélisabilité des réseaux de neurones récurrents linéaires (LRNN) et les classes de complexité computationnelle, démontrant que leur structure permet une exécution efficace similaire aux transformateurs, contrairement aux RNN non linéaires qui, en raison de leur capacité à résoudre des problèmes P-complets, posent une barrière théorique à une telle parallélisation.

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Cette étude présente Bielik-Q2-Sharp, la première évaluation académique systématique de la quantification extrême à 2 bits appliquée au modèle de langue polonais Bielik-11B, démontrant que des méthodes comme QuIP# et QTIP préservent efficacement les capacités de raisonnement tout en maintenant une taille de modèle réduite, le tout réalisé par un seul chercheur avec un budget de 285 $.

Jakub Prejzner2026-03-06💻 cs

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

Le papier présente AgentIR, une approche de récupération qui exploite les traces de raisonnement explicites des agents de recherche approfondie pour entraîner un modèle d'embedding performant, surpassant les méthodes conventionnelles sur des benchmarks complexes.

Zijian Chen, Xueguang Ma, Shengyao Zhuang + 3 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

Le papier présente SearchGym, une infrastructure modulaire open-source conçue pour le benchmarking interplateforme et l'orchestration de la recherche hybride, qui permet de synthétiser des systèmes reproductibles via une algèbre de configuration compositionnelle et révèle des mécanismes causaux clés dans les pipelines de recherche.

Jerome Tze-Hou Hsu2026-03-06💻 cs

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

Le papier présente FinRetrieval, un benchmark de 500 questions financières évaluant la capacité des agents IA à extraire des données structurées, révélant que la disponibilité des outils d'accès aux bases de données est le facteur déterminant de la performance, bien plus que les capacités de raisonnement ou les fournisseurs de modèles.

Eric Y. Kim, Jie Huang2026-03-06💻 cs

← Précédent Suivant →