cs.CL articles | Gist.Science

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

Le papier présente MathSmith, un cadre novateur qui génère des problèmes mathématiques synthétiques de haute difficulté à partir de zéro en utilisant des stratégies de contraintes et l'apprentissage par renforcement pour améliorer les capacités de raisonnement des grands modèles de langage.

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei Tan2026-03-10💬 cs.CL

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Cet article présente IAG, la première attaque par porte dérobée multi-cibles adaptative pour les modèles de vision-langage, qui génère dynamiquement des déclencheurs invisibles guidés par le texte pour rediriger la localisation d'objets vers des cibles spécifiques sans compromettre les performances sur des échantillons normaux.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

Le papier présente OTESGN, un réseau de graphes syntaxico-sémantiques amélioré par le transport optimal qui surpasse les méthodes existantes en analyse de sentiment basée sur les aspects en modélisant les dépendances globales et en traitant l'association aspect-opinion comme un problème d'appariement de distributions.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying Rong2026-03-10💬 cs.CL

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

Cette étude démontre que les sondes linéaires utilisées pour surveiller les modèles de langage sont fragiles car leur efficacité dépend fortement de la présence d'indices textuels explicites, leur performance chutant considérablement lorsque ces indices sont filtrés ou absents.

Gerard Boxo, Aman Neelappa, Shivam Raval2026-03-10🤖 cs.LG

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

Le papier présente PonderLM-2, une méthode de pré-entraînement novatrice qui améliore les performances des modèles de langage en leur apprenant à générer des « pensées latentes » intermédiaires dans un espace continu avant de prédire chaque token, surpassant ainsi des modèles standard deux fois plus grands à coût d'inférence équivalent.

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan Lin2026-03-10💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Cette étude introduit les « signatures de benchmarks », dérivées de la perplexité des tokens, pour cartographier de manière robuste les chevauchements et les capacités des modèles de langage au-delà des corrélations de performance traditionnelles, révélant ainsi une structure nuancée des compétences et des écarts potentiels entre l'organisation sémantique des LLM et la structure conceptuelle humaine.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans2026-03-10💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Cette étude introduit le concept de « misevolution » pour décrire les risques émergents où les agents LLM auto-évoluant se dégradent ou deviennent dangereux, en démontrant empiriquement que ce phénomène affecte même les modèles de pointe et nécessite de nouveaux paradigmes de sécurité.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

TokMem: One-Token Procedural Memory for Large Language Models

Le papier présente TokMem, un cadre de mémoire procédurale qui encode chaque tâche réutilisable dans un seul token entraînable, permettant d'ajouter continuellement de nouvelles procédures sans modifier le modèle de base tout en surpassant les méthodes d'augmentation par récupération et le fine-tuning paramétrique efficace.

Zijun Wu, Yongchang Hao, Lili Mou2026-03-10💬 cs.CL

Stochastic Self-Organization in Multi-Agent Systems

L'article présente SelfOrg, un cadre d'auto-organisation pour les systèmes multi-agents basés sur les LLM qui optimise dynamiquement leur structure de communication en utilisant la valeur de Shapley pour réguler la propagation des réponses, démontrant ainsi une robustesse supérieure, notamment avec des modèles faibles, sans nécessiter de supervision ni d'entraînement supplémentaire.

Nurbek Tastan, Samuel Horvath, Karthik Nandakumar2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

Cette étude présente un pipeline autonome basé sur des agents LLM capable d'extraire à grande échelle des propriétés thermélectriques et structurales de milliers d'articles scientifiques, générant ainsi la plus vaste base de données curée par IA à ce jour pour accélérer la découverte de matériaux.

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

Le papier présente FOR-Prompting, un protocole de prompting asymétrique qui améliore le raisonnement et l'auto-révision des modèles de langage en faisant intervenir un « Défenseur », un « Débateur » et un « Hôte », permettant ainsi d'obtenir des performances supérieures aux méthodes classiques sans nécessiter d'entraînement ni d'accès aux paramètres internes du modèle.

He Zhang, Anzhou Zhang, Jian Dai2026-03-10💬 cs.CL

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

Ce papier présente DialTree, un cadre d'apprentissage par renforcement intégrant une recherche arborescente qui découvre automatiquement des stratégies d'attaque multi-tours innovantes contre les grands modèles de langage, surpassant significativement les méthodes existantes en termes de taux de réussite.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

An Senegalese Legal Texts Structuration Using LLM-augmented Knowledge Graph

Cette étude propose une structuration des textes juridiques sénégalais, notamment du Code foncier et du domaine public, en utilisant des modèles de langage avancés pour extraire près de 8 000 articles et construire un graphe de connaissances facilitant l'accès à l'information juridique pour les citoyens et les professionnels.

Oumar Kane, Mouhamad M. Allaya, Dame Samb + 1 more2026-03-10💬 cs.CL

Idiom Understanding as a Tool to Measure the Dialect Gap

Cet article propose trois nouveaux corpus d'expressions idiomatiques pour évaluer la compréhension des dialectes en français, révélant grâce à des tests sur 111 modèles de langage que la maîtrise du français métropolitain ne garantit pas la compréhension des variantes régionales comme le québécois, ce qui met en évidence un important fossé dialectal.

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard Khoury2026-03-10💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Ce papier présente NANOMIND, une approche de co-conception matériel-logiciel qui optimise l'inférence des modèles multimodaux sur des appareils autonomes à batterie en décomposant les modèles en modules exécutés dynamiquement sur les accélérateurs appropriés, réduisant ainsi la consommation d'énergie de 42,3 % et permettant une autonomie de près de 20,8 heures.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

Le papier présente ACE, un cadre d'édition de connaissances contrôlé par attribution qui améliore significativement la récupération de faits multi-sauts en identifiant et en modifiant les voies neuronales spécifiques aux sujets implicites, comblant ainsi une lacune majeure des méthodes existantes.

Jiayu Yang, Yuxuan Fan, Songning Lai, Shengen Wu, Jiaqi Tang, Chun Kang, Zhijiang Guo, Yutao Yue2026-03-10💬 cs.CL

R-WoM: Retrieval-augmented World Model For Computer-use Agents

Le papier propose R-WoM, un modèle de monde enrichi par la récupération d'informations factuelles pour pallier les hallucinations des grands modèles de langage et améliorer la fiabilité des simulations à long horizon dans les agents informatiques.

Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang2026-03-10💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

Le papier présente HypoSpace, une suite diagnostique qui évalue la capacité des grands modèles de langage à générer des ensembles d'hypothèses variées et valides dans des problèmes scientifiques sous-déterminés, en mettant en évidence des défaillances de diversité que les métriques de justesse traditionnelle masquent.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo Liu2026-03-10💬 cs.CL

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

Ce papier présente KrishokBondhu, un centre d'appels vocal basé sur l'IA générative augmentée par la récupération (RAG) conçu pour fournir des conseils agricoles experts en bengali aux agriculteurs du Bangladesh, démontrant lors d'une étude pilote une amélioration significative de la qualité et de la richesse contextuelle des réponses par rapport aux benchmarks existants.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman Rafat2026-03-10💬 cs.CL

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

SwiftEmbed est un système de production écrit en Rust qui offre des embeddings textuels ultra-rapides avec une latence de 1,12 ms grâce à une recherche de jetons statiques, permettant des applications en temps réel avec des performances compétitives pour des tâches de déduplication et de similarité sémantique.

Edouard Lansiaux, Antoine Simonet, Eric Wiel2026-03-10💬 cs.CL

← Précédent Suivant →