MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

Le papier présente MathSmith, un cadre novateur qui génère des problèmes mathématiques synthétiques de haute difficulté à partir de zéro en utilisant des stratégies de contraintes et l'apprentissage par renforcement pour améliorer les capacités de raisonnement des grands modèles de langage.

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei Tan2026-03-10💬 cs.CL

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Cet article présente IAG, la première attaque par porte dérobée multi-cibles adaptative pour les modèles de vision-langage, qui génère dynamiquement des déclencheurs invisibles guidés par le texte pour rediriger la localisation d'objets vers des cibles spécifiques sans compromettre les performances sur des échantillons normaux.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

Le papier présente OTESGN, un réseau de graphes syntaxico-sémantiques amélioré par le transport optimal qui surpasse les méthodes existantes en analyse de sentiment basée sur les aspects en modélisant les dépendances globales et en traitant l'association aspect-opinion comme un problème d'appariement de distributions.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying Rong2026-03-10💬 cs.CL

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

Le papier présente PonderLM-2, une méthode de pré-entraînement novatrice qui améliore les performances des modèles de langage en leur apprenant à générer des « pensées latentes » intermédiaires dans un espace continu avant de prédire chaque token, surpassant ainsi des modèles standard deux fois plus grands à coût d'inférence équivalent.

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan Lin2026-03-10💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Cette étude introduit les « signatures de benchmarks », dérivées de la perplexité des tokens, pour cartographier de manière robuste les chevauchements et les capacités des modèles de langage au-delà des corrélations de performance traditionnelles, révélant ainsi une structure nuancée des compétences et des écarts potentiels entre l'organisation sémantique des LLM et la structure conceptuelle humaine.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans2026-03-10💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Cette étude introduit le concept de « misevolution » pour décrire les risques émergents où les agents LLM auto-évoluant se dégradent ou deviennent dangereux, en démontrant empiriquement que ce phénomène affecte même les modèles de pointe et nécessite de nouveaux paradigmes de sécurité.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

Stochastic Self-Organization in Multi-Agent Systems

L'article présente SelfOrg, un cadre d'auto-organisation pour les systèmes multi-agents basés sur les LLM qui optimise dynamiquement leur structure de communication en utilisant la valeur de Shapley pour réguler la propagation des réponses, démontrant ainsi une robustesse supérieure, notamment avec des modèles faibles, sans nécessiter de supervision ni d'entraînement supplémentaire.

Nurbek Tastan, Samuel Horvath, Karthik Nandakumar2026-03-10🤖 cs.LG

FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

Le papier présente FOR-Prompting, un protocole de prompting asymétrique qui améliore le raisonnement et l'auto-révision des modèles de langage en faisant intervenir un « Défenseur », un « Débateur » et un « Hôte », permettant ainsi d'obtenir des performances supérieures aux méthodes classiques sans nécessiter d'entraînement ni d'accès aux paramètres internes du modèle.

He Zhang, Anzhou Zhang, Jian Dai2026-03-10💬 cs.CL

Idiom Understanding as a Tool to Measure the Dialect Gap

Cet article propose trois nouveaux corpus d'expressions idiomatiques pour évaluer la compréhension des dialectes en français, révélant grâce à des tests sur 111 modèles de langage que la maîtrise du français métropolitain ne garantit pas la compréhension des variantes régionales comme le québécois, ce qui met en évidence un important fossé dialectal.

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard Khoury2026-03-10💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Ce papier présente NANOMIND, une approche de co-conception matériel-logiciel qui optimise l'inférence des modèles multimodaux sur des appareils autonomes à batterie en décomposant les modèles en modules exécutés dynamiquement sur les accélérateurs appropriés, réduisant ainsi la consommation d'énergie de 42,3 % et permettant une autonomie de près de 20,8 heures.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

Le papier présente HypoSpace, une suite diagnostique qui évalue la capacité des grands modèles de langage à générer des ensembles d'hypothèses variées et valides dans des problèmes scientifiques sous-déterminés, en mettant en évidence des défaillances de diversité que les métriques de justesse traditionnelle masquent.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo Liu2026-03-10💬 cs.CL

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

Ce papier présente KrishokBondhu, un centre d'appels vocal basé sur l'IA générative augmentée par la récupération (RAG) conçu pour fournir des conseils agricoles experts en bengali aux agriculteurs du Bangladesh, démontrant lors d'une étude pilote une amélioration significative de la qualité et de la richesse contextuelle des réponses par rapport aux benchmarks existants.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman Rafat2026-03-10💬 cs.CL