Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Cet article présente une méthode de génération augmentée par récupération (RAG) consciente des types et assurant la clôture des dépendances, qui transforme des exigences en langage naturel en modèles d'optimisation industrielle exécutables en construisant une base de connaissances typée et en calculant le contexte minimal nécessaire pour éviter les erreurs de compilation.

Y. Zhong, R. Huang, M. Wang + 4 more2026-03-04💬 cs.CL

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Ce papier présente BeyondSWE, un nouveau benchmark évaluant les agents de code au-delà des correctifs de dépôts uniques, et SearchSWE, un cadre d'augmentation par recherche, révélant que les modèles actuels peinent à maîtriser des tâches complexes multi-dépôts et que l'intégration de la recherche n'améliore pas systématiquement leurs performances.

Guoxin Chen, Fanzhe Meng, Jiale Zhao + 12 more2026-03-04💬 cs.CL

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Ce rapport présente ACE-Brain-0, un cerveau fondationnel généraliste qui unifie le raisonnement spatial, la conduite autonome et la manipulation robotique au sein d'un seul modèle multimodal en exploitant l'intelligence spatiale comme échafaudage universel et en appliquant une nouvelle paradigme « Échafaudage-Spécialisation-Réconciliation » pour surmonter les défis de l'apprentissage multi-embodiments.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Le papier présente MOSAIC, un cadre de post-entraînement qui aligne les modèles d'agents sur une utilisation sécurisée des outils multi-étapes en intégrant un raisonnement explicite sur la sécurité et un refus comme actions primaires, réduisant ainsi les comportements nuisibles et les fuites de confidentialité tout en préservant les performances sur les tâches bénignes.

Aradhye Agarwal, Gurdit Siyan, Yash Pandya + 3 more2026-03-04💬 cs.CL

Understanding and Mitigating Dataset Corruption in LLM Steering

Cette étude examine la robustesse du pilotage contrastif des grands modèles de langage face à la corruption des données, révélant que bien que la méthode résiste à un bruit modéré, des altérations malveillantes peuvent avoir des effets indésirables, lesquels peuvent être atténués en remplaçant le calcul de moyenne standard par un estimateur de moyenne robuste.

Cullen Anderson, Narmeen Oozeer, Foad Namjoo + 3 more2026-03-04💬 cs.CL

Scaling Knowledge Graph Construction through Synthetic Data Generation and Distillation

Ce papier présente SynthKG, une méthode de génération de données synthétiques et de distillation qui permet à un modèle de langage plus petit de surpasser des modèles beaucoup plus grands dans la construction de graphes de connaissances à l'échelle document, tout en améliorant les performances des systèmes de récupération et de réponse aux questions.

Prafulla Kumar Choubey, Xin Su, Man Luo + 9 more2026-03-03💬 cs.CL

Polynomial, trigonometric, and tropical activations

Cet article présente des fonctions d'activation basées sur des bases orthogonales (polynomiales, trigonométriques et tropicales) qui, grâce à une initialisation préservant la variance, permettent d'entraîner efficacement des modèles profonds comme GPT-2 et ConvNeXt tout en évitant les problèmes d'explosion ou de disparition des gradients et en facilitant le fine-tuning via l'interpolation d'Hermite.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

Ce papier présente LLM-ProS, une nouvelle méthode d'évaluation qui mesure les performances de cinq modèles de langage de pointe sur 166 problèmes de programmation compétitive du ICPC, révélant des écarts significatifs dans leurs capacités de raisonnement et d'adaptation tout en analysant l'impact de l'entraînement et du raisonnement par chaîne de pensée.

Md Sifat Hossain, Anika Tabassum, Md. Fahim Arefin + 1 more2026-03-03💬 cs.CL

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Cet article présente un cadre d'adaptation robuste pour les grands modèles multimodaux qui améliore la détection des mèmes haineux en augmentant la précision intra-domaine, la généralisation inter-domaines et la résilience aux attaques adverses, tout en surpassant les systèmes existants et en fournissant des justifications plus interprétables.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL