When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Cet article propose un cadre théorique de décomposition du bruit pour analyser les échecs des LLMs sur de longs contextes et démontre que l'approche par découpage et agrégation (multi-agent chunking) permet de surpasser des modèles avancés en traitement unique grâce à une gestion optimisée des dépendances croisées, de la confusion contextuelle et de l'intégration des résultats.

Zhen Xu, Shang Zhu, Jue Wang + 5 more2026-03-03💬 cs.CL

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

Bien que l'entraînement par renforcement post-formation (RPT) améliore significativement les capacités de raisonnement des grands modèles de langage sur des tâches similaires aux données d'ajustement, cette étude démontre que ces gains se généralisent de manière incohérente et peuvent disparaître sur des domaines aux schémas de raisonnement différents.

Chuxuan Hu, Yuxuan Zhu, Antony Kellermann + 4 more2026-03-03💬 cs.CL

FrugalRAG: Less is More in RL Finetuning for Multi-Hop Question Answering

Le papier propose FrugalRAG, un cadre d'affinage en deux étapes combinant apprentissage supervisé et apprentissage par renforcement pour adapter dynamiquement la profondeur de recherche aux questions, permettant ainsi d'atteindre des performances de pointe en réponse aux questions multi-étapes avec une efficacité accrue et une réduction des coûts de récupération.

Abhinav Java, Srivathsan Koundinyan, Nagarajan Natarajan + 1 more2026-03-03💬 cs.CL