Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Ce rapport présente Jr. AI Scientist, un système autonome capable de générer des contributions scientifiques novatrices en suivant un flux de travail de recherche complet, tout en évaluant ses performances supérieures aux systèmes existants et en identifiant les risques et limites critiques nécessitant une supervision humaine.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

Cet article présente SPOT, le premier corpus annoté et benchmark en français permettant d'identifier les « points d'arrêt » dans les conversations en ligne, et démontre que les modèles encodeurs finement ajustés surpassent les grands modèles de langage pour cette tâche de détection de critiques subtiles.

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe Cointet2026-03-10💬 cs.CL

Stealth Fine-Tuning: Efficiently Breaking Alignment in RVLMs Using Self-Generated CoT

Ce papier présente « Stealth Fine-Tuning », une méthode d'attaque efficace et peu coûteuse qui contourne les alignements de sécurité des modèles vision-langage à raisonnement (RVLM) en exploitant leurs traces de pensée pour générer des données d'entraînement malveillantes, permettant ainsi de briser leurs défenses avec un nombre minimal d'échantillons.

Le Yu, Zhengyue Zhao, Yawen Zheng, Yunhao Liu2026-03-10💬 cs.CL

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

Ce papier présente le Transformer Décodeur Parallèle (PDT), une architecture qui intègre un mécanisme de coordination interne via un espace latent semé par un planificateur et un bus de notes dynamiques, permettant à un modèle de langage figé de décomposer et de générer simultanément plusieurs flux de tokens synchronisés sans recourir à une orchestration externe.

Logan Robbins2026-03-10💬 cs.CL

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Ce rapport de synthèse propose un cadre unifié en quatre paradigmes pour analyser l'adaptation des agents d'IA après l'entraînement préliminaire, en examinant les méthodes d'amélioration des agents et des outils, les architectures de mémoire adaptative et les compétences, tout en évaluant leurs compromis et en identifiant les défis futurs.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han2026-03-10💬 cs.CL

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Cet article présente un cadre vision-langage léger et explicable en deux étapes, basé sur un encodeur Swin Transformer et des décodeurs de type T5, qui atteint des performances quasi parfaites dans la classification des maladies des cultures et la réponse aux questions visuelles (VQA) tout en offrant une interprétabilité des prédictions.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

Le document présente NC-Bench, une nouvelle norme d'évaluation axée sur la structure et la forme des conversations naturelles plutôt que sur leur contenu, permettant de mesurer la compétence conversationnelle des grands modèles de langage à travers des tâches de gestion de séquences, d'inférence augmentée par la récupération (RAG) et de requêtes complexes.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Ce papier propose MAS-Orchestra, un cadre d'apprentissage par renforcement qui orchestre les systèmes multi-agents de manière holistique via des appels de fonctions, et introduit MASBENCH pour démontrer que les gains de performance dépendent de la structure des tâches, permettant ainsi d'obtenir des améliorations significatives et une efficacité supérieure sur divers benchmarks.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

EFT-CoT: A Multi-Agent Chain-of-Thought Framework for Emotion-Focused Therapy

Cet article présente EFT-CoT, un cadre multi-agents fondé sur la thérapie centrée sur les émotions qui améliore les réponses aux questions de santé mentale en intégrant un processus de trois étapes (perception incarnée, exploration cognitive et intervention narrative) et en entraînant un modèle spécialisé sur un jeu de données dérivé de 67 000 textes réels.

Lanqing Du, Yunong Li, YuJie Long, Shihong Chen2026-03-10💬 cs.CL

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Cette étude démontre que, pour la détection de valeurs humaines au niveau des phrases, la structure hiérarchique des valeurs de Schwartz est plus efficace en tant que biais inductif que comme règle de routage rigide, les meilleurs résultats étant obtenus grâce à l'ajustement des seuils et à l'ensemblage plutôt qu'aux architectures hiérarchiques strictes ou aux modèles de langage compacts.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG