cs.CL articles | Gist.Science

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Ce rapport présente Jr. AI Scientist, un système autonome capable de générer des contributions scientifiques novatrices en suivant un flux de travail de recherche complet, tout en évaluant ses performances supérieures aux systèmes existants et en identifiant les risques et limites critiques nécessitant une supervision humaine.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

Ce papier propose HatePrototypes, des représentations vectorielles interprétables et transférables dérivées de modèles de langage, qui permettent de détecter efficacement à la fois les discours de haine explicites et implicites sans nécessiter de ré-ajustement fréquent des modèles.

Irina Proskurina, Marc-Antoine Carpentier, Julien Velcin2026-03-10💬 cs.CL

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

Cet article présente SPOT, le premier corpus annoté et benchmark en français permettant d'identifier les « points d'arrêt » dans les conversations en ligne, et démontre que les modèles encodeurs finement ajustés surpassent les grands modèles de langage pour cette tâche de détection de critiques subtiles.

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe Cointet2026-03-10💬 cs.CL

Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

Cette étude révèle que les modèles de langage multimodaux actuels éprouvent des difficultés significatives à composer des compétences entre différentes modalités, et que ni le prompting par chaîne de pensée ni un affinage spécifique ne parviennent à combler entièrement cet écart.

Paula Ontalvilla, Aitor Ormazabal, Gorka Azkune2026-03-10💬 cs.CL

Stealth Fine-Tuning: Efficiently Breaking Alignment in RVLMs Using Self-Generated CoT

Ce papier présente « Stealth Fine-Tuning », une méthode d'attaque efficace et peu coûteuse qui contourne les alignements de sécurité des modèles vision-langage à raisonnement (RVLM) en exploitant leurs traces de pensée pour générer des données d'entraînement malveillantes, permettant ainsi de briser leurs défenses avec un nombre minimal d'échantillons.

Le Yu, Zhengyue Zhao, Yawen Zheng, Yunhao Liu2026-03-10💬 cs.CL

Process-Centric Analysis of Agentic Software Systems

Ce papier présente Graphectory, une méthode d'analyse process-centrée des systèmes agentic qui encode leurs trajectoires sous forme de graphes pour révéler des insights sur leur raisonnement et permettre une intervention en temps réel améliorant significativement les taux de résolution des problèmes.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan Jabbarvand2026-03-10💬 cs.CL

SETUP: Sentence-level English-To-Uniform Meaning Representation Parser

Ce papier présente SETUP, un nouveau parseur qui atteint des performances élevées pour la conversion automatique du texte anglais en Représentation de Sens Uniforme (UMR) en exploitant soit des parseurs de Représentation de Sens Abstraite (AMR) affinés, soit une conversion à partir des Dépendances Universelles.

Emma Markle, Javier Gutierrez Bach, Shira Wein2026-03-10💬 cs.CL

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

Ce papier présente le Transformer Décodeur Parallèle (PDT), une architecture qui intègre un mécanisme de coordination interne via un espace latent semé par un planificateur et un bus de notes dynamiques, permettant à un modèle de langage figé de décomposer et de générer simultanément plusieurs flux de tokens synchronisés sans recourir à une orchestration externe.

Logan Robbins2026-03-10💬 cs.CL

CompanionCast: Toward Social Collaboration with Multi-Agent Systems in Shared Experiences

Le papier présente CompanionCast, un cadre général orchestrant plusieurs agents IA spécialisés pour améliorer la présence sociale et le partage émotionnel lors d'expériences partagées, comme démontré par des études pilotes sur le visionnage de matchs de football.

Yiyang Wang, Chen Chen, Tica Lin, Vishnu Raj, Josh Kimball, Alex Cabral, Josiah Hester2026-03-10💬 cs.CL

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Ce rapport de synthèse propose un cadre unifié en quatre paradigmes pour analyser l'adaptation des agents d'IA après l'entraînement préliminaire, en examinant les méthodes d'amélioration des agents et des outils, les architectures de mémoire adaptative et les compétences, tout en évaluant leurs compromis et en identifiant les défis futurs.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han2026-03-10💬 cs.CL

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Cet article présente un cadre vision-langage léger et explicable en deux étapes, basé sur un encodeur Swin Transformer et des décodeurs de type T5, qui atteint des performances quasi parfaites dans la classification des maladies des cultures et la réponse aux questions visuelles (VQA) tout en offrant une interprétabilité des prédictions.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

Le document présente NC-Bench, une nouvelle norme d'évaluation axée sur la structure et la forme des conversations naturelles plutôt que sur leur contenu, permettant de mesurer la compétence conversationnelle des grands modèles de langage à travers des tâches de gestion de séquences, d'inférence augmentée par la récupération (RAG) et de requêtes complexes.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits

Ce premier sondage systématique examine les interactions bidirectionnelles entre les grands modèles de langage et les bandits multi-bras, en démontrant comment ces derniers résolvent des défis clés des LLM tandis que les LLM redéfinissent les composants fondamentaux des algorithmes de bandits pour améliorer la prise de décision séquentielle.

Siguang Chen, Chunli Lv, Miao Xie2026-03-10🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Ce papier propose MAS-Orchestra, un cadre d'apprentissage par renforcement qui orchestre les systèmes multi-agents de manière holistique via des appels de fonctions, et introduit MASBENCH pour démontrer que les gains de performance dépendent de la structure des tâches, permettant ainsi d'obtenir des améliorations significatives et une efficacité supérieure sur divers benchmarks.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Ce papier présente le DFAH, un cadre d'évaluation qui démontre que la déterminisme et la précision des agents LLM financiers sont des métriques indépendantes, nécessitant une mesure conjointe pour garantir la reproductibilité des décisions lors des audits réglementaires.

Raffi Khatchadourian2026-03-10💬 cs.CL

EFT-CoT: A Multi-Agent Chain-of-Thought Framework for Emotion-Focused Therapy

Cet article présente EFT-CoT, un cadre multi-agents fondé sur la thérapie centrée sur les émotions qui améliore les réponses aux questions de santé mentale en intégrant un processus de trois étapes (perception incarnée, exploration cognitive et intervention narrative) et en entraînant un modèle spécialisé sur un jeu de données dérivé de 67 000 textes réels.

Lanqing Du, Yunong Li, YuJie Long, Shihong Chen2026-03-10💬 cs.CL

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

Ce travail améliore le modèle X-Codec-2.0 en réduisant son taux latent à 25 Hz et en augmentant sa fréquence d'échantillonnage à 24 kHz, ce qui permet d'obtenir une meilleure efficacité temporelle et une qualité audio supérieure sans modifier l'architecture de base.

Husein Zolkepli2026-03-10💬 cs.CL

RedSage: A Cybersecurity Generalist LLM

Le papier présente RedSage, un modèle de langage open-source spécialisé en cybersécurité entraîné sur un vaste corpus de données et des flux de travail simulés par des agents, qui surpasse les modèles de base sur des benchmarks spécifiques tout en améliorant ses capacités de raisonnement général.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto Damiani2026-03-10💬 cs.CL

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

Le papier présente Mem-T, un agent de mémoire autonome entraîné via le cadre RL MoT-GRPO pour densifier les récompenses et optimiser conjointement la construction et la récupération de mémoires sur des horizons longs, surpassant ainsi les méthodes existantes en performance et en efficacité.

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan Zhang2026-03-10🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Cette étude démontre que, pour la détection de valeurs humaines au niveau des phrases, la structure hiérarchique des valeurs de Schwartz est plus efficace en tant que biais inductif que comme règle de routage rigide, les meilleurs résultats étant obtenus grâce à l'ajustement des seuils et à l'ensemblage plutôt qu'aux architectures hiérarchiques strictes ou aux modèles de langage compacts.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

← Précédent Suivant →