cs.CL articles | Gist.Science

Stochastic Self-Organization in Multi-Agent Systems

L'article présente SelfOrg, un cadre d'auto-organisation pour les systèmes multi-agents basés sur les LLM qui optimise dynamiquement leur structure de communication en utilisant la valeur de Shapley pour réguler la propagation des réponses, démontrant ainsi une robustesse supérieure, notamment avec des modèles faibles, sans nécessiter de supervision ni d'entraînement supplémentaire.

Nurbek Tastan, Samuel Horvath, Karthik NandakumarTue, 10 Ma🤖 cs.LG

FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

Le papier présente FOR-Prompting, un protocole de prompting asymétrique qui améliore le raisonnement et l'auto-révision des modèles de langage en faisant intervenir un « Défenseur », un « Débateur » et un « Hôte », permettant ainsi d'obtenir des performances supérieures aux méthodes classiques sans nécessiter d'entraînement ni d'accès aux paramètres internes du modèle.

He Zhang, Anzhou Zhang, Jian DaiTue, 10 Ma💬 cs.CL

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

Ce papier présente DialTree, un cadre d'apprentissage par renforcement intégrant une recherche arborescente qui découvre automatiquement des stratégies d'attaque multi-tours innovantes contre les grands modèles de langage, surpassant significativement les méthodes existantes en termes de taux de réussite.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan RothTue, 10 Ma🤖 cs.LG

Idiom Understanding as a Tool to Measure the Dialect Gap

Cet article propose trois nouveaux corpus d'expressions idiomatiques pour évaluer la compréhension des dialectes en français, révélant grâce à des tests sur 111 modèles de langage que la maîtrise du français métropolitain ne garantit pas la compréhension des variantes régionales comme le québécois, ce qui met en évidence un important fossé dialectal.

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard KhouryTue, 10 Ma💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Ce papier présente NANOMIND, une approche de co-conception matériel-logiciel qui optimise l'inférence des modèles multimodaux sur des appareils autonomes à batterie en décomposant les modèles en modules exécutés dynamiquement sur les accélérateurs appropriés, réduisant ainsi la consommation d'énergie de 42,3 % et permettant une autonomie de près de 20,8 heures.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

Le papier présente ACE, un cadre d'édition de connaissances contrôlé par attribution qui améliore significativement la récupération de faits multi-sauts en identifiant et en modifiant les voies neuronales spécifiques aux sujets implicites, comblant ainsi une lacune majeure des méthodes existantes.

Jiayu Yang, Yuxuan Fan, Songning Lai, Shengen Wu, Jiaqi Tang, Chun Kang, Zhijiang Guo, Yutao YueTue, 10 Ma💬 cs.CL

R-WoM: Retrieval-augmented World Model For Computer-use Agents

Le papier propose R-WoM, un modèle de monde enrichi par la récupération d'informations factuelles pour pallier les hallucinations des grands modèles de langage et améliorer la fiabilité des simulations à long horizon dans les agents informatiques.

Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong JiangTue, 10 Ma💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

Le papier présente HypoSpace, une suite diagnostique qui évalue la capacité des grands modèles de langage à générer des ensembles d'hypothèses variées et valides dans des problèmes scientifiques sous-déterminés, en mettant en évidence des défaillances de diversité que les métriques de justesse traditionnelle masquent.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo LiuTue, 10 Ma💬 cs.CL

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

Ce papier présente KrishokBondhu, un centre d'appels vocal basé sur l'IA générative augmentée par la récupération (RAG) conçu pour fournir des conseils agricoles experts en bengali aux agriculteurs du Bangladesh, démontrant lors d'une étude pilote une amélioration significative de la qualité et de la richesse contextuelle des réponses par rapport aux benchmarks existants.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman RafatTue, 10 Ma💬 cs.CL

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

SwiftEmbed est un système de production écrit en Rust qui offre des embeddings textuels ultra-rapides avec une latence de 1,12 ms grâce à une recherche de jetons statiques, permettant des applications en temps réel avec des performances compétitives pour des tâches de déduplication et de similarité sémantique.

Edouard Lansiaux, Antoine Simonet, Eric WielTue, 10 Ma💬 cs.CL

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Ce rapport présente Jr. AI Scientist, un système autonome capable de générer des contributions scientifiques novatrices en suivant un flux de travail de recherche complet, tout en évaluant ses performances supérieures aux systèmes existants et en identifiant les risques et limites critiques nécessitant une supervision humaine.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu AizawaTue, 10 Ma🤖 cs.LG

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

Ce papier propose HatePrototypes, des représentations vectorielles interprétables et transférables dérivées de modèles de langage, qui permettent de détecter efficacement à la fois les discours de haine explicites et implicites sans nécessiter de ré-ajustement fréquent des modèles.

Irina Proskurina, Marc-Antoine Carpentier, Julien VelcinTue, 10 Ma💬 cs.CL

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

Cet article présente SPOT, le premier corpus annoté et benchmark en français permettant d'identifier les « points d'arrêt » dans les conversations en ligne, et démontre que les modèles encodeurs finement ajustés surpassent les grands modèles de langage pour cette tâche de détection de critiques subtiles.

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe CointetTue, 10 Ma💬 cs.CL

Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

Cette étude révèle que les modèles de langage multimodaux actuels éprouvent des difficultés significatives à composer des compétences entre différentes modalités, et que ni le prompting par chaîne de pensée ni un affinage spécifique ne parviennent à combler entièrement cet écart.

Paula Ontalvilla, Aitor Ormazabal, Gorka AzkuneTue, 10 Ma💬 cs.CL

Stealth Fine-Tuning: Efficiently Breaking Alignment in RVLMs Using Self-Generated CoT

Ce papier présente « Stealth Fine-Tuning », une méthode d'attaque efficace et peu coûteuse qui contourne les alignements de sécurité des modèles vision-langage à raisonnement (RVLM) en exploitant leurs traces de pensée pour générer des données d'entraînement malveillantes, permettant ainsi de briser leurs défenses avec un nombre minimal d'échantillons.

Le Yu, Zhengyue Zhao, Yawen Zheng, Yunhao LiuTue, 10 Ma💬 cs.CL

Process-Centric Analysis of Agentic Software Systems

Ce papier présente Graphectory, une méthode d'analyse process-centrée des systèmes agentic qui encode leurs trajectoires sous forme de graphes pour révéler des insights sur leur raisonnement et permettre une intervention en temps réel améliorant significativement les taux de résolution des problèmes.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan JabbarvandTue, 10 Ma💬 cs.CL

SETUP: Sentence-level English-To-Uniform Meaning Representation Parser

Ce papier présente SETUP, un nouveau parseur qui atteint des performances élevées pour la conversion automatique du texte anglais en Représentation de Sens Uniforme (UMR) en exploitant soit des parseurs de Représentation de Sens Abstraite (AMR) affinés, soit une conversion à partir des Dépendances Universelles.

Emma Markle, Javier Gutierrez Bach, Shira WeinTue, 10 Ma💬 cs.CL

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

Ce papier présente le Transformer Décodeur Parallèle (PDT), une architecture qui intègre un mécanisme de coordination interne via un espace latent semé par un planificateur et un bus de notes dynamiques, permettant à un modèle de langage figé de décomposer et de générer simultanément plusieurs flux de tokens synchronisés sans recourir à une orchestration externe.

Logan RobbinsTue, 10 Ma💬 cs.CL

CompanionCast: Toward Social Collaboration with Multi-Agent Systems in Shared Experiences

Le papier présente CompanionCast, un cadre général orchestrant plusieurs agents IA spécialisés pour améliorer la présence sociale et le partage émotionnel lors d'expériences partagées, comme démontré par des études pilotes sur le visionnage de matchs de football.

Yiyang Wang, Chen Chen, Tica Lin, Vishnu Raj, Josh Kimball, Alex Cabral, Josiah HesterTue, 10 Ma💬 cs.CL

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Ce rapport de synthèse propose un cadre unifié en quatre paradigmes pour analyser l'adaptation des agents d'IA après l'entraînement préliminaire, en examinant les méthodes d'amélioration des agents et des outils, les architectures de mémoire adaptative et les compétences, tout en évaluant leurs compromis et en identifiant les défis futurs.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei HanTue, 10 Ma💬 cs.CL

← Précédent Suivant →