Stochastic Self-Organization in Multi-Agent Systems

L'article présente SelfOrg, un cadre d'auto-organisation pour les systèmes multi-agents basés sur les LLM qui optimise dynamiquement leur structure de communication en utilisant la valeur de Shapley pour réguler la propagation des réponses, démontrant ainsi une robustesse supérieure, notamment avec des modèles faibles, sans nécessiter de supervision ni d'entraînement supplémentaire.

Nurbek Tastan, Samuel Horvath, Karthik NandakumarTue, 10 Ma🤖 cs.LG

FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

Le papier présente FOR-Prompting, un protocole de prompting asymétrique qui améliore le raisonnement et l'auto-révision des modèles de langage en faisant intervenir un « Défenseur », un « Débateur » et un « Hôte », permettant ainsi d'obtenir des performances supérieures aux méthodes classiques sans nécessiter d'entraînement ni d'accès aux paramètres internes du modèle.

He Zhang, Anzhou Zhang, Jian DaiTue, 10 Ma💬 cs.CL

Idiom Understanding as a Tool to Measure the Dialect Gap

Cet article propose trois nouveaux corpus d'expressions idiomatiques pour évaluer la compréhension des dialectes en français, révélant grâce à des tests sur 111 modèles de langage que la maîtrise du français métropolitain ne garantit pas la compréhension des variantes régionales comme le québécois, ce qui met en évidence un important fossé dialectal.

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard KhouryTue, 10 Ma💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Ce papier présente NANOMIND, une approche de co-conception matériel-logiciel qui optimise l'inférence des modèles multimodaux sur des appareils autonomes à batterie en décomposant les modèles en modules exécutés dynamiquement sur les accélérateurs appropriés, réduisant ainsi la consommation d'énergie de 42,3 % et permettant une autonomie de près de 20,8 heures.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

Le papier présente HypoSpace, une suite diagnostique qui évalue la capacité des grands modèles de langage à générer des ensembles d'hypothèses variées et valides dans des problèmes scientifiques sous-déterminés, en mettant en évidence des défaillances de diversité que les métriques de justesse traditionnelle masquent.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo LiuTue, 10 Ma💬 cs.CL

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

Ce papier présente KrishokBondhu, un centre d'appels vocal basé sur l'IA générative augmentée par la récupération (RAG) conçu pour fournir des conseils agricoles experts en bengali aux agriculteurs du Bangladesh, démontrant lors d'une étude pilote une amélioration significative de la qualité et de la richesse contextuelle des réponses par rapport aux benchmarks existants.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman RafatTue, 10 Ma💬 cs.CL

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Ce rapport présente Jr. AI Scientist, un système autonome capable de générer des contributions scientifiques novatrices en suivant un flux de travail de recherche complet, tout en évaluant ses performances supérieures aux systèmes existants et en identifiant les risques et limites critiques nécessitant une supervision humaine.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu AizawaTue, 10 Ma🤖 cs.LG

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

Cet article présente SPOT, le premier corpus annoté et benchmark en français permettant d'identifier les « points d'arrêt » dans les conversations en ligne, et démontre que les modèles encodeurs finement ajustés surpassent les grands modèles de langage pour cette tâche de détection de critiques subtiles.

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe CointetTue, 10 Ma💬 cs.CL

Stealth Fine-Tuning: Efficiently Breaking Alignment in RVLMs Using Self-Generated CoT

Ce papier présente « Stealth Fine-Tuning », une méthode d'attaque efficace et peu coûteuse qui contourne les alignements de sécurité des modèles vision-langage à raisonnement (RVLM) en exploitant leurs traces de pensée pour générer des données d'entraînement malveillantes, permettant ainsi de briser leurs défenses avec un nombre minimal d'échantillons.

Le Yu, Zhengyue Zhao, Yawen Zheng, Yunhao LiuTue, 10 Ma💬 cs.CL

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

Ce papier présente le Transformer Décodeur Parallèle (PDT), une architecture qui intègre un mécanisme de coordination interne via un espace latent semé par un planificateur et un bus de notes dynamiques, permettant à un modèle de langage figé de décomposer et de générer simultanément plusieurs flux de tokens synchronisés sans recourir à une orchestration externe.

Logan RobbinsTue, 10 Ma💬 cs.CL

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Ce rapport de synthèse propose un cadre unifié en quatre paradigmes pour analyser l'adaptation des agents d'IA après l'entraînement préliminaire, en examinant les méthodes d'amélioration des agents et des outils, les architectures de mémoire adaptative et les compétences, tout en évaluant leurs compromis et en identifiant les défis futurs.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei HanTue, 10 Ma💬 cs.CL