cs.CL articles | Gist.Science

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Cet article présente une étude systématique du risque de confidentialité lié à l'orchestration d'outils par les agents autonomes, introduisant un cadre formel, un benchmark (TOP-Bench) et des stratégies d'atténuation pour prévenir la synthèse involontaire d'informations sensibles à partir de fragments non sensibles.

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin Hu2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Ce papier présente WBC, une nouvelle méthode d'attaque par inférence de membre qui surpasse les approches existantes en exploitant des signaux de mémorisation localisés via une comparaison glissante de fenêtres, révélant ainsi des vulnérabilités critiques de confidentialité dans les grands modèles de langage affinés.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

Ce papier présente un cadre d'affinage de modèles de langage pour générer du contenu éducatif adapté à six niveaux scolaires, améliorant significativement l'alignement avec le niveau de compréhension des élèves tout en préservant l'exactitude factuelle.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

Ce papier présente le cadre PyMUSAS, qui évalue et améliore le système d'analyse sémantique USAS en combinant des règles et des réseaux de neurones sur des données multilingues (y compris un nouveau jeu de données chinois) et des données « silver standard », tout en rendant les ressources et le code disponibles en open source.

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

Cet article propose la Décodage d'Exploration Latente (LED), une stratégie de décodage sans entraînement qui exploite l'asymétrie d'entropie entre les couches intermédiaires et finales des modèles de raisonnement pour restaurer l'exploration et améliorer les performances de raisonnement.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

Le papier présente COMI, un cadre de compression de contexte adaptatif en deux étapes qui utilise la Gain d'Information Marginale (MIG) pour optimiser la pertinence sémantique et la diversité, surpassant ainsi les méthodes existantes dans des scénarios de contexte long.

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng, Wenbo Su, Bo Zheng2026-03-09💬 cs.CL

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Cet article présente des études de cas et des techniques démontrant comment la collaboration avec les modèles Gemini permet d'accélérer la recherche scientifique en résolvant des problèmes ouverts, en réfutant des conjectures et en générant de nouvelles preuves à travers des méthodologies interactives et neuro-symboliques.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

Ce travail présente Aletheia, un agent de recherche mathématique autonome capable de générer, vérifier et réviser des solutions de bout en bout, démontrant ainsi des avancées significatives allant de la résolution de problèmes olympiques à la production de résultats de recherche doctorale et à la collaboration humain-IA.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Le papier présente DataChef-32B, un système d'apprentissage par renforcement qui automatise la génération de « recettes de données » optimales pour l'adaptation des grands modèles de langage, surpassant ainsi l'expertise humaine et les checkpoints officiels sur des tâches spécialisées comme les mathématiques.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Cet article critique l'illusion positiviste du « ground truth » en montrant comment les pratiques d'annotation actuelles étouffent la subjectivité humaine au profit d'un consensus artificiel, et propose de réhabiliter le désaccord comme un signal essentiel pour construire des modèles culturellement compétents.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

Ce papier présente IntelliAsk, un modèle entraîné par renforcement avec une récompense (RLVR) utilisant le modèle de récompense IntelliReward pour générer des questions de revue de recherche de haute qualité, fondées sur des preuves et plus approfondies que celles produites par les modèles actuels.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference

Cet article propose une nouvelle méthode d'annotation pour la résolution de la coréférence inter-documentaire dans le domaine des actualités, qui traite les chaînes de coréférence comme des éléments discursifs afin de mieux capturer la diversité lexicale et les variations de cadrage dans les médias.

Anastasia Zhukova, Felix Hamborg, Karsten Donnay, Norman Meuschke, Bela Gipp2026-03-09💬 cs.CL

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Cette étude démontre que les modèles de langage vocaux actuels se comportent souvent comme des chaînes ASR-LLM coûteuses et moins performantes en présence de bruit, car leurs représentations internes révèlent une dépendance causale aux transcriptions textuelles plutôt qu'à l'audio brut.

Jayadev Billa2026-03-09🤖 cs.AI

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Ce papier introduit de nouvelles métriques pour évaluer les agents LLM dans le contexte du « Text-to-Big SQL », démontrant que les mesures traditionnelles de Text-to-SQL sont insuffisantes pour capturer les impacts réels de l'échelle des données sur les coûts, la latence et l'efficacité d'exécution.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-Artigas2026-03-09💬 cs.CL

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Cet article démontre que l'effondrement de modalité dans les LLM multimodaux résulte d'un décodage inadapté où la perte d'information est limitée par la divergence distributionnelle et la sensibilité du modèle, prouvant que l'objectif d'entraînement, et non l'architecture, détermine quelles informations non textuelles deviennent accessibles.

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

Le papier présente CoME, une architecture d'agents mobiles innovante composée d'experts spécialisés et entraînée via une stratégie progressive et une méthode DPO guidée par le gain d'information pour optimiser le raisonnement hybride et surpasser les méthodes existantes sur les jeux de données AITZ et AMEX.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Verify as You Go: An LLM-Powered Browser Extension for Fake News Detection

Ce papier présente Aletheia, une extension de navigateur innovante alimentée par des modèles de langage et la génération augmentée par récupération (RAG) qui détecte les fausses nouvelles avec des explications fondées sur des preuves et favorise l'engagement utilisateur, surpassant les solutions existantes tant sur le plan de la performance technique que de l'utilisabilité.

Dorsaf Sallami, Esma Aïmeur2026-03-09💬 cs.CL

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Ce papier présente Omni-C, un encodeur Transformer dense unique qui compresse des modalités hétérogènes (images, audio, texte) en apprenant des représentations partagées via un pré-entraînement contrastif, permettant ainsi de réduire considérablement la complexité computationnelle et l'empreinte mémoire par rapport aux architectures multimodales traditionnelles.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding

Cet article établit un cadre théorique unifié pour le décodage contraint par grammaire, démontrant que l'équivalence linguistique n'implique pas l'efficacité computationnelle et prouvant que la complexité structurelle inhérente à certaines grammaires impose des bornes inférieures incompressibles sur le coût de décodage, tout en fournissant des métriques d'optimisation et des garanties de distorsion pour les architectures de modèles de langage modernes.

Faruk Alpay, Bilge Senturk2026-03-09🤖 cs.LG

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Le papier présente EigenData, une plateforme multi-agents auto-évolutive qui automatise la synthèse, l'audit et la réparation des données d'appel de fonctions, permettant de corriger le benchmark BFCL-V3 et d'établir une évaluation axée sur le succès des tâches qui correspond mieux aux jugements humains.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin2026-03-09✓ Author reviewed🤖 cs.AI

← Précédent Suivant →

cs.CL