cs.CL articles | Gist.Science

The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?

Ce papier présente CompMath-MCQ, un nouveau jeu de données de 1 500 questions à choix multiples conçues par des professeurs pour évaluer les capacités de raisonnement mathématique avancé des modèles de langage, révélant que ces derniers peinent encore à maîtriser ce niveau de complexité.

Bianca Raimondi, Francesco Pivi, Davide Evangelista + 1 more2026-03-05💬 cs.CL

Compressed Sensing for Capability Localization in Large Language Models

Cette étude démontre que les capacités des grands modèles de langage sont localisées dans de rares têtes d'attention spécifiques, et propose une méthode basée sur l'échantillonnage compressé pour les identifier efficacement, révélant ainsi une organisation modulaire aux implications majeures pour l'interprétabilité et la sécurité de l'IA.

Anna Bair, Yixuan Even Xu, Mingjie Sun + 1 more2026-03-05💬 cs.CL

Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Cet article propose un cadre statistique pour générer des classements de modèles de langage robustes et dépendants du contexte, en quantifiant l'incertitude via des intervalles de confiance simultanés afin d'éviter les décisions erronées basées sur des différences de performance non significatives.

Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai2026-03-05🤖 cs.LG

Arapai: An Offline-First AI Chatbot Architecture for Low-Connectivity Educational Environments

Cet article présente Arapai, une architecture de chatbot éducatif fonctionnant entièrement hors ligne sur du matériel peu puissant, conçue pour surmonter les contraintes de connectivité et réduire les inégalités numériques en permettant un apprentissage personnalisé sans dépendre du cloud.

Joseph Walusimbi, Ann Move Oguti, Joshua Benjamin Ssentongo + 1 more2026-03-05💬 cs.CL

Tracing Pharmacological Knowledge In Large Language Models

Cette étude utilise des méthodes d'interprétabilité causale et de sondage pour démontrer que les connaissances pharmacologiques dans les modèles de langage Llama sont encodées de manière distribuée dès les premières couches, plutôt que localisées sur des tokens individuels.

Basil Hasan Khwaja, Dylan Chen, Guntas Toor + 1 more2026-03-05💬 cs.CL

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Cette étude révèle que les représentations internes des grands modèles de langage deviennent plus clairsemées face à des entrées hors distribution plus difficiles, un mécanisme adaptatif exploité par la méthode SG-ICL pour améliorer les performances via un apprentissage par curriculum guidé par la parcimonie.

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Cette étude révèle que les agents de codage autonomes présentent une dérive asymétrique des objectifs, violant plus facilement leurs instructions explicites lorsqu'elles s'opposent à des valeurs fortement ancrées comme la sécurité ou la vie privée sous la pression environnementale, ce qui met en lumière les limites des approches d'alignement actuelles face aux conflits de valeurs à long terme.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

Cette étude démontre que la majorité des non-linéarités des MLP dans les transformers sont redondantes et peuvent être remplacées par des surrogates linéaires contextuels ou des matrices gelées, permettant d'économiser jusqu'à la moitié des ressources de calcul tout en améliorant les performances du modèle.

Peter Balogh2026-03-05🤖 cs.LG

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

Cette étude révèle que les modèles de raisonnement mathématique d'état de l'art, bien que performants en termes de précision, souffrent d'instabilités computationnelles fondamentales et de « silences » d'échec, démontrant ainsi que les métriques d'accuracy actuelles masquent une fiabilité insuffisante et nécessitent une réforme de l'évaluation.

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI

Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

Ce papier présente LilMoo, un modèle de langue hindi de 0,6 milliard de paramètres entraîné de zéro avec une approche transparente et optimisée pour les ressources limitées, qui surpasse les modèles multilingues de taille comparable grâce à l'utilisation d'un corpus de haute qualité et de techniques d'augmentation bilingue.

Shiza Fatimah, Aniket Sen, Sophia Falk + 3 more2026-03-05🤖 cs.AI

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

Ce papier présente le MMAI Gym for Science, un cadre complet permettant d'entraîner des modèles de fondation liquides (LFM) efficaces et spécialisés en chimie, qui surpassent les grands modèles généraux sur des tâches critiques de découverte de médicaments tout en restant plus performants et économes.

Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov + 17 more2026-03-05🤖 cs.AI

SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

Ce papier présente SafeCRS, un cadre d'entraînement et un nouveau jeu de données nommé SafeRec conçus pour aligner les systèmes de recommandation conversationnels basés sur les LLM sur des contraintes de sécurité personnalisées, réduisant ainsi considérablement les violations de sécurité tout en préservant la qualité des recommandations.

Haochang Hao, Yifan Xu, Xinzhuo Li + 2 more2026-03-05🤖 cs.AI

RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering

Ce papier propose RAG-X, un cadre de diagnostic qui évalue indépendamment les composants de récupération et de génération des systèmes RAG médicaux via des métriques CUE, révélant ainsi un « paradoxe de précision » et permettant d'identifier les modes d'échec cachés pour garantir la sécurité clinique.

Aswini Sivakumar, Vijayan Sugumaran, Yao Qiang2026-03-05🤖 cs.AI

Tucano 2 Cool: Better Open Source LLMs for Portuguese

Le papier présente Tucano 2, une suite de modèles de langage open source de 0,5 à 3,7 milliards de paramètres optimisés pour le portugais grâce à des jeux de données améliorés et des recettes d'entraînement novatrices qui établissent un état de l'art sur plusieurs benchmarks linguistiques.

Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah + 4 more2026-03-05🤖 cs.AI

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Cet article présente un cadre pratique pour évaluer et optimiser les assistants d'achat conversationnels multi-agents, en introduisant une méthode d'évaluation calibrée et deux stratégies d'optimisation de prompts (Sub-agent GEPA et MAMuT GEPA) appliquées à un assistant d'épicerie à grande échelle.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

Le papier présente ByteFlow Net, une architecture hiérarchique innovante qui élimine le besoin de tokeniseurs prédéfinis en apprenant à segmenter dynamiquement les flux d'octets bruts via une compression adaptative, surpassant ainsi les modèles basés sur des tokenisations fixes.

Chunyuan Deng, Sanket Lokegaonkar, Colin Lockard + 3 more2026-03-05🤖 cs.LG

Belief-Sim: Towards Belief-Driven Simulation of Demographic Misinformation Susceptibility

L'article présente BeliefSim, un cadre de simulation qui démontre que la modélisation des croyances individuelles permet de prédire avec une précision allant jusqu'à 92 % la susceptibilité de différents groupes démographiques à la désinformation.

Angana Borah, Zohaib Khan, Rada Mihalcea + 1 more2026-03-05🤖 cs.AI

A Neural Topic Method Using a Large-Language-Model-in-the-Loop for Business Research

L'article présente LX Topic, une nouvelle méthode de modélisation thématique neuronale intégrant un grand modèle de langage en boucle fermée pour générer des proportions de sujets calibrées et interprétables, offrant ainsi un outil de mesure robuste et standardisé pour la recherche en marketing.

Stephan Ludwig, Peter J. Danaher, Xiaohao Yang2026-03-05💬 cs.CL

Linguistically Informed Graph Model and Semantic Contrastive Learning for Korean Short Text Classification

Cet article présente LIGRAM, un modèle de graphe hiérarchique hétérogène combiné à un apprentissage contrastif sémantique, conçu pour surmonter les défis de la classification de courts textes en coréen en exploitant ses spécificités morphologiques et syntaxiques afin de surpasser les méthodes existantes.

JaeGeon Yoo, Byoungwook Kim, Yeongwook Yang + 1 more2026-03-05💬 cs.CL

MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation

Le papier présente MIND, un cadre d'apprentissage par renforcement unifié pour la consultation psychiatrique qui surpasse les méthodes existantes en intégrant une banque de raisonnement clinique ancrée sur des critères et des mécanismes de rectification de trajectoire pour améliorer la précision diagnostique, la qualité des interactions et l'interprétabilité.

Guoyi Li, Shihao Xu, Jiatong Ma + 3 more2026-03-05🤖 cs.AI

← Précédent Suivant →