From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Ce papier présente KMP-Bench, une nouvelle évaluation complète pour les modèles de langage en mathématiques (K-8) qui révèle un décalage entre leurs capacités de résolution et leurs compétences pédagogiques, tout en démontrant l'efficacité d'un jeu de données d'entraînement enrichi, KMP-Pile, pour améliorer leurs performances en tant que tuteurs.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Cette étude propose un compte rendu unifié de la structure des fréquences phonémiques en démontrant que leur distribution s'explique macroscopiquement par des statistiques d'ordre d'une distribution de Dirichlet et microscopiquement par un modèle d'entropie maximale intégrant des contraintes articulatoires, phonotactiques et lexicales.

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Cette étude révèle que, contrairement aux informations sur les nœuds qui sont encodées précocement dans l'encodeur visuel des modèles de langage-vision, les informations relatives aux arêtes ne deviennent linéairement séparables qu'au niveau des jetons textuels, ce qui explique leurs difficultés à comprendre les relations directionnelles dans les diagrammes.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Contextualized Privacy Defense for LLM Agents

Cet article propose le Contextualized Defense Instructing (CDI), un nouveau paradigme de défense de la vie privée pour les agents LLM qui utilise un modèle instructeur optimisé par apprentissage par renforcement pour générer des conseils contextuels et proactifs, permettant ainsi de mieux équilibrer la protection des données et l'utilité des agents par rapport aux méthodes statiques existantes.

Yule Wen, Yanzhe Zhang, Jianxun Lian + 3 more2026-03-04💬 cs.CL