From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Il paper introduce KMP-Bench, un benchmark completo per valutare l'intelligenza pedagogica dei modelli linguistici nell'insegnamento della matematica K-8, evidenziando il divario tra le loro capacità di risoluzione e quelle didattiche, e presentando KMP-Pile, un dataset di dialogo su larga scala che, se utilizzato per il fine-tuning, migliora significativamente le prestazioni dei modelli in questo ambito.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Questo studio dimostra che, grazie all'uso di dataset su larga scala e a un'analisi gerarchica degli errori, i modelli multimodali di grandi dimensioni (MLLM) possono ottenere prestazioni nel recupero delle informazioni dai documenti paragonabili a quelle dei metodi tradizionali basati su OCR, rendendo quest'ultimo non strettamente necessario quando si utilizzano input puramente visivi combinati con istruzioni e schemi ben progettati.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Questo studio fornisce una spiegazione unificata della distribuzione delle frequenze dei fonemi nelle lingue mondiali, dimostrando come essa sia governata da modelli macroscopici basati sulla distribuzione di Dirichlet e da modelli microscopici di massima entropia che integrano vincoli articolatori, fonotattici e lessicali.

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Eval4Sim: An Evaluation Framework for Persona Simulation

Il paper propone Eval4Sim, un framework di valutazione che misura la fedeltà delle simulazioni di persona basate su LLM rispetto ai modelli conversazionali umani attraverso tre dimensioni complementari (aderenza, coerenza e naturalezza), utilizzando un corpus di riferimento per penalizzare sia l'insufficiente encoding della persona sia i comportamenti eccessivamente ottimizzati e innaturali.

Eliseo Bao, Anxo Perez, Xi Wang + 1 more2026-03-04💬 cs.CL