The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Questo studio fornisce una spiegazione unificata della distribuzione delle frequenze dei fonemi nelle lingue mondiali, dimostrando come essa sia governata da modelli macroscopici basati sulla distribuzione di Dirichlet e da modelli microscopici di massima entropia che integrano vincoli articolatori, fonotattici e lessicali.

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Eval4Sim: An Evaluation Framework for Persona Simulation

Il paper propone Eval4Sim, un framework di valutazione che misura la fedeltà delle simulazioni di persona basate su LLM rispetto ai modelli conversazionali umani attraverso tre dimensioni complementari (aderenza, coerenza e naturalezza), utilizzando un corpus di riferimento per penalizzare sia l'insufficiente encoding della persona sia i comportamenti eccessivamente ottimizzati e innaturali.

Eliseo Bao, Anxo Perez, Xi Wang + 1 more2026-03-04💬 cs.CL

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Il paper propone un metodo di generazione aumentata da recupero (RAG) consapevole dei tipi che, costruendo una base di conoscenza strutturata e calcolando un contesto di dipendenza minimo, garantisce la traduzione affidabile di requisiti industriali in modelli di ottimizzazione eseguibili dai solver, superando i limiti delle approcci RAG convenzionali.

Y. Zhong, R. Huang, M. Wang + 4 more2026-03-04💬 cs.CL

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Questo lavoro propone MoD-DPO, un framework di ottimizzazione delle preferenze che mitiga le allucinazioni cross-modali nei modelli linguistici omni-modali introducendo regolarizzazioni specifiche per le modalità e penalità contro i pregiudizi testuali, migliorando così l'accuratezza percettiva e la robustezza del modello.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Il paper presenta MOSAIC, un framework di post-addestramento che allinea i modelli linguistici agenti per un uso sicuro degli strumenti multi-step, strutturando l'inferenza in un ciclo di pianificazione, verifica e azione o rifiuto, e utilizzando l'apprendimento per rinforzo basato su preferenze per ridurre significativamente i comportamenti dannosi e le fughe di dati senza compromettere le prestazioni nei compiti benigni.

Aradhye Agarwal, Gurdit Siyan, Yash Pandya + 3 more2026-03-04💬 cs.CL