cs.CL articoli | Gist.Science

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

Lo studio dimostra che i modelli specializzati di Knowledge Tracing superano i Large Language Models (LLM) in termini di accuratezza, velocità di inferenza e costi di distribuzione per la previsione delle risposte degli studenti, sconsigliando l'uso di LLM come soluzione universale per compiti educativi specifici.

Prarthana Bhattacharyya, Joshua Mitton, Ralph Abboud + 1 more2026-03-04💬 cs.CL

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Questo studio fornisce una spiegazione unificata della distribuzione delle frequenze dei fonemi nelle lingue mondiali, dimostrando come essa sia governata da modelli macroscopici basati sulla distribuzione di Dirichlet e da modelli microscopici di massima entropia che integrano vincoli articolatori, fonotattici e lessicali.

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Lo studio rivela che, mentre le informazioni sui nodi e sulla struttura globale dei diagrammi sono rappresentate linearmente già nell'encoder visivo dei modelli LVLM, le informazioni sugli archi emergono solo successivamente nei token testuali, spiegando le difficoltà di questi modelli nella comprensione delle relazioni direzionali.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Eval4Sim: An Evaluation Framework for Persona Simulation

Il paper propone Eval4Sim, un framework di valutazione che misura la fedeltà delle simulazioni di persona basate su LLM rispetto ai modelli conversazionali umani attraverso tre dimensioni complementari (aderenza, coerenza e naturalezza), utilizzando un corpus di riferimento per penalizzare sia l'insufficiente encoding della persona sia i comportamenti eccessivamente ottimizzati e innaturali.

Eliseo Bao, Anxo Perez, Xi Wang + 1 more2026-03-04💬 cs.CL

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

Il paper presenta ACE-Merging, un nuovo framework data-free per la fusione di modelli che, stimando in modo adattivo la covarianza d'ingresso dalle differenze parametriche, risolve le interferenze tra esperti e stabilisce un nuovo stato dell'arte con prestazioni superiori e costi computazionali ridotti.

Bo Xu, Haotian Wu, Hehai Lin + 4 more2026-03-04💬 cs.CL

Contextualized Privacy Defense for LLM Agents

Il paper propone la "Contextualized Defense Instructing" (CDI), un nuovo paradigma di difesa per l'agenti LLM che utilizza un modello istruttore ottimizzato tramite apprendimento per rinforzo per generare in tempo reale indicazioni privacy contestuali, ottenendo un equilibrio superiore tra protezione dei dati e utilità rispetto alle difese statiche esistenti.

Yule Wen, Yanzhe Zhang, Jianxun Lian + 3 more2026-03-04💬 cs.CL

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

Il paper presenta MaBERT, un nuovo modello ibrido che combina l'efficienza lineare di Mamba con la capacità di modellazione globale dei Transformer, introducendo tecniche di mascheramento specifiche per gestire in modo sicuro e veloce contesti estesi senza contaminazione dovuta al padding.

Jinwoong Kim, Sangjin Park2026-03-04💬 cs.CL

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

Il paper presenta TrustMH-Bench, un benchmark olistico che valuta l'affidabilità dei modelli linguistici di grandi dimensioni in ambito di salute mentale attraverso otto pilastri fondamentali, rivelando carenze significative nelle prestazioni attuali anche dei modelli più potenti.

Zixin Xiong, Ziteng Wang, Haotian Fan + 2 more2026-03-04💬 cs.CL

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Il paper introduce TikZilla, una famiglia di modelli linguistici open-source addestrati su un nuovo dataset di alta qualità (DaTikZ-V4) e ottimizzati tramite un processo di apprendimento per rinforzo con segnali di ricompensa visiva, che supera le prestazioni dei modelli più grandi come GPT-4o nella generazione di figure scientifiche TikZ da testo.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

Il paper propone TAO-Attack, un nuovo metodo di jailbreak basato sull'ottimizzazione che utilizza una funzione di perdita a due stadi e una strategia di ottimizzazione dei token basata sulla priorità della direzione per superare le difese dei modelli linguistici su larga scala con tassi di successo superiori agli approcci esistenti.

Zhi Xu, Jiaqi Li, Xiaotong Zhang + 2 more2026-03-04💬 cs.CL

Compact Prompting in Instruction-tuned LLMs for Joint Argumentative Component Detection

Questo articolo propone un approccio innovativo basato su modelli linguistici di grandi dimensioni istruiti con prompt compatti per trattare la rilevazione congiunta dei componenti argomentativi come un compito di generazione linguistica, ottenendo prestazioni superiori rispetto agli stati dell'arte su benchmark standard.

Sofiane Elguendouze, Erwan Hain, Elena Cabrio + 1 more2026-03-04💬 cs.CL

Interpreting Speaker Characteristics in the Dimensions of Self-Supervised Speech Features

Questo studio dimostra che le caratteristiche del parlante, come il tono, il genere e l'intensità, sono codificate in dimensioni specifiche dei modelli di apprendimento auto-supervisionato (come WavLM) e possono essere controllate modificando tali dimensioni per applicazioni di sintesi vocale.

Kyle Janse van Rensburg, Benjamin van Niekerk, Herman Kamper2026-03-04⚡ eess

Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Questo studio introduce un benchmark a matrice di commutazione che dimostra come il passaggio tra modelli diversi in sistemi LLM multi-turno generi una deriva delle prestazioni significativa e sistematica, evidenziando la necessità di monitorare la robustezza delle transizioni come dimensione critica di affidabilità operativa.

Raad Khraishi, Iman Zafar, Katie Myles + 1 more2026-03-04💬 cs.CL

UniSkill: A Dataset for Matching University Curricula to Professional Competencies

Il paper presenta UniSkill, un nuovo dataset che collega i corsi universitari alle competenze professionali della tassonomia ESCO, fornendo linee guida di annotazione e dimostrando attraverso un modello BERT l'efficacia del matching tra corsi e competenze con un punteggio F1 dell'87%.

Nurlan Musazade, Joszef Mezei, Mike Zhang2026-03-04💬 cs.CL

APRES: An Agentic Paper Revision and Evaluation System

Il paper introduce APRES, un sistema basato su modelli linguistici che revisiona automaticamente i testi scientifici per migliorarne la chiarezza e l'impatto (prevedendo un aumento delle citazioni del 19,6%) senza alterarne il contenuto sostanziale, ottenendo il 79% di preferenze da parte di esperti umani.

Bingchen Zhao, Jenny Zhang, Chenxi Whitehouse + 8 more2026-03-04💬 cs.CL

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Il paper propone un metodo di generazione aumentata da recupero (RAG) consapevole dei tipi che, costruendo una base di conoscenza strutturata e calcolando un contesto di dipendenza minimo, garantisce la traduzione affidabile di requisiti industriali in modelli di ottimizzazione eseguibili dai solver, superando i limiti delle approcci RAG convenzionali.

Y. Zhong, R. Huang, M. Wang + 4 more2026-03-04💬 cs.CL

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Questo lavoro propone MoD-DPO, un framework di ottimizzazione delle preferenze che mitiga le allucinazioni cross-modali nei modelli linguistici omni-modali introducendo regolarizzazioni specifiche per le modalità e penalità contro i pregiudizi testuali, migliorando così l'accuratezza percettiva e la robustezza del modello.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Il paper introduce BeyondSWE, un nuovo benchmark che valuta gli agenti di codice su compiti realistici e complessi oltre la semplice correzione di bug in un singolo repository, rivelando le attuali limitazioni dei modelli e l'efficacia inconsistente dell'arricchimento tramite ricerca tramite il framework SearchSWE.

Guoxin Chen, Fanzhe Meng, Jiale Zhao + 12 more2026-03-04💬 cs.CL

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Il paper introduce ACE-Brain-0, un modello fondazionale generale che unifica ragionamento spaziale, guida autonoma e manipolazione robotica sfruttando l'intelligenza spaziale come scaffold universale e il paradigma SSR per superare le sfide dell'addestramento su embodiment eterogenei, ottenendo prestazioni all'avanguardia su 24 benchmark.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Il paper presenta MOSAIC, un framework di post-addestramento che allinea i modelli linguistici agenti per un uso sicuro degli strumenti multi-step, strutturando l'inferenza in un ciclo di pianificazione, verifica e azione o rifiuto, e utilizzando l'apprendimento per rinforzo basato su preferenze per ridurre significativamente i comportamenti dannosi e le fughe di dati senza compromettere le prestazioni nei compiti benigni.

Aradhye Agarwal, Gurdit Siyan, Yash Pandya + 3 more2026-03-04💬 cs.CL

← Precedente Successivo →