cs.CL articoli | Gist.Science

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Il paper presenta un metodo innovativo che riduce i bias di contenuto nel ragionamento dei modelli linguistici multilingue trasformando i sillogismi in rappresentazioni logiche canoniche e applicando un parsing deterministico, ottenendo risultati di primo piano nella sfida SemEval-2026 Task 11.

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong + 2 more2026-03-04💬 cs.CL

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

Il paper presenta HateMirage, un nuovo dataset spiegabile e multidimensionale di commenti "Faux Hate" derivati da disinformazione, progettato per superare i limiti delle ricerche esistenti sull'odio online sottile attraverso un'annotazione dettagliata di bersaglio, intento e implicazione sociale.

Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya + 1 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

Il paper presenta Graph-GRPO, un nuovo framework che stabilizza l'apprendimento della topologia di comunicazione nei sistemi multi-agente basati su LLM applicando l'ottimizzazione della politica relativa di gruppo per ridurre la varianza del gradiente e migliorare l'assegnazione del credito rispetto ai metodi tradizionali.

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

Sensory-Aware Sequential Recommendation via Review-Distilled Representations

Il paper propone \textsc{ASEGR}, un framework innovativo che migliora la raccomandazione sequenziale integrando attributi sensoriali strutturati, estratti e distillati dai testi delle recensioni tramite un modello linguistico, per arricchire le rappresentazioni degli articoli con significati esperienziali interpretabili.

Yeo Chan Yoon2026-03-04💬 cs.CL

Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

Il paper propone DiSE, un metodo efficiente di autovalutazione per i modelli linguistici a diffusione che quantifica la fiducia rigenerando l'intera sequenza, permettendo una stima affidabile della qualità e un controllo adattivo della lunghezza della generazione.

Linhao Zhong, Linyu Wu, Wen Wang + 5 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Il paper introduce KMP-Bench, un benchmark completo per valutare l'intelligenza pedagogica dei modelli linguistici nell'insegnamento della matematica K-8, evidenziando il divario tra le loro capacità di risoluzione e quelle didattiche, e presentando KMP-Pile, un dataset di dialogo su larga scala che, se utilizzato per il fine-tuning, migliora significativamente le prestazioni dei modelli in questo ambito.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Questo studio dimostra che, grazie all'uso di dataset su larga scala e a un'analisi gerarchica degli errori, i modelli multimodali di grandi dimensioni (MLLM) possono ottenere prestazioni nel recupero delle informazioni dai documenti paragonabili a quelle dei metodi tradizionali basati su OCR, rendendo quest'ultimo non strettamente necessario quando si utilizzano input puramente visivi combinati con istruzioni e schemi ben progettati.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

Il paper presenta GLEAN, un framework di verifica per agenti LLM ad alto rischio che, integrando linee guida cliniche esperte e accumulo di evidenze con calibrazione bayesiana, supera significativamente i metodi esistenti nella diagnosi medica migliorando sia la discriminazione che l'affidabilità delle previsioni.

Yichi Zhang, Nabeel Seedat, Yinpeng Dong + 3 more2026-03-04💬 cs.CL

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

Lo studio dimostra che i modelli specializzati di Knowledge Tracing superano i Large Language Models (LLM) in termini di accuratezza, velocità di inferenza e costi di distribuzione per la previsione delle risposte degli studenti, sconsigliando l'uso di LLM come soluzione universale per compiti educativi specifici.

Prarthana Bhattacharyya, Joshua Mitton, Ralph Abboud + 1 more2026-03-04💬 cs.CL

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Questo studio fornisce una spiegazione unificata della distribuzione delle frequenze dei fonemi nelle lingue mondiali, dimostrando come essa sia governata da modelli macroscopici basati sulla distribuzione di Dirichlet e da modelli microscopici di massima entropia che integrano vincoli articolatori, fonotattici e lessicali.

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Lo studio rivela che, mentre le informazioni sui nodi e sulla struttura globale dei diagrammi sono rappresentate linearmente già nell'encoder visivo dei modelli LVLM, le informazioni sugli archi emergono solo successivamente nei token testuali, spiegando le difficoltà di questi modelli nella comprensione delle relazioni direzionali.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Eval4Sim: An Evaluation Framework for Persona Simulation

Il paper propone Eval4Sim, un framework di valutazione che misura la fedeltà delle simulazioni di persona basate su LLM rispetto ai modelli conversazionali umani attraverso tre dimensioni complementari (aderenza, coerenza e naturalezza), utilizzando un corpus di riferimento per penalizzare sia l'insufficiente encoding della persona sia i comportamenti eccessivamente ottimizzati e innaturali.

Eliseo Bao, Anxo Perez, Xi Wang + 1 more2026-03-04💬 cs.CL

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

Il paper presenta ACE-Merging, un nuovo framework data-free per la fusione di modelli che, stimando in modo adattivo la covarianza d'ingresso dalle differenze parametriche, risolve le interferenze tra esperti e stabilisce un nuovo stato dell'arte con prestazioni superiori e costi computazionali ridotti.

Bo Xu, Haotian Wu, Hehai Lin + 4 more2026-03-04💬 cs.CL

Contextualized Privacy Defense for LLM Agents

Il paper propone la "Contextualized Defense Instructing" (CDI), un nuovo paradigma di difesa per l'agenti LLM che utilizza un modello istruttore ottimizzato tramite apprendimento per rinforzo per generare in tempo reale indicazioni privacy contestuali, ottenendo un equilibrio superiore tra protezione dei dati e utilità rispetto alle difese statiche esistenti.

Yule Wen, Yanzhe Zhang, Jianxun Lian + 3 more2026-03-04💬 cs.CL

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

Il paper presenta MaBERT, un nuovo modello ibrido che combina l'efficienza lineare di Mamba con la capacità di modellazione globale dei Transformer, introducendo tecniche di mascheramento specifiche per gestire in modo sicuro e veloce contesti estesi senza contaminazione dovuta al padding.

Jinwoong Kim, Sangjin Park2026-03-04💬 cs.CL

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

Il paper presenta TrustMH-Bench, un benchmark olistico che valuta l'affidabilità dei modelli linguistici di grandi dimensioni in ambito di salute mentale attraverso otto pilastri fondamentali, rivelando carenze significative nelle prestazioni attuali anche dei modelli più potenti.

Zixin Xiong, Ziteng Wang, Haotian Fan + 2 more2026-03-04💬 cs.CL

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Il paper introduce TikZilla, una famiglia di modelli linguistici open-source addestrati su un nuovo dataset di alta qualità (DaTikZ-V4) e ottimizzati tramite un processo di apprendimento per rinforzo con segnali di ricompensa visiva, che supera le prestazioni dei modelli più grandi come GPT-4o nella generazione di figure scientifiche TikZ da testo.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

Il paper propone TAO-Attack, un nuovo metodo di jailbreak basato sull'ottimizzazione che utilizza una funzione di perdita a due stadi e una strategia di ottimizzazione dei token basata sulla priorità della direzione per superare le difese dei modelli linguistici su larga scala con tassi di successo superiori agli approcci esistenti.

Zhi Xu, Jiaqi Li, Xiaotong Zhang + 2 more2026-03-04💬 cs.CL

Compact Prompting in Instruction-tuned LLMs for Joint Argumentative Component Detection

Questo articolo propone un approccio innovativo basato su modelli linguistici di grandi dimensioni istruiti con prompt compatti per trattare la rilevazione congiunta dei componenti argomentativi come un compito di generazione linguistica, ottenendo prestazioni superiori rispetto agli stati dell'arte su benchmark standard.

Sofiane Elguendouze, Erwan Hain, Elena Cabrio + 1 more2026-03-04💬 cs.CL

Interpreting Speaker Characteristics in the Dimensions of Self-Supervised Speech Features

Questo studio dimostra che le caratteristiche del parlante, come il tono, il genere e l'intensità, sono codificate in dimensioni specifiche dei modelli di apprendimento auto-supervisionato (come WavLM) e possono essere controllate modificando tali dimensioni per applicazioni di sintesi vocale.

Kyle Janse van Rensburg, Benjamin van Niekerk, Herman Kamper2026-03-04⚡ eess

← Precedente Successivo →