Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Questo studio valuta l'impatto delle tecniche di aumento dei dati e di potenziamento delle caratteristiche sulla rilevazione dell'odio, dimostrando che il modello open-source gpt-oss-20b ottiene i risultati migliori in generale, mentre l'aumento dei dati potenzia significativamente anche i classificatori tradizionali come Delta TF-IDF, pur confermando che la rilevazione dell'odio implicito rimane più complessa di quella esplicita.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Questo studio propone un framework di valutazione a due livelli per analizzare l'efficacia dei modelli AI nel simulare le domande specifiche dei giudici durante le arringhe orali, rivelando che, sebbene le domande generate siano percepite come realistiche e coprano bene i temi legali sostanziali, i modelli presentano ancora carenze significative come la scarsa diversità e la sycophancy che i metodi di valutazione ingenui non riescono a rilevare.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Questo studio confronta l'efficacia e i costi dei sistemi di memoria basati su fatti con quelli degli LLM a lungo contesto, dimostrando che mentre i secondi offrono un migliore richiamo fattuale, i primi diventano economicamente superiori dopo un numero limitato di interazioni grazie a un profilo di costi più stabile.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Questo studio meta-analitico rivela che i modelli di linguaggio automatico, in particolare quelli basati su architetture decoder-only, mostrano prestazioni inferiori rispetto agli umani nella valutazione di risposte brevi, con discrepanze significative legate alla difficoltà percepita, alla tokenizzazione e a pregiudizi razziali, suggerendo la necessità di un ripensamento nella progettazione dei sistemi per l'istruzione ad alto rischio.

Michael Hardy2026-03-06💬 cs.CL