One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Questo studio presenta la prima valutazione completa del fine-tuning efficiente dei parametri (PEFT) per l'analisi del codice multitasking, dimostrando che un singolo modulo PEFT condiviso può eguagliare o superare il fine-tuning completo offrendo un ottimo compromesso tra prestazioni e efficienza, pur essendo il successo dipendente da fattori come la stabilità del compito e la complementarità, e superando le capacità di modelli LLM generici di grandi dimensioni in compiti di analisi.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic

Il paper presenta AraModernBERT, un modello encoder-only adattato all'arico che dimostra come l'inizializzazione tramite transtokenizzazione e la modellazione nativa di contesti lunghi fino a 8.192 token migliorino significativamente le prestazioni nel modellamento linguistico e in diverse attività di comprensione del linguaggio naturale.

Omar Elshehy, Omer Nacar, Abdelbasset Djamai, Muhammed Ragab, Khloud Al Jallad, Mona Abdelazim2026-03-12💬 cs.CL

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Questo lavoro propone una pipeline che collega l'analisi dei circuiti neurali alle spiegazioni in linguaggio naturale per i modelli linguistici, dimostrando che è possibile generare spiegazioni fedeli e di alta qualità per l'identificazione di oggetti indiretti, pur rivelando la presenza di meccanismi di backup distribuiti e la scarsa correlazione tra la confidenza del modello e la fedeltà della spiegazione.

Ajay Pravin Mahale2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

Il documento introduce la System Hallucination Scale (SHS), uno strumento psicometrico leggero e incentrato sull'utente per valutare in modo rapido e interpretabile il comportamento allucinatorio dei modelli linguistici su larga scala dal punto di vista dell'interazione reale, distinguendosi dai tradizionali rilevatori automatici.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

Il paper presenta PoultryLeX-Net, un'architettura transformer duale adattata al dominio che combina modelli lessicali e contestuali per analizzare con elevata precisione i sentimenti e i temi relativi all'industria avicola sui social media, superando le prestazioni dei modelli di base esistenti.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Questo articolo presenta TAMUSA-Chat, un framework di ricerca per conversazioni basate su modelli linguistici su larga scala adattati a contesti istituzionali, che integra tecniche di affinamento supervisionato e generazione aumentata da recupero per garantire trasparenza, conformità normativa e pratiche di intelligenza artificiale responsabile.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

Il documento presenta CEI, un nuovo benchmark composto da 300 scenari validati da umani progettato per valutare la capacità dei modelli linguistici di inferire significati pragmatici complessi (come sarcasmo, cortesia strategica e aggressività passiva) in contesti sociali e relazionali caratterizzati da diverse dinamiche di potere.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Nonostante le proteste degli utenti secondo cui i nuovi modelli OpenAI avrebbero perso empatia, uno studio clinico dimostra che i punteggi di empatia sono rimasti invariati tra le generazioni, rivelando invece che la percezione di un calo è dovuta a un cambiamento nella postura di sicurezza: i modelli più recenti hanno migliorato il rilevamento delle crisi ma ridotto la sicurezza dei consigli, creando un compromesso invisibile che gli utenti interpretano erroneamente come una mancanza di empatia.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Questo studio presenta un framework automatizzato di valutazione che, confrontando Google Translate con modelli LLM come GPT-4o e DeepSeek su testi cinesi di varia natura, rivela che, sebbene le prestazioni siano eccellenti nella traduzione giornalistica, rimangono sfide significative nel preservare le sfumature culturali e le espressioni figurative nei testi letterari.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL