cs.AI articoli | Gist.Science

The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration

Uno studio empirico su quattro modelli linguistici avanzati rivela che quelli con minore accuratezza mostrano un'eccessiva sovrastima delle proprie capacità, analogamente all'effetto Dunning-Kruger osservato nella cognizione umana, sollevando preoccupazioni per il loro utilizzo sicuro in contesti ad alto rischio.

Sudipta Ghosh, Mrityunjoy Panday2026-03-12💬 cs.CL

Quantifying Hallucinations in Language Language Models on Medical Textbooks

Questo studio quantifica le allucinazioni nei modelli linguistici su testi medici, rivelando che LLaMA-70B-Instruct genera risposte non supportate dal 19,7% delle volte nonostante l'alta plausibilità, e dimostra una correlazione tra minori tassi di allucinazione e una maggiore preferenza da parte dei clinici.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman2026-03-12💬 cs.CL

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Il paper propone un framework che ottimizza la trasformazione delle caratteristiche guidato dai modelli linguistici di grandi dimensioni attraverso un ciclo chiuso di evoluzione delle dimostrazioni e selezione della diversità, superando i limiti dei metodi esistenti e ottenendo prestazioni superiori su diversi benchmark tabulari.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Questo lavoro propone una pipeline che collega l'analisi dei circuiti neurali alle spiegazioni in linguaggio naturale per i modelli linguistici, dimostrando che è possibile generare spiegazioni fedeli e di alta qualità per l'identificazione di oggetti indiretti, pur rivelando la presenza di meccanismi di backup distribuiti e la scarsa correlazione tra la confidenza del modello e la fedeltà della spiegazione.

Ajay Pravin Mahale2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

Il documento introduce la System Hallucination Scale (SHS), uno strumento psicometrico leggero e incentrato sull'utente per valutare in modo rapido e interpretabile il comportamento allucinatorio dei modelli linguistici su larga scala dal punto di vista dell'interazione reale, distinguendosi dai tradizionali rilevatori automatici.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL

A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Il paper propone un'architettura a due stadi che utilizza LLaMA-3.1-8B-Instruct per la segmentazione e un Legal-Roberta-Large fine-tuned per la classificazione delle clausole nei contratti di non divulgazione, ottenendo risultati elevati in termini di precisione e automazione.

Ana Begnini, Matheus Vicente, Leonardo Souza2026-03-12💬 cs.CL

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

Il paper presenta PoultryLeX-Net, un'architettura transformer duale adattata al dominio che combina modelli lessicali e contestuali per analizzare con elevata precisione i sentimenti e i temi relativi all'industria avicola sui social media, superando le prestazioni dei modelli di base esistenti.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Questo articolo presenta TAMUSA-Chat, un framework di ricerca per conversazioni basate su modelli linguistici su larga scala adattati a contesti istituzionali, che integra tecniche di affinamento supervisionato e generazione aumentata da recupero per garantire trasparenza, conformità normativa e pratiche di intelligenza artificiale responsabile.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

Il documento presenta CEI, un nuovo benchmark composto da 300 scenari validati da umani progettato per valutare la capacità dei modelli linguistici di inferire significati pragmatici complessi (come sarcasmo, cortesia strategica e aggressività passiva) in contesti sociali e relazionali caratterizzati da diverse dinamiche di potere.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Il documento evidenzia una significativa discrepanza tra le rappresentazioni interne composizionali e le prestazioni funzionali nei modelli linguistici di grandi dimensioni, sottolineando la necessità di valutazioni contrastive per una comprensione completa delle loro capacità.

Ruchira Dhar, Qiwei Peng, Anders Søgaard2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

Lo studio dimostra che, nelle valutazioni dei colloqui comportamentali, l'approccio "human-in-the-loop" supera il prompting iterativo a catena di pensiero, offrendo miglioramenti significativi in autenticità e fiducia con meno iterazioni e una migliore integrazione dei dettagli personali.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Questo studio valuta la robustezza e la sicurezza pedagogica dei modelli linguistici offline per l'educazione alla lingua turca, rivelando che i modelli orientati al ragionamento nella fascia 8B-14B offrono il miglior compromesso tra costi e sicurezza, mentre la resistenza alle anomalie non dipende esclusivamente dalla scala del modello.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Nonostante le proteste degli utenti secondo cui i nuovi modelli OpenAI avrebbero perso empatia, uno studio clinico dimostra che i punteggi di empatia sono rimasti invariati tra le generazioni, rivelando invece che la percezione di un calo è dovuta a un cambiamento nella postura di sicurezza: i modelli più recenti hanno migliorato il rilevamento delle crisi ma ridotto la sicurezza dei consigli, creando un compromesso invisibile che gli utenti interpretano erroneamente come una mancanza di empatia.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Questo studio presenta un framework automatizzato di valutazione che, confrontando Google Translate con modelli LLM come GPT-4o e DeepSeek su testi cinesi di varia natura, rivela che, sebbene le prestazioni siano eccellenti nella traduzione giornalistica, rimangono sfide significative nel preservare le sfumature culturali e le espressioni figurative nei testi letterari.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Questo articolo presenta e convalida un assistente linguistico basato sul recupero di informazioni, progettato per supportare la valutazione della sicurezza e la conformità normativa dei sistemi di aeromobili senza equipaggio, garantendo tracciabilità e affidabilità attraverso l'uso esclusivo di fonti regolamentari autorevoli e citazioni verificabili.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Questo paper presenta la creazione del dataset LatamQA, composto da oltre 26.000 domande e risposte multilingue derivate da Wikipedia e Wikidata, utilizzato per valutare e rivelare i pregiudizi culturali e le disparità linguistiche dei modelli linguistici su larga scala nei confronti delle diverse culture dell'America Latina.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Il paper introduce SpreadsheetArena, una piattaforma per la valutazione tramite confronti ciechi delle prestazioni dei modelli linguistici nella generazione end-to-end di fogli di calcolo, evidenziando come le preferenze varino in base al contesto e come i modelli attuali faticino a rispettare le best practice di dominio specifico.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

Il paper presenta SENS-ASR, un approccio che migliora la qualità della trascrizione nei sistemi di riconoscimento vocale in streaming iniettando informazioni semantiche estratte da un modulo addestrato tramite distillazione della conoscenza, ottenendo così una significativa riduzione del tasso di errore delle parole in scenari con finestre temporali ridotte.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Questo articolo dimostra che i codificatori bidirezionali specializzati, come AraBERTv2, superano i decoder causali nel compito di classificazione del testo medico arabo su 82 categorie, grazie alla loro capacità di catturare un contesto globale più preciso rispetto alla natura sequenziale dei decoder.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Il paper introduce P-GRPO, un nuovo framework di allineamento che supera i limiti del GRPO standard nella gestione delle preferenze eterogenee normalizzando i vantaggi rispetto a storie di reward specifiche per gruppo, consentendo così ai modelli linguistici di adattarsi più efficacemente e rapidamente a diverse preferenze individuali senza sacrificare le capacità generali.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

← Precedente Successivo →