cs.CL articoli | Gist.Science

Diffusion Language Models Are Natively Length-Aware

Il paper propone un meccanismo zero-shot che, sfruttando la rappresentazione del prompt latente per stimare dinamicamente la lunghezza necessaria dell'output, permette ai Modelli Linguistici Diffusivi di ridurre significativamente il costo computazionale e i FLOPs senza compromettere le prestazioni.

Vittorio Rossi, Giacomo Cirò, Davide Beltrame, Luca Gandolfi, Paul Röttger, Dirk Hovy2026-03-09🤖 cs.LG

A Causal Graph Approach to Oppositional Narrative Analysis

Questo lavoro propone un framework basato su grafi causali che rappresenta le narrazioni oppositive come interazioni tra entità, superando i limiti dei modelli a scatola nera tradizionali e ottenendo prestazioni superiori nella classificazione di tali narrazioni attraverso l'estrazione di sottografi causali minimi.

Diego Revilla, Martin Fernandez-de-Retana, Lingfeng Chen, Aritz Bilbao-Jayo, Miguel Fernandez-de-Retana2026-03-09🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Lo studio RAPTOR dimostra che, per la rilevazione di deepfake audio, la traiettoria di pre-addestramento multilingue di modelli SSL compatti come HuBERT è più determinante della scala del modello per garantire robustezza cross-dominio e una corretta calibrazione dell'incertezza.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai Doss2026-03-09🤖 cs.AI

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Il documento propone un framework a due stadi che combina l'apprendimento contrastivo supervisionato su alfabeti inventati con la distillazione da insegnante a studente per apprendere metriche di similarità tra sistemi di scrittura storici, permettendo sia la distinzione netta tra sistemi diversi che l'identificazione di somiglianze latenti senza richiedere relazioni evolutive verificate.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Il paper introduce CRIMSON, un nuovo framework di valutazione basato su LLM e fondato su principi clinici per i report radiologici generativi, che assegna pesi differenziati agli errori in base alla loro gravità e rilevanza clinica, dimostrando una forte allineamento con il giudizio di radiologi esperti attraverso benchmark specifici come RadJudge e RadPref.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

Il paper presenta MAPO, un algoritmo di ottimizzazione della politica senza critico che combina feedback di processo denso e un stimatore di vantaggio misto per migliorare la stabilità e le prestazioni nell'apprendimento per rinforzo di dialoghi multi-turno soggettivi a lungo termine.

Naifan Zhang, Ruihan Sun, Jinwei Su, Hengjie Yang, Zhengyuan Pan, Zhaohan Chen, Xiaofan Zhang2026-03-09🤖 cs.AI

Wisdom of the AI Crowd (AI-CROWD) for Ground Truth Approximation in Content Analysis: A Research Protocol & Validation Using Eleven Large Language Models

Il documento presenta il protocollo AI-CROWD, che supera i limiti della codifica umana su larga scala approssimando la verità fondamentale nell'analisi dei contenuti attraverso il consenso aggregato e le metriche diagnostiche di un ensemble di undici grandi modelli linguistici.

Luis de-Marcos, Manuel Goyanes, Adrián Domínguez-Díaz2026-03-09💬 cs.CL

LIT-RAGBench: Benchmarking Generator Capabilities of Large Language Models in Retrieval-Augmented Generation

Il paper introduce LIT-RAGBench, un nuovo benchmark che valuta le capacità dei generatori nei sistemi RAG attraverso cinque categorie (Integrazione, Ragionamento, Logica, Tabelle e Astensione) utilizzando un dataset bilingue giapponese-inglese per identificare limiti e guidare la selezione dei modelli nelle implementazioni pratiche.

Koki Itai, Shunichi Hasegawa, Yuta Yamamoto, Gouki Minegishi, Masaki Otsuki2026-03-09💬 cs.CL

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Il paper presenta FlashPrefill, un framework che abilita un prefilling ultra-rapido per modelli linguistici a lungo contesto attraverso la scoperta istantanea di pattern di attenzione e una soglia dinamica, ottenendo un speedup fino a 27,78x su sequenze di 256K senza degradare le prestazioni su contesti più brevi.

Qihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He2026-03-09🤖 cs.AI

SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models

Il paper presenta SPOT, un framework che migliora l'efficienza e l'interpretabilità del ragionamento nei grandi modelli linguistici comprimendo il Chain-of-Thought esplicito in token latenti compatti mediante allineamento semantico a livello di segmento e vincoli di decodifica con testa congelata.

Yunlong Chu, Minglai Shao, Yuhang Liu, Bing Hao, Yumeng Lin, Jialu Wang, Ruijie Wang2026-03-09💬 cs.CL

Mind the Gap: Pitfalls of LLM Alignment with Asian Public Opinion

Questo studio evidenzia come i principali modelli linguistici, nonostante una buona allineamento su questioni sociali generali, falliscano sistematicamente nel rappresentare accuratamente le opinioni religiose, specialmente quelle delle minoranze, in India e nell'Asia orientale e sud-orientale, perpetuando stereotipi negativi che interventi leggeri non riescono a colmare.

Hari Shankar, Vedanta S P, Sriharini Margapuri, Debjani Mazumder, Ponnurangam Kumaraguru, Abhijnan Chakraborty2026-03-09💬 cs.CL

The EpisTwin: A Knowledge Graph-Grounded Neuro-Symbolic Architecture for Personal AI

Il paper introduce EpisTwin, un'architettura neuro-simbolica che supera i limiti della frammentazione dei dati personali integrando un Grafo della Conoscenza Personale verificabile con modelli linguistici multimodali e ragionamento agente per abilitare una comprensione semantica olistica e contestuale dell'utente.

Giovanni Servedio, Potito Aghilar, Alessio Mattiace, Gianni Carmosino, Francesco Musicco, Gabriele Conte, Vito Walter Anelli, Tommaso Di Noia, Francesco Maria Donini2026-03-09🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Questo studio empirico evidenzia le sfide dell'adattamento dei modelli di riconoscimento vocale alle lingue indigene del Pacifico a risorse limitate, dimostrando come le strategie attuali come il LoRA affrontino il dilemma tra plasticità e stabilità e portino a una grave dimenticanza catastrofica durante l'apprendimento continuo.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting Dang2026-03-09💬 cs.CL

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Questo studio valuta la capacità di ChatGPT di creare pastiche di opere d'arte contemporanea, rivelando attraverso il feedback di dodici artisti e analisi computazionali che, sebbene vi sia una certa somiglianza cromatica e testuale, le generazioni AI mancano di profondità concettuale e intenzionalità, richiedendo pertanto metriche di valutazione complementari rispetto a un singolo indicatore stilistico.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

Il paper introduce SAHOO, un framework pratico che monitora e controlla la deriva dell'allineamento durante il miglioramento ricorsivo di sé stessi attraverso tre meccanismi di salvaguardia, garantendo significativi guadagni di qualità in compiti di generazione di codice e ragionamento matematico senza compromettere vincoli di sicurezza e veridicità.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-09🤖 cs.AI

Transparent AI for Mathematics: Transformer-Based Large Language Models for Mathematical Entity Relationship Extraction with XAI

Questo studio presenta un framework trasparente per l'estrazione delle relazioni tra entità matematiche (MERE) basato su modelli Transformer, in particolare BERT che raggiunge il 99,39% di accuratezza, integrato con tecniche di Intelligenza Artificiale Spiegabile (XAI) come SHAP per garantire la fiducia e l'interpretabilità delle previsioni.

Tanjim Taharat Aurpa2026-03-09💬 cs.CL

Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task

Questo studio introduce un nuovo dataset per il compito di selezione di Wason che codifica la modalità deontica, rivelando che i grandi modelli linguistici, proprio come gli esseri umani, ragionano meglio con regole deontiche e commettono errori simili al bias di abbinamento.

Hirohiko Abe, Kentaro Ozeki, Risako Ando, Takanobu Morishita, Koji Mineshima, Mitsuhiro Okada2026-03-09💬 cs.CL

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

Questo studio presenta una comparazione unificata di diversi paradigmi basati su modelli linguistici di grandi dimensioni per la valutazione automatica dei saggi in inglese come seconda lingua, dimostrando che una configurazione che integra il fine-tuning supervisionato e la generazione aumentata dal recupero (RAG) raggiunge le prestazioni migliori con un punteggio F1 del 93%.

Minh Hoang Nguyen, Vu Hoang Pham, Xuan Thanh Huynh, Phuc Hong Mai, Vinh The Nguyen, Quang Nhut Huynh, Huy Tien Nguyen, Tung Le2026-03-09💬 cs.CL

Abductive Reasoning with Syllogistic Forms in Large Language Models

Questo studio valuta la capacità dei modelli linguistici di grandi dimensioni di eseguire ragionamenti abduttivi, convertendo un dataset sillogistico per verificare se tali modelli presentino bias simili a quelli umani e per sottolineare l'importanza del ragionamento contestualizzato oltre la deduzione formale.

Hirohiko Abe, Risako Ando, Takanobu Morishita Kentaro Ozeki, Koji Mineshima, Mitsuhiro Okada2026-03-09🤖 cs.AI

PONTE: Personalized Orchestration for Natural Language Trustworthy Explanations

Il paper presenta PONTE, un framework human-in-the-loop che supera i limiti delle spiegazioni XAI generiche e delle allucinazioni degli LLM, orchestando la generazione di narrazioni personalizzate e affidabili attraverso un ciclo chiuso di validazione, adattamento basato su feedback utente e verifica rigorosa della fedeltà e completezza.

Vittoria Vineis, Matteo Silvestri, Lorenzo Antonelli, Filippo Betello, Gabriele Tolomei2026-03-09🤖 cs.AI

← Precedente Successivo →