cs.CL articoli | Gist.Science

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

Il paper presenta SarcasmMiner, un framework di post-addestramento basato su apprendimento per rinforzo che utilizza una strategia di distillazione a doppio binario e ottimizzazione GRPO per migliorare il ragionamento robusto sulla sarcasmia audio-visiva, ottenendo un F1 del 70,22% sul dataset MUStARD++.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

Knowledge Divergence and the Value of Debate for Scalable Oversight

Questo lavoro stabilisce un quadro formale che collega il dibattito e l'RLAIF, dimostrando come il vantaggio del dibattito dipenda dalla divergenza geometrica delle conoscenze tra i modelli, passando da un regime trascurabile a uno essenziale attraverso una transizione di fase e classificando tre regimi di divergenza che determinano l'efficacia della supervisione avversariale.

Robin Young2026-03-06🤖 cs.LG

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

Il paper presenta WavSLM, un modello linguistico per il parlato che, tramite la distillazione di rappresentazioni WavLM in un unico codice e l'ottimizzazione di un obiettivo di previsione autoregressiva, riesce a modellare congiuntamente informazioni semantiche e acustiche in un singolo flusso di token senza supervisione testuale, ottenendo prestazioni competitive con minori parametri e dati di addestramento.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Il paper presenta Med-V1, una famiglia di modelli linguistici di piccole dimensioni addestrata su dati sintetici di alta qualità che, pur essendo efficiente ed economica, supera le prestazioni dei modelli di base e compete con i modelli LLM all'avanguardia nel compito di attribuzione e verifica delle evidenze biomediche, offrendo applicazioni pratiche per il rilevamento di allucinazioni e la verifica di linee guida cliniche.

Qiao Jin, Yin Fang, Lauren He + 12 more2026-03-06🤖 cs.AI

PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

Il paper introduce PersianPunc, un vasto dataset di 17 milioni di campioni e un approccio basato su ParsBERT per il ripristino della punteggiatura in persiano, ottenendo prestazioni elevate con un'efficienza computazionale superiore rispetto ai grandi modelli linguistici.

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery2026-03-06🤖 cs.AI

A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes

Questo lavoro presenta un nuovo corpus multilingue e annotato da esperti umani contenente testi originali e versioni semplificate in stile "Lettura Facile" per spagnolo, catalano e italiano, creato per colmare il divario di risorse linguistiche e supportare la partecipazione democratica.

Stefan Bott, Verena Riegler, Horacio Saggion + 2 more2026-03-06💬 cs.CL

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

Questo studio esplora il potenziale e i limiti del merging di modelli per l'adattamento multi-dominio nell'ASR, proponendo il nuovo algoritmo BoostedTSV-M che, superando il collasso del rango, supera il fine-tuning completo sul portoghese europeo mantenendo al contempo la generalizzazione fuori distribuzione.

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

Il paper presenta DiSCTT, un framework di adattamento al test basato su un curriculum self-guidato che ottimizza le prestazioni dei modelli di ragionamento assegnando dinamicamente strategie di apprendimento supervisionato o per rinforzo in base al livello di incertezza e consenso delle traiettorie di ragionamento, ottenendo così maggiore accuratezza ed efficienza computazionale rispetto alle tecniche esistenti.

Mohammad Mahdi Moradi, Sudhir Mudur2026-03-06💬 cs.CL

Progressive Residual Warmup for Language Model Pretraining

Il paper propone ProRes, un metodo di preaddestramento per modelli linguistici basato su un riscaldamento progressivo dei residui che, seguendo il principio per cui gli strati iniziali apprendono prima di quelli più profondi, garantisce maggiore stabilità, una convergenza più rapida e migliori prestazioni nei task downstream.

Tianhao Chen, Xin Xu, Lu Yin + 4 more2026-03-06💬 cs.CL

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

Questo studio dimostra che l'impiego di strategie di fine-tuning incentrate sul ragionamento, come l'analisi della catena di pensiero e dei contesti lessicali, permette a modelli linguistici di grandi dimensioni ma con pochi parametri (<4B) di raggiungere prestazioni nella disambiguazione del senso delle parole paragonabili o superiori a quelle di modelli molto più grandi, garantendo al contempo una significativa riduzione dei costi computazionali ed energetici.

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Dissociating Direct Access from Inference in AI Introspection

Lo studio dimostra che i modelli di intelligenza artificiale rilevano le rappresentazioni iniettate attraverso due meccanismi distinti: un'inferenza basata sull'anomalia del prompt e un accesso diretto agli stati interni che, sebbene rilevi l'anomalia in modo agnostico rispetto al contenuto, non permette di identificare con precisione il significato semantico senza un significativo aumento dei token.

Harvey Lederman, Kyle Mahowald2026-03-06🤖 cs.AI

Ensembling Language Models with Sequential Monte Carlo

Questo lavoro introduce un quadro unificato per l'ensembling di modelli linguistici tramite distribuzioni $f$ -ensemble, utilizzando un algoritmo Sequential Monte Carlo a livello di byte per campionare coerentemente da distribuzioni aggregate anche con vocabolari diversi, superando i limiti delle tecniche di aggregazione tradizionali.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Questo articolo introduce il Distributed Partial Information Puzzle (DPIP), un nuovo dataset multimodale per studiare la costruzione di terreno comune in condizioni di asimmetria epistemica, e dimostra che i moderni modelli linguistici di grandi dimensioni (LLM) faticano a tracciare con precisione lo stato delle credenze e l'evoluzione del compito rispetto a un approccio basato sulla logica epistemica dinamica.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

Il paper presenta FlashAttention-4, una soluzione di co-progettazione di algoritmi e kernel che ottimizza l'attenzione per le GPU Blackwell (come B200/GB200) affrontando le asimmetrie hardware attraverso nuove pipeline asincrone, tecniche software per ridurre le operazioni non matriciali e l'uso di modalità MMA avanzate, ottenendo fino a 1,3× di velocità in più rispetto a cuDNN e tempi di compilazione 20-30 volte più rapidi grazie all'implementazione in CuTe-DSL.

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

Il paper presenta DEBISS, un nuovo corpus di dibattiti parlati e individuali a struttura semi-strutturata, arricchito da annotazioni per diverse attività di elaborazione del linguaggio naturale come trascrizione, diarizzazione, estrazione di argomenti e valutazione della qualità dei dibattenti, colmando così una lacuna nella letteratura esistente.

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo + 1 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Il paper presenta NCTB-QA, un ampio dataset di domande e risposte in lingua bengalese estratto da libri di testo nazionali che include una significativa proporzione di domande senza risposta e distrattori, dimostrando come il fine-tuning su modelli transformer migliori drasticamente le prestazioni nella comprensione del testo per le lingue a risorse limitate.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Il paper introduce INTRA, un metodo che verifica i fatti sfruttando le conoscenze parametriche interne dei modelli linguistici senza ricorrere alla ricerca esterna, superando i limiti delle approcci basati sul retrieval e ottenendo prestazioni all'avanguardia su diversi scenari di generalizzazione.

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Lo studio dimostra che l'analisi delle attivazioni può rilevare la "teatro del ragionamento" nei modelli AI, consentendo un'uscita anticipata che riduce drasticamente il consumo di token mantenendo l'accuratezza, specialmente per domande di facile recall.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Questo studio utilizza modelli LLM cinesi censurati come banco di prova naturale per valutare tecniche di elicitarazione della verità e rilevamento delle menzogne, scoprendo che metodi come il prompting few-shot e il fine-tuning migliorano significativamente l'onestà, sebbene nessuna tecnica riesca a eliminare completamente le risposte false.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Questo studio dimostra che le "massive activations" e gli "attention sinks", sebbene spesso co-occorrenti nei modelli Transformer a causa della configurazione pre-norm, svolgono funzioni distinte agendo rispettivamente come parametri impliciti globali e come modulatori locali delle dipendenze a breve raggio.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

← Precedente Successivo →