cs.CL articoli | Gist.Science

DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

Il paper presenta DiSCTT, un framework di adattamento al test basato su un curriculum self-guidato che ottimizza le prestazioni dei modelli di ragionamento assegnando dinamicamente strategie di apprendimento supervisionato o per rinforzo in base al livello di incertezza e consenso delle traiettorie di ragionamento, ottenendo così maggiore accuratezza ed efficienza computazionale rispetto alle tecniche esistenti.

Mohammad Mahdi Moradi, Sudhir Mudur2026-03-06💬 cs.CL

Progressive Residual Warmup for Language Model Pretraining

Il paper propone ProRes, un metodo di preaddestramento per modelli linguistici basato su un riscaldamento progressivo dei residui che, seguendo il principio per cui gli strati iniziali apprendono prima di quelli più profondi, garantisce maggiore stabilità, una convergenza più rapida e migliori prestazioni nei task downstream.

Tianhao Chen, Xin Xu, Lu Yin + 4 more2026-03-06💬 cs.CL

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

Questo studio dimostra che l'impiego di strategie di fine-tuning incentrate sul ragionamento, come l'analisi della catena di pensiero e dei contesti lessicali, permette a modelli linguistici di grandi dimensioni ma con pochi parametri (<4B) di raggiungere prestazioni nella disambiguazione del senso delle parole paragonabili o superiori a quelle di modelli molto più grandi, garantendo al contempo una significativa riduzione dei costi computazionali ed energetici.

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Dissociating Direct Access from Inference in AI Introspection

Lo studio dimostra che i modelli di intelligenza artificiale rilevano le rappresentazioni iniettate attraverso due meccanismi distinti: un'inferenza basata sull'anomalia del prompt e un accesso diretto agli stati interni che, sebbene rilevi l'anomalia in modo agnostico rispetto al contenuto, non permette di identificare con precisione il significato semantico senza un significativo aumento dei token.

Harvey Lederman, Kyle Mahowald2026-03-06🤖 cs.AI

Ensembling Language Models with Sequential Monte Carlo

Questo lavoro introduce un quadro unificato per l'ensembling di modelli linguistici tramite distribuzioni $f$ -ensemble, utilizzando un algoritmo Sequential Monte Carlo a livello di byte per campionare coerentemente da distribuzioni aggregate anche con vocabolari diversi, superando i limiti delle tecniche di aggregazione tradizionali.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Questo articolo introduce il Distributed Partial Information Puzzle (DPIP), un nuovo dataset multimodale per studiare la costruzione di terreno comune in condizioni di asimmetria epistemica, e dimostra che i moderni modelli linguistici di grandi dimensioni (LLM) faticano a tracciare con precisione lo stato delle credenze e l'evoluzione del compito rispetto a un approccio basato sulla logica epistemica dinamica.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

Il paper presenta FlashAttention-4, una soluzione di co-progettazione di algoritmi e kernel che ottimizza l'attenzione per le GPU Blackwell (come B200/GB200) affrontando le asimmetrie hardware attraverso nuove pipeline asincrone, tecniche software per ridurre le operazioni non matriciali e l'uso di modalità MMA avanzate, ottenendo fino a 1,3× di velocità in più rispetto a cuDNN e tempi di compilazione 20-30 volte più rapidi grazie all'implementazione in CuTe-DSL.

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

Il paper presenta DEBISS, un nuovo corpus di dibattiti parlati e individuali a struttura semi-strutturata, arricchito da annotazioni per diverse attività di elaborazione del linguaggio naturale come trascrizione, diarizzazione, estrazione di argomenti e valutazione della qualità dei dibattenti, colmando così una lacuna nella letteratura esistente.

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo + 1 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Il paper presenta NCTB-QA, un ampio dataset di domande e risposte in lingua bengalese estratto da libri di testo nazionali che include una significativa proporzione di domande senza risposta e distrattori, dimostrando come il fine-tuning su modelli transformer migliori drasticamente le prestazioni nella comprensione del testo per le lingue a risorse limitate.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Il paper introduce INTRA, un metodo che verifica i fatti sfruttando le conoscenze parametriche interne dei modelli linguistici senza ricorrere alla ricerca esterna, superando i limiti delle approcci basati sul retrieval e ottenendo prestazioni all'avanguardia su diversi scenari di generalizzazione.

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Lo studio dimostra che l'analisi delle attivazioni può rilevare la "teatro del ragionamento" nei modelli AI, consentendo un'uscita anticipata che riduce drasticamente il consumo di token mantenendo l'accuratezza, specialmente per domande di facile recall.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Questo studio utilizza modelli LLM cinesi censurati come banco di prova naturale per valutare tecniche di elicitarazione della verità e rilevamento delle menzogne, scoprendo che metodi come il prompting few-shot e il fine-tuning migliorano significativamente l'onestà, sebbene nessuna tecnica riesca a eliminare completamente le risposte false.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Questo studio dimostra che le "massive activations" e gli "attention sinks", sebbene spesso co-occorrenti nei modelli Transformer a causa della configurazione pre-norm, svolgono funzioni distinte agendo rispettivamente come parametri impliciti globali e come modulatori locali delle dipendenze a breve raggio.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

Il paper introduce POET-X, una variante scalabile ed efficiente dal punto di vista della memoria del framework POET che, riducendo i costi computazionali delle trasformazioni ortogonali, permette l'addestramento di modelli linguistici su larga scala su una singola GPU H100 dove i metodi standard fallirebbero.

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Questo articolo propone un metodo innovativo per la segmentazione istanza di oggetti mimetizzati in ambito open-vocabulary, sfruttando le capacità dei modelli di diffusione testo-immagine per apprendere rappresentazioni visivo-testuali multiscala che superano le sfide poste dal camuffamento e permettono l'identificazione di nuove classi di oggetti.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

RAEE: A Robust Retrieval-Augmented Early Exit Framework for Efficient Inference

Il paper propone RAEE, un framework robusto di uscita anticipata potenziato dal recupero (Retrieval-Augmented) che accelera l'inferenza dei grandi modelli linguistici migliorando al contempo le prestazioni attraverso l'utilizzo di informazioni correttive estratte da dati simili in un database di recupero.

Lianming Huang, Shangyu Wu, Yufei Cui + 6 more2026-03-05💬 cs.CL

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Questa ricerca propone un sistema innovativo di interrogazione semantica che integra modelli linguistici di grandi dimensioni con un grafo della conoscenza accademica dell'ANU, utilizzando un modello documentale profondo e un processo di interrogazione potenziato per migliorare l'accuratezza e l'efficienza nel recupero delle informazioni sulla ricerca informatica.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

Questo studio dimostra che i modelli linguistici neurali apprendono le eccezioni alla passivizzazione in inglese sia attraverso la frequenza d'uso (intrenchment) che attraverso la semantica (coinvolgimento), confermando la validità della manipolazione dei dati di addestramento come metodo per indagare i meccanismi di acquisizione linguistica.

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL

LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

Il paper introduce LMUnit, un modello di valutazione unificato basato su test unitari in linguaggio naturale che, combinando preferenze, valutazioni dirette e ragionamenti testuali, supera i limiti delle metriche automatizzate e dell'annotazione umana per migliorare l'affidabilità e l'efficacia dello sviluppo dei modelli linguistici.

Jon Saad-Falcon, Rajan Vivek, William Berrios + 6 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

Questo lavoro evidenzia il problema della "preference leakage", una forma di contaminazione nei sistemi LLM-as-a-judge causata dalla correlazione tra generatori di dati sintetici e modelli valutatori, che porta a un pregiudizio sistematico e difficile da rilevare a favore dei modelli correlati.

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI

← Precedente Successivo →