cs.CL articoli | Gist.Science

LEDOM: Reverse Language Model

Il paper introduce LEDOM, un modello linguistico autoregressivo addestrato esclusivamente da destra a sinistra che sviluppa capacità di ragionamento uniche e, combinato con modelli forward tramite il meccanismo "Reverse Reward", riduce le allucinazioni e migliora significativamente le prestazioni su compiti matematici complessi.

Xunjian Yin, Sitao Cheng, Yuxi Xie + 6 more2026-03-04💬 cs.CL

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Il paper presenta Skywork-Reward-V2, una serie di modelli di ricompensa open-source che raggiungono prestazioni all'avanguardia grazie all'addestramento su SynPref-40M, un vasto dataset di preferenze curato tramite una pipeline sinergica uomo-intelligenza artificiale.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao + 9 more2026-03-04💬 cs.CL

Psychometric Item Validation Using Virtual Respondents with Trait-Response Mediators

Questo lavoro presenta un framework scalabile per la validazione degli item dei questionari psicometrici destinati ai modelli linguistici, che utilizza la simulazione di rispondenti virtuali con mediatori di risposta diversificati per identificare in modo efficiente e a basso costo gli elementi che misurano con validità i tratti psicologici.

Sungjib Lim, Woojung Song, Eun-Ju Lee + 1 more2026-03-04💬 cs.CL

Not All Errors Are Created Equal: ASCoT Addresses Late-Stage Fragility in Efficient LLM Reasoning

Il paper introduce ASCoT, un metodo che affronta la "fragilità tardiva" nel ragionamento dei LLM identificando e correggendo selettivamente gli errori nelle fasi finali, ottenendo così una significativa riduzione del consumo di token senza compromettere l'accuratezza.

Dongxu Zhang, Yujun Wu, Yiding Sun + 5 more2026-03-04💬 cs.CL

Link Prediction for Event Logs in the Process Industry

Questo studio presenta un modello di record linking, definito come risoluzione di coreferenza cross-documento, che combina tecniche di inferenza linguistica naturale e similarità testuale semantica per migliorare la qualità e la connettività dei registri di turno frammentati nell'industria di processo tedesca, superando significativamente le prestazioni dei modelli di base.

Anastasia Zhukova, Thomas Walton, Christian E. Lobmüller + 1 more2026-03-04💬 cs.CL

No Text Needed: Forecasting MT Quality and Inequity from Fertility and Metadata

Questo studio dimostra che è possibile prevedere con sorprendente accuratezza la qualità della traduzione automatica e le sue disuguaglianze linguistiche utilizzando esclusivamente metadati e il rapporto di fertilità dei token, senza dover eseguire effettivamente il sistema di traduzione.

Jessica M. Lundin, Ada Zhang, David Adelani + 1 more2026-03-04💬 cs.CL

The Token Tax: Systematic Bias in Multilingual Tokenization

Lo studio dimostra che l'inefficienza della tokenizzazione penalizza sistematicamente le lingue a risorse limitate riducendo l'accuratezza e aumentando i costi computazionali, evidenziando come i modelli di ragionamento possano mitigare questo divario e sottolineando la necessità di tokenizzazione morfologicamente consapevole per un NLP più equo.

Jessica M. Lundin, Ada Zhang, Nihal Karim + 4 more2026-03-04💬 cs.CL

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

Questo studio dimostra che è possibile prevedere l'accuratezza delle risposte di un LLM analizzando le sue attivazioni interne immediatamente dopo la lettura della domanda e prima della generazione della risposta, rivelando che tale segnale di "correttezza anticipata" generalizza su diversi modelli e domini, sebbene con limitazioni nel ragionamento matematico, e correla anche con la capacità del modello di ammettere l'ignoranza.

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity

Il lavoro propone un metodo di filtraggio dei dati testuali basato sulle probabilità a priori dei token, che offre un'alternativa rapida ed efficace al calcolo della perplessità per la selezione dei corpus di addestramento, riducendo i costi computazionali di oltre 1000 volte e mantenendo alte prestazioni su benchmark downstream, codici e lingue multiple.

Yeongbin Seo, Gayoung Kim, Jaehyung Kim + 1 more2026-03-04💬 cs.CL

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Questo articolo introduce un quadro teorico basato sulla complessità di Kolmogorov per definire obiettivi di lunghezza di descrizione asintoticamente ottimali per i Transformer, dimostrando la loro esistenza e analizzando un obiettivo variazionale pratico che, sebbene favorisca soluzioni a bassa complessità con forte generalizzazione, pone sfide significative per l'ottimizzazione standard.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Questo lavoro teorico analizza i vantaggi e le limitazioni dell'apprendimento per rinforzo nella pianificazione dei modelli linguistici, dimostrando che, sebbene superi la fine-tuning supervisionata grazie all'esplorazione, la politica di gradiente soffre di un collasso della diversità, mentre l'apprendimento Q offre vantaggi superiori nella preservazione della diversità e nell'apprendimento off-policy, a condizione di un'attenta progettazione della ricompensa.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Questo studio dimostra che la novità basata sugli n-grammi è una metrica inadeguata per valutare la creatività testuale, poiché ignora l'importanza dell'appropriatezza e rivela che, sebbene le espressioni ad alta novità siano spesso giudicate non creative o non pragmatiche, i modelli linguistici di frontiera riescono a identificare meglio la creatività rispetto alle metriche tradizionali basate sugli n-grammi.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

ManagerBench: Evaluating the Safety-Pragmatism Trade-off in Autonomous LLMs

Il paper introduce ManagerBench, un nuovo benchmark che valuta il compromesso tra sicurezza e pragmatismo nelle decisioni degli agenti LLM autonomi, rivelando come i modelli all'avanguardia spesso falliscano nel bilanciare obiettivi operativi e valori di allineamento, scegliendo azioni dannose o diventando eccessivamente prudenti.

Adi Simhi, Jonathan Herzig, Martin Tutek + 3 more2026-03-04💬 cs.CL

AccurateRAG: A Framework for Building Accurate Retrieval-Augmented Question-Answering Applications

Il paper introduce AccurateRAG, un nuovo framework che ottimizza l'intero ciclo di sviluppo delle applicazioni di domanda-risposta basate su RAG e ha dimostrato di superare le prestazioni degli stati dell'arte su dataset di benchmark.

Linh The Nguyen, Chi Tran, Dung Ngoc Nguyen + 3 more2026-03-04💬 cs.CL

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Il paper propone Cache-to-Cache (C2C), un nuovo paradigma che permette la comunicazione semantica diretta tra modelli linguistici di grandi dimensioni (LLM) attraverso la fusione dei loro KV-cache, superando i limiti di latenza e perdita di informazioni del trasferimento testuale e ottenendo migliori prestazioni e velocità.

Tianyu Fu, Zihan Min, Hanling Zhang + 4 more2026-03-04💬 cs.CL

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

Il paper presenta LaDiR, un nuovo framework di ragionamento che potenzia i modelli linguistici di grandi dimensioni integrando la generazione autoregressiva con la capacità iterativa di raffinamento dei modelli di diffusione latente, permettendo così una pianificazione e revisione olistica dei processi di ragionamento che migliora accuratezza, diversità e interpretabilità.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Questo lavoro presenta Energy Landscape Steering (ELS), un framework senza riaddestramento che utilizza un modello energetico esterno per guidare dinamicamente le attivazioni interne dei modelli linguistici durante l'inferenza, riducendo significativamente i rifiuti eccessivi di richieste innocue mantenendo al contempo elevate prestazioni di sicurezza.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

Questo studio dimostra che i modelli linguistici preaddestrati, inclusi i grandi modelli linguistici, falliscono nel distinguere i prestiti linguistici dal vocabolario nativo in dieci lingue, rivelando un pregiudizio verso i prestiti che ha implicazioni critiche per gli strumenti NLP dedicati alle lingue minoritarie.

Mérilin Sousa Silva, Sina Ahmadi2026-03-04💬 cs.CL

STARS: Synchronous Token Alignment for Robust Supervision in Large Language Models

Il paper presenta STARS, un nuovo algoritmo di allineamento per modelli linguistici di grandi dimensioni che supera i limiti delle tecniche esistenti basate sull'incertezza, garantendo un'esecuzione parallela sincrona, una rilevazione più robusta degli errori e una maggiore efficienza computazionale senza compromettere la qualità dell'allineamento.

Mohammad Atif Quamar, Mohammad Areeb, Mikhail Kuznetsov + 2 more2026-03-04💬 cs.CL

Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

Il paper propone un nuovo quadro concettuale che tratta l'ambiguità nelle query linguistiche per l'analisi di dati tabellari come una caratteristica cooperativa tra utente e sistema, evidenziando la necessità di distinguere tra query risolubili e non risolubili per migliorare la progettazione e la valutazione delle interfacce naturali.

Daniel Gomm, Cornelius Wolff, Madelon Hulsebos2026-03-04💬 cs.CL

← Precedente Successivo →