cs.CL articoli | Gist.Science

What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models

Questo studio esplora le origini del bias di genere nei modelli di traduzione neurale analizzando, tramite spiegazioni contrastive e attribuzione di salienza, quali token di input influenzano la scelta del genere nelle traduzioni e confrontando tali meccanismi con le percezioni umane.

Janiça Hackenbuchner, Arda Tezcan, Joke Daems2026-03-05💬 cs.CL

NRR-Core: Non-Resolution Reasoning as a Computational Framework for Contextual Identity and Ambiguity Preservation

Il paper propone NRR-Core, un nuovo quadro computazionale che sfida l'architettura attuale dell'IA trattando la ritenzione dell'ambiguità come una modalità di ragionamento valida attraverso principi di non-identità e tracciamento contestuale, evitando così il collasso semantico prematuro.

Kei Saito2026-03-05🤖 cs.AI

A Systematic Analysis of Biases in Large Language Models

Questo studio analizza sistematicamente i pregiudizi politici, ideologici, geopolitici, linguistici e di genere presenti in quattro ampiamente utilizzati modelli linguistici su larga scala, rivelando che, nonostante i tentativi di allineamento alla neutralità, questi modelli mantengono diverse forme di inclinazione e bias.

Xulang Zhang, Rui Mao, Erik Cambria2026-03-05🤖 cs.AI

Generalization of RLVR Using Causal Reasoning as a Testbed

Questo studio dimostra che il Reinforcement Learning con ricompense verificabili (RLVR) migliora la generalizzazione nel ragionamento causale rispetto al fine-tuning supervisionato, ma solo quando applicato a modelli con competenza iniziale sufficiente, ottimizzando strategie di marginalizzazione e riducendo errori nei calcoli probabilistici intermedi.

Brian Lu, Hongyu Zhao, Shuo Sun + 3 more2026-03-05🤖 cs.AI

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Il paper introduce DevRev-Search, un benchmark e una strategia di adattamento che preservano l'indice, permettendo di sfruttare i dati "oscuri" dei sistemi di ricerca multi-tenant tramite un processo automatizzato di costruzione del dataset e il fine-tuning efficiente solo dell'encoder delle query.

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI

Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning

Questo lavoro propone un paradigma di apprendimento post-addestramento in cui i grafi di conoscenza fungono da modelli di ricompensa impliciti, permettendo a un modello da 14B di eccellere nel ragionamento compositivo multi-hop in ambito medico e superare sistemi frontieri molto più grandi grazie a segnali di ricompensa derivati dai percorsi che favoriscono la composizione di assiomi intermedi.

Yuval Kansal, Niraj K. Jha2026-03-05✓ Author reviewed ⓘ🤖 cs.AI

NRR-Phi: Text-to-State Mapping for Ambiguity Preservation in LLM Inference

Il paper presenta NRR-Phi, un framework formale che mappa il testo in uno stato non collassante per preservare l'ambiguità semantica durante l'inferenza dei modelli linguistici, combinando rilevamento di conflitti ed estrazione di interpretazioni per evitare la prematura convergenza su un'unica risposta.

Kei Saito2026-03-05🤖 cs.AI

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Questo studio presenta il primo approccio empirico per insegnare ai modelli linguistici a astenersi nel rispondere a domande temporali incerte, dimostrando che l'addestramento tramite apprendimento per rinforzo supera le tecniche di supervisione tradizionale, migliorando significativamente l'accuratezza e l'affidabilità rispetto a modelli come GPT-4o.

Xinyu Zhou, Chang Jin, Carsten Eickhoff + 2 more2026-03-05🤖 cs.AI

Rewards as Labels: Revisiting RLVR from a Classification Perspective

Il paper propone REAL, un nuovo framework che riformula l'ottimizzazione della politica nei modelli linguistici con ricompense verificabili come un problema di classificazione per risolvere le inefficienze dei metodi RLVR esistenti, ottenendo risultati superiori e una maggiore stabilità su benchmark di ragionamento matematico.

Zepeng Zhai, Meilin Chen, Jiaxuan Zhao + 3 more2026-03-05🤖 cs.LG

Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding

Il paper introduce SureLock, un metodo che accelera il decoding dei modelli di linguaggio a diffusione mascherata bloccando i token già convergenti per ridurre i costi computazionali del 30-50% senza compromettere la qualità della generazione.

Daisuke Oba, Danushka Bollegala, Masahiro Kaneko + 1 more2026-03-05🤖 cs.LG

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

Questo studio dimostra che i modelli di ragionamento avanzati (LRM) non migliorano necessariamente le prestazioni nei compiti di Teoria della Mente rispetto ai modelli non ragionanti, rivelando invece tendenze al collasso del ragionamento prolungato, alla dipendenza da scorciatoie di abbinamento delle opzioni e la necessità di strategie adattive e specifiche per il ragionamento sociale.

Nanxu Gong, Haotian Li, Sixun Dong + 3 more2026-03-05🤖 cs.AI

Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

Questo studio presenta il primo dataset NLP per il dialetto Meenzerisch di Magonza, dimostrando che i modelli linguistici su larga scala attuali non riescono a generare definizioni o parole in questo dialetto con sufficiente accuratezza, evidenziando così la necessità urgente di ulteriori risorse e ricerche per la preservazione dei dialetti tedeschi.

Minh Duc Bui, Manuel Mager, Peter Herbert Kann + 1 more2026-03-05💬 cs.CL

Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks

Questo articolo presenta un nuovo dataset ceco per l'analisi del sentiment basata sugli aspetti arricchito con termini di opinione, valuta le prestazioni dei modelli Transformer e degli LLM in diversi scenari linguistici e propone un metodo di allineamento tramite traduzione per migliorare le risorse nelle lingue a bassa risorsa.

Jakub Šmíd, Pavel Přibáň, Pavel Král2026-03-05💬 cs.CL

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Lo studio evidenzia che, per l'implementazione clinica in contesti a risorse limitate, i modelli open-source di piccole dimensioni come Llama 3.2 offrono il miglior compromesso tra accuratezza e coerenza, dimostrando al contempo che un'elevata coerenza nelle risposte non garantisce la correttezza e che il pre-addestramento settoriale da solo è insufficiente senza un'adeguata istruzione.

Shravani Hariprasad2026-03-05🤖 cs.AI

A Study on Building Efficient Zero-Shot Relation Extraction Models

Questo studio analizza la robustezza dei modelli esistenti per l'estrazione di relazioni zero-shot in scenari realistici, evidenziando i limiti delle attuali assunzioni e proponendo strategie per modelli a passaggio singolo con meccanismi di rifiuto, concludendo che AlignRE si distingue come la soluzione più efficace.

Hugo Thomas, Caio Corro, Guillaume Gravier + 1 more2026-03-05💬 cs.CL

Extracting Training Dialogue Data from Large Language Model based Task Bots

Questo studio evidenzia i rischi di privacy nei sistemi di dialogo basati su LLM, proponendo nuove tecniche di attacco per estrarre dati di addestramento memorizzati e analizzando i fattori che influenzano tale memorizzazione per sviluppare strategie di mitigazione mirate.

Shuo Zhang, Junzhou Zhao, Junji Hou + 3 more2026-03-05🤖 cs.AI

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

Questo lavoro presenta un framework di annotazione basato su grafi per le narrazioni economiche che integra l'analisi qualitativa dei contenuti per ridurre gli errori, dimostrando attraverso un esperimento fattoriale che le rappresentazioni localmente vincolate e le metriche di distanza appropriate migliorano l'accordo tra annotatori e la gestione della variazione umana nell'etichettatura.

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

Questo capitolo esamina l'attuale panorama dei rilevatori di testi generati da IA, ne delinea l'uso responsabile e presenta un'analisi empirica sulla capacità di generalizzazione di tali strumenti tra diversi modelli linguistici, fornendo indicazioni per il loro sviluppo pratico.

Jiangang Hao2026-03-05💬 cs.CL

LaTeX Compilation: Challenges in the Era of LLMs

Questo articolo evidenzia i limiti di TeX nell'era dei modelli linguistici su larga scala e propone Mogan STEM, un editor strutturato WYSIWYG che supera TeX in efficienza di compilazione, localizzazione degli errori e ottimizzazione per l'addestramento di LLM grazie al suo formato .tmu a bassa entropia.

Tianyou Liu, Ziqiang Li, Xurui Liu + 1 more2026-03-05💬 cs.CL

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Il paper propone un framework di collaborazione multi-agente basato sul processo "Proposta-Valutazione-Rivisione" e sull'apprendimento per rinforzo per migliorare l'estrazione degli argomenti degli eventi a livello di documento in scenari zero-shot, superando i limiti dei metodi attuali nella generazione e valutazione di dati sintetici.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

← Precedente Successivo →