cs.CL articoli | Gist.Science

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

Il paper presenta MERLIN, un framework di allineamento curricolare in due fasi che integra efficientemente encoder e LLM multilingue tramite pesi DoRA, ottenendo risultati significativamente superiori rispetto agli stati dell'arte nel ragionamento cross-linguale, specialmente per le lingue a risorse limitate.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Questo lavoro presenta la prima meta-valutazione completa delle metriche di latenza per la traduzione simultanea voce-testo, introducendo le nuove metriche YAAL e LongYAAL e lo strumento SoftSegmenter per superare i bias esistenti e fornire valutazioni più accurate sia per contenuti brevi che lunghi.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Questo articolo dimostra che, sebbene i modelli linguistici decoder-only siano inizialmente inferiori agli encoder-only nell'adattamento cross-modale per le equazioni differenziali parziali, l'introduzione di due nuove tecniche che mimano la bidirezionalità (Parallel Flipping e Sequence Doubling) permette di colmare il divario di prestazioni.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

Lo studio dimostra che il micro-benchmarking dei modelli linguistici è spesso inaffidabile per il ranking di modelli con prestazioni simili, rivelando che sono necessari fino a 250 esempi per ottenere risultati consistenti e che, a quel punto, il campionamento casuale risulta competitivo rispetto ai metodi esistenti.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Questo studio dimostra che gli stati interni dei grandi modelli linguistici riflettono principalmente il richiamo di conoscenze parametriche piuttosto che la veridicità dell'output, rendendo inefficaci i metodi di rilevamento standard per le allucinazioni basate su associazioni spurie, che condividono geometrie nascoste simili alle risposte fattualmente corrette.

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

Questo paper introduce un approccio chiamato "obiettivi just-in-time" che infere e ottimizza in tempo reale le intenzioni dell'utente per trasformare i modelli linguistici generici in strumenti specializzati di alta qualità, superando significativamente le prestazioni dei chatbot LLM standard.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

Lo studio dimostra che l'uso del ragionamento a catena di pensiero (Chain-of-Thought) migliora significativamente la capacità dei modelli linguistici di grandi dimensioni di gestire le dipendenze inter-sentenziali nella traduzione, con i modelli più performanti che raggiungono circa il 90% di accuratezza e un punteggio COMET di 92%, evidenziando inoltre un effetto "i saggi diventano più saggi" in cui i modelli già capaci traggono i maggiori benefici dal ragionamento.

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis2026-03-09💬 cs.CL

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Lo studio dimostra che l'uso di ChatGPT per codificare dati comunicativi su larga scala garantisce una coerenza nelle prestazioni tra diversi sottogruppi demografici (genere ed etnia) paragonabile a quella dei valutatori umani, rendendo la tecnologia affidabile per valutazioni su vasta scala.

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Questo articolo presenta il compito di dialogo "Collaborative Battleship" e strategie di inferenza Monte Carlo ispirate alla progettazione sperimentale bayesiana per migliorare le capacità di agenti linguistici nell'esplorazione strategica e nel processo decisionale sotto incertezza, permettendo loro di superare sia i giocatori umani che i modelli all'avanguardia in compiti come Battleship e Guess Who?.

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

DETECT: Determining Ease and Textual Clarity of German Text Simplifications

Il paper introduce DETECT, il primo metrico specifico per il tedesco che valuta la semplificazione automatica del testo in termini di semplicità, preservazione del significato e fluidità, addestrato su dati sintetici generati da LLM e validato su un nuovo dataset umano, dimostrando una correlazione superiore rispetto alle metriche esistenti.

Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao2026-03-09💬 cs.CL

AfriMTEB and AfriE5: Benchmarking and Adapting Text Embedding Models for African Languages

Questo articolo presenta AfriMTEB, un nuovo benchmark che espande la valutazione dei modelli di embedding testuale a 59 lingue africane con 38 dataset, e AfriE5, un modello adattato che supera le prestazioni degli stati dell'arte in queste lingue.

Kosei Uemura, Miaoran Zhang, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

Il paper propone un nuovo metodo per controllare in modo stabile e preciso i tratti di personalità (Big Five) nelle risposte dei Large Language Models, identificando e sfruttando sottospazi a basso rango specifici per ciascun tratto all'interno di livelli ottimali della rete neurale per guidare il comportamento del modello senza comprometterne la fluidità o le capacità generali.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Critical Confabulation: Can LLMs Hallucinate for Social Good?

Il paper propone la "confabulazione critica", un approccio che utilizza le allucinazioni controllate dei LLM per colmare le lacune storiche causate da disuguaglianze sociali e ricostruire narrazioni inclusive per le figure dimenticate, dimostrando come sia possibile generare speculazioni utili senza compromettere la fedeltà storica.

Peiqi Sui, Eamon Duede, Hoyt Long, Richard Jean So2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

Il paper presenta Co-Layout, un nuovo framework che combina modelli linguistici su larga scala e programmazione intera su griglia per ottimizzare congiuntamente la disposizione degli spazi interni e il posizionamento dei mobili, superando le pipeline esistenti in qualità della soluzione ed efficienza computazionale grazie a una strategia di ottimizzazione da grezzo a fine.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

Il paper propone SPINE, un framework di apprendimento per rinforzo a test-time che seleziona e aggiorna solo i token critici ad alta entropia nelle catene di pensiero, risolvendo il collasso delle risposte tipico dei metodi precedenti e migliorando le prestazioni senza bisogno di etichette o modelli di reward.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Questo studio introduce il rischio di privacy nell'orchestrazione degli strumenti (TOP-R), un nuovo pericolo in cui gli agenti autonomi sintetizzano informazioni sensibili da frammenti non sensibili, presentando un framework formale, un benchmark (TOP-Bench) e strategie di mitigazione che migliorano significativamente il compromesso tra utilità e sicurezza.

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin Hu2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Il paper introduce WBC, un nuovo metodo di attacco per l'inferenza di appartenenza che supera i limiti delle tecniche globali analizzando segnali localizzati tramite finestre scorrevoli, dimostrando così una maggiore efficacia nel rilevare i dati di addestramento memorizzati nei modelli linguistici su larga scala.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

Il paper presenta un framework che adatta i Large Language Models per generare contenuti educativi specifici per sei diversi livelli scolastici, migliorando significativamente l'allineamento al grado di istruzione rispetto ai metodi basati su prompt senza compromettere la correttezza fattuale.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

Questo studio presenta il framework PyMUSAS, che combina regole e reti neurali per l'annotazione semantica multilingue basata sul sistema USAS, superando la carenza di dati di addestramento tramite un dataset "silver standard" e rilasciando risorse open source per cinque lingue, incluso il cinese.

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

Il paper propone la Latent Exploration Decoding (LED), una strategia di decodifica senza costi di addestramento che ripristina l'esplorazione nei Large Reasoning Models post-allenati aggregando le distribuzioni posteriori degli strati intermedi per migliorare l'accuratezza nei compiti di ragionamento.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

← Precedente Successivo →