cs.CL articoli | Gist.Science

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

Il paper introduce ESGenius, il primo benchmark completo per valutare le capacità dei modelli linguistici di grandi dimensioni nelle conoscenze ESG e sulla sostenibilità, dimostrando che l'uso della generazione aumentata dal recupero (RAG) su un corpus curato di fonti autorevoli colma significativamente il divario di conoscenza rispetto alle prestazioni zero-shot.

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

Questo lavoro presenta una pipeline automatizzata e deterministica che trasforma corpora grezzi in benchmark di completamento per valutare in modo scalabile, economico e privo di contaminazione l'expertise di dominio dei modelli linguistici, evitando la dipendenza da altri LLM o da annotazioni umane costose.

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız2026-03-09💬 cs.CL

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Il paper presenta Sysformer, un approccio innovativo che protegge i grandi modelli linguistici (LLM) congelati adattando dinamicamente i prompt di sistema tramite un modello trasformatore, migliorando significativamente la robustezza contro gli attacchi dannosi e la conformità alle richieste sicure senza richiedere un costoso riaddestramento dei parametri del modello.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Il paper presenta VLMQ, un framework di quantizzazione post-allenamento specifico per i modelli visione-linguaggio che, identificando e mitigando la sovrarappresentazione visiva e il divario tra modalità, utilizza un fattore di importanza guidato dal gradiente per selezionare i token salienti e ottenere prestazioni all'avanguardia, specialmente nelle configurazioni a basso numero di bit.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

Questo studio presenta un caso di valutazione che dimostra come, per la risposta a domande tecniche cross-lingue su un manuale agricolo, le strategie di Retrieval-Augmented Generation (RAG) ibrido superino costantemente il prompting diretto con modelli LLM a contesto esteso, raggiungendo un'accuratezza superiore all'85% con modelli come Gemini 2.5 Flash e Qwen 2.5 7B.

Julius Gun, Timo Oksanen2026-03-09💬 cs.CL

CMRAG: Co-modality-based visual document retrieval and question answering

Il paper presenta CMRAG, un framework di Retrieval-Augmented Generation che supera i limiti dei metodi esistenti integrando simultaneamente testo e immagini tramite un modello di codifica unificato e una strategia di recupero co-modale, dimostrando prestazioni superiori in compiti di domande e risposte su documenti visivi complessi.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang2026-03-09💬 cs.CL

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

Il paper presenta MERLIN, un framework di allineamento curricolare in due fasi che integra efficientemente encoder e LLM multilingue tramite pesi DoRA, ottenendo risultati significativamente superiori rispetto agli stati dell'arte nel ragionamento cross-linguale, specialmente per le lingue a risorse limitate.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Questo lavoro presenta la prima meta-valutazione completa delle metriche di latenza per la traduzione simultanea voce-testo, introducendo le nuove metriche YAAL e LongYAAL e lo strumento SoftSegmenter per superare i bias esistenti e fornire valutazioni più accurate sia per contenuti brevi che lunghi.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Questo articolo dimostra che, sebbene i modelli linguistici decoder-only siano inizialmente inferiori agli encoder-only nell'adattamento cross-modale per le equazioni differenziali parziali, l'introduzione di due nuove tecniche che mimano la bidirezionalità (Parallel Flipping e Sequence Doubling) permette di colmare il divario di prestazioni.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

Lo studio dimostra che il micro-benchmarking dei modelli linguistici è spesso inaffidabile per il ranking di modelli con prestazioni simili, rivelando che sono necessari fino a 250 esempi per ottenere risultati consistenti e che, a quel punto, il campionamento casuale risulta competitivo rispetto ai metodi esistenti.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Questo studio dimostra che gli stati interni dei grandi modelli linguistici riflettono principalmente il richiamo di conoscenze parametriche piuttosto che la veridicità dell'output, rendendo inefficaci i metodi di rilevamento standard per le allucinazioni basate su associazioni spurie, che condividono geometrie nascoste simili alle risposte fattualmente corrette.

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

Questo paper introduce un approccio chiamato "obiettivi just-in-time" che infere e ottimizza in tempo reale le intenzioni dell'utente per trasformare i modelli linguistici generici in strumenti specializzati di alta qualità, superando significativamente le prestazioni dei chatbot LLM standard.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

Lo studio dimostra che l'uso del ragionamento a catena di pensiero (Chain-of-Thought) migliora significativamente la capacità dei modelli linguistici di grandi dimensioni di gestire le dipendenze inter-sentenziali nella traduzione, con i modelli più performanti che raggiungono circa il 90% di accuratezza e un punteggio COMET di 92%, evidenziando inoltre un effetto "i saggi diventano più saggi" in cui i modelli già capaci traggono i maggiori benefici dal ragionamento.

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis2026-03-09💬 cs.CL

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Lo studio dimostra che l'uso di ChatGPT per codificare dati comunicativi su larga scala garantisce una coerenza nelle prestazioni tra diversi sottogruppi demografici (genere ed etnia) paragonabile a quella dei valutatori umani, rendendo la tecnologia affidabile per valutazioni su vasta scala.

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Questo articolo presenta il compito di dialogo "Collaborative Battleship" e strategie di inferenza Monte Carlo ispirate alla progettazione sperimentale bayesiana per migliorare le capacità di agenti linguistici nell'esplorazione strategica e nel processo decisionale sotto incertezza, permettendo loro di superare sia i giocatori umani che i modelli all'avanguardia in compiti come Battleship e Guess Who?.

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

DETECT: Determining Ease and Textual Clarity of German Text Simplifications

Il paper introduce DETECT, il primo metrico specifico per il tedesco che valuta la semplificazione automatica del testo in termini di semplicità, preservazione del significato e fluidità, addestrato su dati sintetici generati da LLM e validato su un nuovo dataset umano, dimostrando una correlazione superiore rispetto alle metriche esistenti.

Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao2026-03-09💬 cs.CL

AfriMTEB and AfriE5: Benchmarking and Adapting Text Embedding Models for African Languages

Questo articolo presenta AfriMTEB, un nuovo benchmark che espande la valutazione dei modelli di embedding testuale a 59 lingue africane con 38 dataset, e AfriE5, un modello adattato che supera le prestazioni degli stati dell'arte in queste lingue.

Kosei Uemura, Miaoran Zhang, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

Il paper propone un nuovo metodo per controllare in modo stabile e preciso i tratti di personalità (Big Five) nelle risposte dei Large Language Models, identificando e sfruttando sottospazi a basso rango specifici per ciascun tratto all'interno di livelli ottimali della rete neurale per guidare il comportamento del modello senza comprometterne la fluidità o le capacità generali.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Critical Confabulation: Can LLMs Hallucinate for Social Good?

Il paper propone la "confabulazione critica", un approccio che utilizza le allucinazioni controllate dei LLM per colmare le lacune storiche causate da disuguaglianze sociali e ricostruire narrazioni inclusive per le figure dimenticate, dimostrando come sia possibile generare speculazioni utili senza compromettere la fedeltà storica.

Peiqi Sui, Eamon Duede, Hoyt Long, Richard Jean So2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

Il paper presenta Co-Layout, un nuovo framework che combina modelli linguistici su larga scala e programmazione intera su griglia per ottimizzare congiuntamente la disposizione degli spazi interni e il posizionamento dei mobili, superando le pipeline esistenti in qualità della soluzione ed efficienza computazionale grazie a una strategia di ottimizzazione da grezzo a fine.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

← Precedente Successivo →