cs.CL articoli | Gist.Science

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

Il paper propone CTRL-RAG, un nuovo framework di apprendimento per rinforzo basato su una ricompensa di verosimiglianza contrastiva che ottimizza la differenza di log-verosimiglianza tra risposte con e senza evidenze, migliorando così la fedeltà al contesto e riducendo le allucinazioni nei modelli RAG.

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

Lo studio dimostra che l'allineamento emergente nei modelli linguistici è intrinsecamente contenuto da trigger semantici, creando vulnerabilità sfruttabili anche quando i modelli vengono addestrati esclusivamente su dati dannosi senza alcun confronto con comportamenti benigni.

Rohan Saxena2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

Questo lavoro propone il paradigma "Probing Memes", che riconcettualizza la valutazione dei grandi modelli linguistici come un mondo entangled di modelli e dati basato su una Matrice di Percezione, permettendo di analizzare le interazioni specifiche tra modelli e item per rivelare strutture di capacità nascoste e fenomeni invisibili alle metriche tradizionali.

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

Questo studio introduce il framework HUMAINE, che attraverso un'analisi multidimensionale di oltre 23.000 conversazioni con utenti demograficamente stratificati, rivela come le preferenze per i modelli linguistici varino significativamente in base all'età e dimostri la necessità di abbandonare le valutazioni riduzioniste a favore di approcci più rappresentativi e granulari.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

Questo articolo introduce SalamahBench, il primo benchmark standardizzato per la valutazione della sicurezza dei modelli linguistici arabi, rivelando significative differenze nell'allineamento alla sicurezza tra i modelli attuali e la necessità di meccanismi di protezione specializzati.

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

Il paper presenta DynaKV, un innovativo framework di post-addestramento per la compressione del cache KV che assegna dinamicamente tassi di compressione a livello di token in base al loro significato semantico, ottenendo così una riduzione significativa della memoria e prestazioni superiori rispetto alle tecniche esistenti, specialmente se combinato con metodi di pruning come SnapKV.

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

Questo articolo propone un'approssimazione teorica della dinamica dei grandi modelli linguistici tramite catene di Markov additive N-ordine, stabilendo una corrispondenza con catene a funzione di memoria graduale che permette di introdurre il concetto di temperatura dell'informazione per mitigare la maledizione della dimensionalità.

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Questo articolo introduce l'Inductive Conceptual Rating (ICR), una metrica qualitativa basata su semiotica ed ermeneutica per valutare l'allineamento semantico dei riassunti generati da LLM, evidenziando come, nonostante l'elevata similarità lessicale, i modelli linguistici spesso falliscano nel catturare significati contestualmente radicati rispetto alla produzione umana.

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

Il paper presenta RoBERTa-OTA, un modello innovativo che integra meccanismi di attenzione guidati da ontologie e reti neurali convoluzionali su grafi per migliorare significativamente l'accuratezza e l'efficienza nel rilevamento multiclasse di discorsi d'odio mirati a specifiche categorie demografiche.

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Questo paper propone il framework "Dual Tuning" per quantificare i benefici del ragionamento nei task multimodali, definendo un "confine del pensiero" che guida la selezione strategica dei dati e delle tecniche di addestramento, sfidando così l'approccio universalmente basato sul ragionamento.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

Il paper propone un framework di supervisione debole affidabile per il rilevamento di cornici nei social media arabi, che utilizza un pipeline multi-agente LLM per stimare l'affidabilità degli esempi e un'ottimizzazione QUBO per selezionare un sottoinsieme bilanciato e non ridondante, migliorando così le prestazioni nella previsione del sentiment.

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Questo studio evidenzia come i modelli di linguaggio di grandi dimensioni (LLM) utilizzati come giudici automatizzati mostrino una significativa instabilità nei punteggi numerici assegnati a input identici, variando in base al modello, alla famiglia e alla temperatura, il che solleva preoccupazioni critiche per l'affidabilità operativa e la riproducibilità nei flussi di lavoro aziendali.

Fiona Lau2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

Lo studio dimostra che i modelli visione-linguaggio calcolano le affordance in modo fortemente dipendente dal contesto, mostrando una deriva significativa sia lessicale che semantica che suggerisce la necessità di un'ontologia dinamica e adattiva per la robotica.

Murad Farzulla2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

Lo studio dimostra che l'uso di sistemi multi-agente basati su LLM di fornitori diversi migliora significativamente l'accuratezza e la sensibilità delle diagnosi cliniche rispetto alle configurazioni omogenee, grazie alla capacità di combinare bias induttivi complementari per identificare diagnosi che singoli modelli o team uniformi mancherebbero.

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

Questo studio presenta un metodo di auto-istruzione consapevole della conformità, integrato con un pipeline di verifica a 26 filtri e tecniche LoRA, per generare dialoghi radio marittimi realistici e conformi allo SMCP dell'IMO, al fine di colmare la carenza di dati ad alta qualità necessari per i sistemi di sicurezza marittima basati sull'intelligenza artificiale.

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

What Is Missing: Interpretable Ratings for Large Language Model Outputs

Il paper introduce il sistema di valutazione "What Is Missing" (WIM), che trasforma il feedback testuale in un punteggio numerico basato sulla similarità semantica tra l'output del modello e la descrizione delle informazioni mancanti, offrendo segnali di apprendimento più distinti e interpretabili rispetto alle tradizionali valutazioni numeriche dirette.

Nicholas Stranges, Yimin Yang2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Questa rassegna sistematica analizza le strategie di routing dinamico e cascading tra diversi modelli linguistici di grandi dimensioni (LLM), proponendo un quadro concettuale per ottimizzare il compromesso tra costi computazionali e prestazioni adattando la selezione del modello alla complessità della query.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

Il paper introduce SkillNet, un'infrastruttura aperta che crea, valuta e organizza competenze AI su larga scala attraverso un'ontologia unificata e un repository di oltre 200.000 competenze, migliorando significativamente le prestazioni degli agenti riducendo la necessità di reinventare soluzioni già esistenti.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

Questo studio presenta il primo framework end-to-end per lo sviluppo di modelli linguistici specializzati nella scienza della combustione, basato su un vasto database multimodale e un percorso di iniezione di conoscenza in tre fasi che dimostra come l'uso di grafi della conoscenza e il pre-addestramento continuato siano necessari per superare i limiti delle tecniche di recupero standard.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Questo studio rivela una nuova modalità di fallimento nei modelli linguistici visivi multimodali, dimostrando che l'ottimizzazione di una funzione di perdita volta a massimizzare l'instabilità numerica genera immagini che degradano significativamente le prestazioni del modello con modifiche minime, un fenomeno distinto dalle tradizionali perturbazioni avversarie.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

← Precedente Successivo →