Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

Questo studio introduce il framework HUMAINE, che attraverso un'analisi multidimensionale di oltre 23.000 conversazioni con utenti demograficamente stratificati, rivela come le preferenze per i modelli linguistici varino significativamente in base all'età e dimostri la necessità di abbandonare le valutazioni riduzioniste a favore di approcci più rappresentativi e granulari.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

Il paper presenta DynaKV, un innovativo framework di post-addestramento per la compressione del cache KV che assegna dinamicamente tassi di compressione a livello di token in base al loro significato semantico, ottenendo così una riduzione significativa della memoria e prestazioni superiori rispetto alle tecniche esistenti, specialmente se combinato con metodi di pruning come SnapKV.

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Questo articolo introduce l'Inductive Conceptual Rating (ICR), una metrica qualitativa basata su semiotica ed ermeneutica per valutare l'allineamento semantico dei riassunti generati da LLM, evidenziando come, nonostante l'elevata similarità lessicale, i modelli linguistici spesso falliscano nel catturare significati contestualmente radicati rispetto alla produzione umana.

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

Il paper propone un framework di supervisione debole affidabile per il rilevamento di cornici nei social media arabi, che utilizza un pipeline multi-agente LLM per stimare l'affidabilità degli esempi e un'ottimizzazione QUBO per selezionare un sottoinsieme bilanciato e non ridondante, migliorando così le prestazioni nella previsione del sentiment.

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Questo studio evidenzia come i modelli di linguaggio di grandi dimensioni (LLM) utilizzati come giudici automatizzati mostrino una significativa instabilità nei punteggi numerici assegnati a input identici, variando in base al modello, alla famiglia e alla temperatura, il che solleva preoccupazioni critiche per l'affidabilità operativa e la riproducibilità nei flussi di lavoro aziendali.

Fiona Lau2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

Questo studio presenta un metodo di auto-istruzione consapevole della conformità, integrato con un pipeline di verifica a 26 filtri e tecniche LoRA, per generare dialoghi radio marittimi realistici e conformi allo SMCP dell'IMO, al fine di colmare la carenza di dati ad alta qualità necessari per i sistemi di sicurezza marittima basati sull'intelligenza artificiale.

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

Questo studio presenta il primo framework end-to-end per lo sviluppo di modelli linguistici specializzati nella scienza della combustione, basato su un vasto database multimodale e un percorso di iniezione di conoscenza in tre fasi che dimostra come l'uso di grafi della conoscenza e il pre-addestramento continuato siano necessari per superare i limiti delle tecniche di recupero standard.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs