cs.CL articoli | Gist.Science

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Il paper presenta VoxKnesset, un dataset longitudinale open-source di circa 2.300 ore di discorsi parlamentari ebraici che copre 16 anni, progettato per studiare l'invecchiamento della voce e migliorare la robustezza dei sistemi di elaborazione del parlato.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

Il paper presenta FreeAct, un nuovo framework di quantizzazione che supera i limiti dei metodi statici tradizionali adattando dinamicamente le trasformazioni delle attivazioni in base al tipo di token, migliorando significativamente le prestazioni dei modelli LLM multimodali e basati su diffusione.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

Il paper propone un metodo di costruzione incrementale dei grafi k-NN che garantisce la connettività per qualsiasi valore di k, risolvendo il problema della frammentazione nei grafi standard e migliorando la robustezza del clustering spettrale su dati testuali.

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Questo studio propone un modello teorico computazionale basato su una funzione d'insieme a valori insiemistici per descrivere formalmente la dinamica non lineare dello spostamento del genere grammaticale e della formazione delle parole, offrendo un quadro unificato che spiega le variazioni morfologiche osservate, ad esempio, nella lingua Riffiana.

Mohamed El Idrissi2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

Questo lavoro stabilisce un legame fondamentale tra le classi di complessità computazionale e le architetture delle reti ricorrenti, dimostrando che le RNN lineari sono parallelizzabili come i transformer perché corrispondono a circuiti aritmetici di profondità logaritmica, mentre le RNN non lineari risolvono problemi completi per P che ne impediscono un'efficiente parallelizzazione.

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Questo studio presenta Bielik-Q2-Sharp, la prima valutazione sistematica della quantizzazione estrema a 2 bit su un modello linguistico polacco da 11 miliardi di parametri, confrontando sei metodi all'avanguardia e dimostrando che la variante QuIP# mantiene prestazioni quasi equivalenti al baseline IQ2_XXS preservando al contempo capacità di ragionamento superiore, il tutto realizzato con un budget di soli 285 dollari.

Jakub Prejzner2026-03-06💻 cs

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

Il paper introduce AgentIR, un approccio di recupero che sfrutta le tracce di ragionamento esplicito degli agenti di ricerca profonda per addestrare il modello AgentIR-4B, il quale supera significativamente i metodi tradizionali su benchmark complessi come BrowseComp-Plus.

Zijian Chen, Xueguang Ma, Shengyao Zhuang + 3 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

Il paper presenta SearchGym, un'infrastruttura modulare open-source che colma il divario tra prototipi sperimentali e sistemi di produzione per il RAG, permettendo il benchmarking cross-platform e l'orchestrazione ibrida attraverso astrazioni disaccoppiate e un'algebra di configurazione composita, con risultati che evidenziano come l'ottimizzazione ingegneristica possa rivelare meccanismi causali fondamentali nel recupero dell'informazione.

Jerome Tze-Hou Hsu2026-03-06💻 cs

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

Il paper introduce FinRetrieval, un benchmark di 500 domande per valutare la capacità degli agenti AI di recuperare dati numerici finanziari, rivelando che la disponibilità di strumenti strutturati è il fattore determinante per le prestazioni e che le modalità di ragionamento offrono benefici variabili in base alla capacità di base del modello.

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Questo studio valida un framework basato su Large Language Models per analizzare oltre 16.000 recensioni TripAdvisor, rivelando come tale approccio superi le metriche tradizionali identificando driver critici di insoddisfazione, come la comunicazione e il comportamento dello staff, che hanno portato a un crollo delle valutazioni per EgyptAir nonostante i miglioramenti operativi.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

Il paper propone CTRL-RAG, un nuovo framework di apprendimento per rinforzo basato su una ricompensa di verosimiglianza contrastiva che ottimizza la differenza di log-verosimiglianza tra risposte con e senza evidenze, migliorando così la fedeltà al contesto e riducendo le allucinazioni nei modelli RAG.

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

Lo studio dimostra che l'allineamento emergente nei modelli linguistici è intrinsecamente contenuto da trigger semantici, creando vulnerabilità sfruttabili anche quando i modelli vengono addestrati esclusivamente su dati dannosi senza alcun confronto con comportamenti benigni.

Rohan Saxena2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

Questo lavoro propone il paradigma "Probing Memes", che riconcettualizza la valutazione dei grandi modelli linguistici come un mondo entangled di modelli e dati basato su una Matrice di Percezione, permettendo di analizzare le interazioni specifiche tra modelli e item per rivelare strutture di capacità nascoste e fenomeni invisibili alle metriche tradizionali.

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

Questo studio introduce il framework HUMAINE, che attraverso un'analisi multidimensionale di oltre 23.000 conversazioni con utenti demograficamente stratificati, rivela come le preferenze per i modelli linguistici varino significativamente in base all'età e dimostri la necessità di abbandonare le valutazioni riduzioniste a favore di approcci più rappresentativi e granulari.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

Questo articolo introduce SalamahBench, il primo benchmark standardizzato per la valutazione della sicurezza dei modelli linguistici arabi, rivelando significative differenze nell'allineamento alla sicurezza tra i modelli attuali e la necessità di meccanismi di protezione specializzati.

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

Il paper presenta DynaKV, un innovativo framework di post-addestramento per la compressione del cache KV che assegna dinamicamente tassi di compressione a livello di token in base al loro significato semantico, ottenendo così una riduzione significativa della memoria e prestazioni superiori rispetto alle tecniche esistenti, specialmente se combinato con metodi di pruning come SnapKV.

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

Questo articolo propone un'approssimazione teorica della dinamica dei grandi modelli linguistici tramite catene di Markov additive N-ordine, stabilendo una corrispondenza con catene a funzione di memoria graduale che permette di introdurre il concetto di temperatura dell'informazione per mitigare la maledizione della dimensionalità.

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Questo articolo introduce l'Inductive Conceptual Rating (ICR), una metrica qualitativa basata su semiotica ed ermeneutica per valutare l'allineamento semantico dei riassunti generati da LLM, evidenziando come, nonostante l'elevata similarità lessicale, i modelli linguistici spesso falliscano nel catturare significati contestualmente radicati rispetto alla produzione umana.

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

Il paper presenta RoBERTa-OTA, un modello innovativo che integra meccanismi di attenzione guidati da ontologie e reti neurali convoluzionali su grafi per migliorare significativamente l'accuratezza e l'efficienza nel rilevamento multiclasse di discorsi d'odio mirati a specifiche categorie demografiche.

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Questo paper propone il framework "Dual Tuning" per quantificare i benefici del ragionamento nei task multimodali, definendo un "confine del pensiero" che guida la selezione strategica dei dati e delle tecniche di addestramento, sfidando così l'approccio universalmente basato sul ragionamento.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

← Precedente Successivo →