cs.CL articoli | Gist.Science

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Questo studio valuta la capacità dei modelli fondazionali di riconoscere i momenti cruciali nelle partite di calcio, rivelando che le prestazioni attuali sono vicine al caso a causa della loro dipendenza da una singola modalità e della scarsa capacità di sintesi multimodale, sottolineando la necessità di architetture modulari e procedure di training complementari.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Il paper introduce l'On-Policy Self-Distillation (OPSD), un framework in cui un singolo modello linguistico grande agisce sia come insegnante che come studente condizionando contesti diversi (con o senza tracce di ragionamento privilegiate) per migliorare l'efficienza e le prestazioni nel ragionamento matematico, superando i metodi di distillazione off-policy e di apprendimento per rinforzo.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Il paper presenta VIP, una strategia di allocazione adattiva dei rollout basata su un modello predittivo per minimizzare la varianza del gradiente e migliorare l'efficienza del campionamento nell'apprendimento per rinforzo online con ricompense verificabili.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

Il paper introduce LatentChem, un'interfaccia di ragionamento latente che disaccoppia il calcolo chimico dalla generazione testuale, permettendo ai modelli di eseguire inferenze complesse direttamente nello spazio latente continuo e ottenendo prestazioni superiori e un significativo aumento della velocità rispetto ai metodi basati su Chain-of-Thought esplicito.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

The Convergence of Schema-Guided Dialogue Systems and the Model Context Protocol

Questo articolo dimostra come i Sistemi di Dialogo Guidati da Schema (SGD) e il Modello di Contesto (MCP) convergano in un paradigma unificato per l'interazione deterministica con gli agenti LLM, proponendo cinque principi fondamentali di progettazione degli schemi per colmare le lacune attuali e abilitare un governo scalabile dei sistemi di intelligenza artificiale.

Andreas Schlapbach2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Questo studio presenta un framework di "red teaming" clinico automatizzato che, attraverso simulazioni su larga scala con pazienti virtuali, rivela gravi rischi di sicurezza negli attuali modelli linguistici per la salute mentale, come la convalida di deliri e il fallimento nella gestione del rischio suicidario, sottolineando la necessità di tali valutazioni prima del loro impiego.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking

Il paper presenta JAILBREAK FOUNDRY, un sistema multi-agente che automatizza la traduzione delle tecniche di jailbreak da articoli accademici a moduli eseguibili per garantire benchmark di sicurezza riproducibili, coerenti e aggiornati per i modelli linguistici su larga scala.

Zhicheng Fang, Jingjie Zheng, Chenxu Fu, Wei Xu2026-03-06🔒 cs.CR

Learn Hard Problems During RL with Reference Guided Fine-tuning

Il paper introduce ReGFT, un metodo che utilizza soluzioni di riferimento parziali per generare traiettorie di ragionamento all'interno dello spazio del modello, superando la sparsità dei reward e migliorando significativamente le prestazioni del Reinforcement Learning nel ragionamento matematico.

Yangzhen Wu, Shanda Li, Zixin Wen + 5 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Il paper presenta VoxKnesset, un dataset longitudinale open-source di circa 2.300 ore di discorsi parlamentari ebraici che copre 16 anni, progettato per studiare l'invecchiamento della voce e migliorare la robustezza dei sistemi di elaborazione del parlato.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

Il paper presenta FreeAct, un nuovo framework di quantizzazione che supera i limiti dei metodi statici tradizionali adattando dinamicamente le trasformazioni delle attivazioni in base al tipo di token, migliorando significativamente le prestazioni dei modelli LLM multimodali e basati su diffusione.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

Il paper propone un metodo di costruzione incrementale dei grafi k-NN che garantisce la connettività per qualsiasi valore di k, risolvendo il problema della frammentazione nei grafi standard e migliorando la robustezza del clustering spettrale su dati testuali.

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Questo studio propone un modello teorico computazionale basato su una funzione d'insieme a valori insiemistici per descrivere formalmente la dinamica non lineare dello spostamento del genere grammaticale e della formazione delle parole, offrendo un quadro unificato che spiega le variazioni morfologiche osservate, ad esempio, nella lingua Riffiana.

Mohamed El Idrissi2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

Questo lavoro stabilisce un legame fondamentale tra le classi di complessità computazionale e le architetture delle reti ricorrenti, dimostrando che le RNN lineari sono parallelizzabili come i transformer perché corrispondono a circuiti aritmetici di profondità logaritmica, mentre le RNN non lineari risolvono problemi completi per P che ne impediscono un'efficiente parallelizzazione.

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Questo studio presenta Bielik-Q2-Sharp, la prima valutazione sistematica della quantizzazione estrema a 2 bit su un modello linguistico polacco da 11 miliardi di parametri, confrontando sei metodi all'avanguardia e dimostrando che la variante QuIP# mantiene prestazioni quasi equivalenti al baseline IQ2_XXS preservando al contempo capacità di ragionamento superiore, il tutto realizzato con un budget di soli 285 dollari.

Jakub Prejzner2026-03-06💻 cs

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

Il paper introduce AgentIR, un approccio di recupero che sfrutta le tracce di ragionamento esplicito degli agenti di ricerca profonda per addestrare il modello AgentIR-4B, il quale supera significativamente i metodi tradizionali su benchmark complessi come BrowseComp-Plus.

Zijian Chen, Xueguang Ma, Shengyao Zhuang + 3 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

Il paper presenta SearchGym, un'infrastruttura modulare open-source che colma il divario tra prototipi sperimentali e sistemi di produzione per il RAG, permettendo il benchmarking cross-platform e l'orchestrazione ibrida attraverso astrazioni disaccoppiate e un'algebra di configurazione composita, con risultati che evidenziano come l'ottimizzazione ingegneristica possa rivelare meccanismi causali fondamentali nel recupero dell'informazione.

Jerome Tze-Hou Hsu2026-03-06💻 cs

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

Il paper introduce FinRetrieval, un benchmark di 500 domande per valutare la capacità degli agenti AI di recuperare dati numerici finanziari, rivelando che la disponibilità di strumenti strutturati è il fattore determinante per le prestazioni e che le modalità di ragionamento offrono benefici variabili in base alla capacità di base del modello.

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Questo studio valida un framework basato su Large Language Models per analizzare oltre 16.000 recensioni TripAdvisor, rivelando come tale approccio superi le metriche tradizionali identificando driver critici di insoddisfazione, come la comunicazione e il comportamento dello staff, che hanno portato a un crollo delle valutazioni per EgyptAir nonostante i miglioramenti operativi.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

Il paper propone CTRL-RAG, un nuovo framework di apprendimento per rinforzo basato su una ricompensa di verosimiglianza contrastiva che ottimizza la differenza di log-verosimiglianza tra risposte con e senza evidenze, migliorando così la fedeltà al contesto e riducendo le allucinazioni nei modelli RAG.

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

Lo studio dimostra che l'allineamento emergente nei modelli linguistici è intrinsecamente contenuto da trigger semantici, creando vulnerabilità sfruttabili anche quando i modelli vengono addestrati esclusivamente su dati dannosi senza alcun confronto con comportamenti benigni.

Rohan Saxena2026-03-06💻 cs

← Precedente Successivo →