cs.CL articoli | Gist.Science

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

Il paper propone SPINE, un framework di apprendimento per rinforzo a test-time che seleziona e aggiorna solo i token critici ad alta entropia nelle catene di pensiero, risolvendo il collasso delle risposte tipico dei metodi precedenti e migliorando le prestazioni senza bisogno di etichette o modelli di reward.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Questo studio introduce il rischio di privacy nell'orchestrazione degli strumenti (TOP-R), un nuovo pericolo in cui gli agenti autonomi sintetizzano informazioni sensibili da frammenti non sensibili, presentando un framework formale, un benchmark (TOP-Bench) e strategie di mitigazione che migliorano significativamente il compromesso tra utilità e sicurezza.

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin Hu2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Il paper introduce WBC, un nuovo metodo di attacco per l'inferenza di appartenenza che supera i limiti delle tecniche globali analizzando segnali localizzati tramite finestre scorrevoli, dimostrando così una maggiore efficacia nel rilevare i dati di addestramento memorizzati nei modelli linguistici su larga scala.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

Il paper presenta un framework che adatta i Large Language Models per generare contenuti educativi specifici per sei diversi livelli scolastici, migliorando significativamente l'allineamento al grado di istruzione rispetto ai metodi basati su prompt senza compromettere la correttezza fattuale.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

Questo studio presenta il framework PyMUSAS, che combina regole e reti neurali per l'annotazione semantica multilingue basata sul sistema USAS, superando la carenza di dati di addestramento tramite un dataset "silver standard" e rilasciando risorse open source per cinque lingue, incluso il cinese.

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

Il paper propone la Latent Exploration Decoding (LED), una strategia di decodifica senza costi di addestramento che ripristina l'esplorazione nei Large Reasoning Models post-allenati aggregando le distribuzioni posteriori degli strati intermedi per migliorare l'accuratezza nei compiti di ragionamento.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

Il paper presenta COMI, un framework di compressione del contesto adattivo a due stadi che utilizza il Marginal Information Gain (MIG) per ottimizzare la rilevanza semantica e la diversità, ottenendo prestazioni superiori rispetto alle tecniche esistenti in scenari a lungo contesto.

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng, Wenbo Su, Bo Zheng2026-03-09💬 cs.CL

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Il documento presenta una serie di studi caso che dimostrano come la collaborazione con modelli AI avanzati come Gemini abbia accelerato la ricerca scientifica in ambiti teorici, fornendo tecniche comuni per l'interazione uomo-macchina e evidenziando il potenziale dell'AI come vero partner nella scoperta scientifica.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

Il paper presenta Aletheia, un agente di ricerca matematica autonomo basato su modelli avanzati e scaling dell'inferenza, capace di generare, verificare e revisionare soluzioni end-to-end per problemi che spaziano dalle Olimpiadi Matematiche alla ricerca di livello PhD, dimostrando risultati significativi come la produzione autonoma di articoli scientifici e la risoluzione di problemi aperti.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Il paper presenta DataChef-32B, un sistema basato su apprendimento per rinforzo che automatizza la generazione end-to-end di "ricette" ottimali per l'adattamento dei modelli linguistici su larga scala, ottenendo prestazioni competitive rispetto agli esperti umani e superando i checkpoint ufficiali in compiti specifici come la matematica.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Questo studio critico smaschera l'illusione della "verità fondamentale" nell'annotazione dei dati, rivelando come la ricerca forzata del consenso nasconda il disaccordo umano come segnale sociotecnico vitale e proponga infrastrutture di annotazione pluraliste che valorizzino la diversità delle esperienze invece di imporre norme occidentali come verità assolute.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

Il paper presenta IntelliAsk, un modello addestrato tramite ottimizzazione basata sul rinforzo (RLVR) e un nuovo sistema di ricompensa (IntelliReward) per generare domande di revisione accademica più sostanziali, basate su evidenze e approfondite, superando le capacità dei modelli LLM attuali e dimostrando miglioramenti anche in compiti di ragionamento e scrittura.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference

Questo articolo propone una nuova annotazione per la risoluzione della coreferenza cross-documento nel dataset NewsWCL50 che, trattando le catene di coreferenza come elementi del discorso, permette di gestire la diversità lessicale e le variazioni di framing nei testi giornalistici, migliorando così l'analisi di notizie polarizzate.

Anastasia Zhukova, Felix Hamborg, Karsten Donnay, Norman Meuschke, Bela Gipp2026-03-09💬 cs.CL

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Il paper dimostra che, nonostante la credenza comune, gli Speech LLM attuali spesso si comportano come costose catene ASR-LLM e possono persino peggiorare le prestazioni rispetto a queste pipeline in condizioni di rumore, poiché le loro rappresentazioni interne dipendono causalmente dalla trascrizione testuale.

Jayadev Billa2026-03-09🤖 cs.AI

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Questo articolo introduce nuove metriche per valutare l'efficacia degli agenti LLM nel generare SQL su grandi dataset ("Text-to-Big SQL"), dimostrando che le metriche tradizionali sono insufficienti per catturare costi, latenza e impatti legati alla scalabilità nei flussi di lavoro reali.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-Artigas2026-03-09💬 cs.CL

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Questo studio inquadra il collasso modale nei modelli linguistici multimodali come un problema di decodifica disallineata, dimostrando che la perdita di informazioni è determinata dal criterio di valutazione del decoder e non dall'architettura, e che l'adeguamento dell'obiettivo di training può ripristinare selettivamente l'accesso a specifiche modalità.

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

Il paper presenta CoME, una nuova architettura di agenti mobili basata su esperti specializzati e una strategia di formazione progressiva con Info-DPO, progettata per potenziare il ragionamento ibrido e migliorare le prestazioni nei compiti di automazione mobile.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Verify as You Go: An LLM-Powered Browser Extension for Fake News Detection

Questo articolo presenta Aletheia, un'estensione del browser basata su LLM e RAG che rileva le fake news fornendo spiegazioni trasparenti e strumenti interattivi per il coinvolgimento degli utenti, dimostrando superiorità nelle prestazioni e nell'usabilità rispetto alle soluzioni esistenti.

Dorsaf Sallami, Esma Aïmeur2026-03-09💬 cs.CL

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Il paper presenta Omni-C, un singolo encoder denso basato su Transformer che comprime modalità eterogenee (immagini, audio e testo) in rappresentazioni condivise tramite pre-addestramento contrastivo, eliminando la necessità di architetture Mixture-of-Experts e riducendo significativamente l'uso di memoria rispetto ai modelli multimodali tradizionali.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding

Questo lavoro stabilisce un legame fondamentale tra l'efficienza strutturale e la reachability nel decoding vincolato da grammatica, dimostrando che grammatiche linguisticamente equivalenti possono generare costi computazionali drasticamente diversi e fornendo limiti inferiori teorici, metriche di ambiguità strutturale e strategie di ottimizzazione per l'implementazione di modelli linguistici vincolati.

Faruk Alpay, Bilge Senturk2026-03-09🤖 cs.LG

← Precedente Successivo →

cs.CL