cs.CL articoli | Gist.Science

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

Il paper presenta COMI, un framework di compressione del contesto adattivo a due stadi che utilizza il Marginal Information Gain (MIG) per ottimizzare la rilevanza semantica e la diversità, ottenendo prestazioni superiori rispetto alle tecniche esistenti in scenari a lungo contesto.

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng, Wenbo Su, Bo Zheng2026-03-09💬 cs.CL

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Il documento presenta una serie di studi caso che dimostrano come la collaborazione con modelli AI avanzati come Gemini abbia accelerato la ricerca scientifica in ambiti teorici, fornendo tecniche comuni per l'interazione uomo-macchina e evidenziando il potenziale dell'AI come vero partner nella scoperta scientifica.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

Il paper presenta Aletheia, un agente di ricerca matematica autonomo basato su modelli avanzati e scaling dell'inferenza, capace di generare, verificare e revisionare soluzioni end-to-end per problemi che spaziano dalle Olimpiadi Matematiche alla ricerca di livello PhD, dimostrando risultati significativi come la produzione autonoma di articoli scientifici e la risoluzione di problemi aperti.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Il paper presenta DataChef-32B, un sistema basato su apprendimento per rinforzo che automatizza la generazione end-to-end di "ricette" ottimali per l'adattamento dei modelli linguistici su larga scala, ottenendo prestazioni competitive rispetto agli esperti umani e superando i checkpoint ufficiali in compiti specifici come la matematica.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Questo studio critico smaschera l'illusione della "verità fondamentale" nell'annotazione dei dati, rivelando come la ricerca forzata del consenso nasconda il disaccordo umano come segnale sociotecnico vitale e proponga infrastrutture di annotazione pluraliste che valorizzino la diversità delle esperienze invece di imporre norme occidentali come verità assolute.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

Il paper presenta IntelliAsk, un modello addestrato tramite ottimizzazione basata sul rinforzo (RLVR) e un nuovo sistema di ricompensa (IntelliReward) per generare domande di revisione accademica più sostanziali, basate su evidenze e approfondite, superando le capacità dei modelli LLM attuali e dimostrando miglioramenti anche in compiti di ragionamento e scrittura.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference

Questo articolo propone una nuova annotazione per la risoluzione della coreferenza cross-documento nel dataset NewsWCL50 che, trattando le catene di coreferenza come elementi del discorso, permette di gestire la diversità lessicale e le variazioni di framing nei testi giornalistici, migliorando così l'analisi di notizie polarizzate.

Anastasia Zhukova, Felix Hamborg, Karsten Donnay, Norman Meuschke, Bela Gipp2026-03-09💬 cs.CL

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Il paper dimostra che, nonostante la credenza comune, gli Speech LLM attuali spesso si comportano come costose catene ASR-LLM e possono persino peggiorare le prestazioni rispetto a queste pipeline in condizioni di rumore, poiché le loro rappresentazioni interne dipendono causalmente dalla trascrizione testuale.

Jayadev Billa2026-03-09🤖 cs.AI

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Questo articolo introduce nuove metriche per valutare l'efficacia degli agenti LLM nel generare SQL su grandi dataset ("Text-to-Big SQL"), dimostrando che le metriche tradizionali sono insufficienti per catturare costi, latenza e impatti legati alla scalabilità nei flussi di lavoro reali.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-Artigas2026-03-09💬 cs.CL

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Questo studio inquadra il collasso modale nei modelli linguistici multimodali come un problema di decodifica disallineata, dimostrando che la perdita di informazioni è determinata dal criterio di valutazione del decoder e non dall'architettura, e che l'adeguamento dell'obiettivo di training può ripristinare selettivamente l'accesso a specifiche modalità.

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

Il paper presenta CoME, una nuova architettura di agenti mobili basata su esperti specializzati e una strategia di formazione progressiva con Info-DPO, progettata per potenziare il ragionamento ibrido e migliorare le prestazioni nei compiti di automazione mobile.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Verify as You Go: An LLM-Powered Browser Extension for Fake News Detection

Questo articolo presenta Aletheia, un'estensione del browser basata su LLM e RAG che rileva le fake news fornendo spiegazioni trasparenti e strumenti interattivi per il coinvolgimento degli utenti, dimostrando superiorità nelle prestazioni e nell'usabilità rispetto alle soluzioni esistenti.

Dorsaf Sallami, Esma Aïmeur2026-03-09💬 cs.CL

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Il paper presenta Omni-C, un singolo encoder denso basato su Transformer che comprime modalità eterogenee (immagini, audio e testo) in rappresentazioni condivise tramite pre-addestramento contrastivo, eliminando la necessità di architetture Mixture-of-Experts e riducendo significativamente l'uso di memoria rispetto ai modelli multimodali tradizionali.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding

Questo lavoro stabilisce un legame fondamentale tra l'efficienza strutturale e la reachability nel decoding vincolato da grammatica, dimostrando che grammatiche linguisticamente equivalenti possono generare costi computazionali drasticamente diversi e fornendo limiti inferiori teorici, metriche di ambiguità strutturale e strategie di ottimizzazione per l'implementazione di modelli linguistici vincolati.

Faruk Alpay, Bilge Senturk2026-03-09🤖 cs.LG

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Il paper presenta EigenData, una piattaforma multi-agente auto-evolutiva che automatizza la sintesi, l'audit e la riparazione dei dati per il function calling, migliorando significativamente la correlazione tra le valutazioni dei modelli e il giudizio umano sulla correttezza funzionale attraverso la correzione del benchmark BFCL-V3 e l'introduzione di metriche basate sullo stato del database.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin2026-03-09✓ Author reviewed🤖 cs.AI

Aligning the True Semantics: Constrained Decoupling and Distribution Sampling for Cross-Modal Alignment

Il paper propone CDDS, un nuovo algoritmo di allineamento cross-modale che utilizza un UNet a doppio percorso per il disaccoppiamento vincolato e un campionamento distributivo per colmare il divario modale, superando significativamente i metodi esistenti nel garantire la coerenza semantica tra immagini e testo.

Xiang Ma, Lexin Fang, Litian Xu, Caiming Zhang2026-03-09🤖 cs.LG

CBR-to-SQL: Rethinking Retrieval-based Text-to-SQL using Case-based Reasoning in the Healthcare Domain

Il paper introduce CBR-to-SQL, un framework basato sul ragionamento per casi che supera le limitazioni dei metodi RAG tradizionali nel dominio sanitario, ottenendo risultati all'avanguardia nella traduzione da testo a SQL su dati EHR grazie a un processo di recupero a due stadi che migliora l'efficienza e la robustezza anche in condizioni di scarsità di dati.

Hung Nguyen, Hans Moen, Pekka Marttinen2026-03-09🤖 cs.AI

NOTAI.AI: Explainable Detection of Machine-Generated Text via Curvature and Feature Attribution

NOTAI.AI è un framework spiegabile per il rilevamento di testi generati da IA che combina segnali di curvatura, caratteristiche neurali e stilometriche in un classificatore XGBoost, utilizzando SHAP e un layer basato su LLM per fornire attribuzioni di funzionalità e spiegazioni in linguaggio naturale tramite un'applicazione web interattiva.

Oleksandr Marchenko Breneur, Adelaide Danilov, Aria Nourbakhsh, Salima Lamsiyah2026-03-09💬 cs.CL

Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs

Questo studio dimostra che il prompting Chain-of-Thought può aumentare la fuoriuscita di informazioni personali identificabili (PII) nei modelli linguistici, proponendo un framework per misurare tale rischio e valutare diverse strategie di mitigazione in tempo reale.

Patrick Ahrend, Tobias Eder, Xiyang Yang, Zhiyi Pan, Georg Groh2026-03-09💬 cs.CL

RACAS: Controlling Diverse Robots With a Single Agentic System

Il paper presenta RACAS, un'architettura agente basata su modelli linguistici che permette il controllo a ciclo chiuso di robot eterogenei tramite descrizioni in linguaggio naturale, eliminando la necessità di riaddestramento o modifiche al codice sorgente quando si cambia piattaforma.

Dylan R. Ashley, Jan Przepióra, Yimeng Chen, Ali Abualsaud, Nurzhan Yesmagambet, Shinkyu Park, Eric Feron, Jürgen Schmidhuber2026-03-09🤖 cs.AI

← Precedente Successivo →

cs.CL