cs.CL articoli | Gist.Science

OSCAR: Online Soft Compression And Reranking

Il paper introduce OSCAR, un metodo innovativo di compressione soft online e dipendente dalla query che riduce l'overhead computazionale e accelera l'inferenza nei sistemi RAG senza comprometterne l'accuratezza, integrando anche una funzionalità di riclassificazione.

Maxime Louis, Thibault Formal, Hervé Dejean + 1 more2026-03-05🤖 cs.AI

Generating Fine Details of Entity Interactions

Questo paper presenta \data, un dataset focalizzato sulle interazioni tra entità, e \model, un metodo che sfrutta i Modelli Linguistici Multimodali per decomporre le interazioni e raffinare le immagini generate, migliorando significativamente la qualità delle relazioni spaziali e funzionali tra gli oggetti.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

Il documento presenta il modello formale N2M-RSI, che dimostra come un agente AI che utilizza i propri output come dati di addestramento possa generare una crescita illimitata della complessità interna una volta superata una specifica soglia di integrazione informativa, unificando concetti di auto-prompting e riferimento godeliano in un framework agnostico rispetto all'implementazione.

Rintaro Ando2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Questo studio introduce PubHealthBench, un nuovo benchmark basato su oltre 8000 domande derivate dalle linee guida del governo britannico, per valutare le conoscenze di 24 modelli linguistici (LLM) nel campo della sanità pubblica, rivelando che, sebbene i modelli proprietari più recenti superino gli umani nelle risposte a scelta multipla, mostrano prestazioni inferiori nelle risposte in formato libero, indicando la necessità di ulteriori misure di sicurezza.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Il paper propone MoB, un metodo di pruning dei token visivi basato sulla teoria della copertura multi-obiettivo che risolve il compromesso tra allineamento e preservazione visiva garantendo prestazioni superiori e scalabilità lineare nei modelli MLLM.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Il paper presenta R1-Code-Interpreter, un modello LLM potenziato da un approccio di apprendimento curricolare multi-fase che combina fine-tuning supervisionato e rinforzato, permettendo di generare codice autonomamente e raggiungendo prestazioni superiori rispetto a GPT-4o su una vasta gamma di compiti di ragionamento e pianificazione.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Il paper propone la Calibrazione Supervisionata (SC), un nuovo framework basato sulla minimizzazione della perdita che supera i limiti delle tecniche di calibrazione esistenti per l'Apprendimento in Contesto (ICL) nei LLM, permettendo di modificare l'orientamento dei confini decisionali e integrando regolarizzatori per migliorare la stabilità e le prestazioni su diversi modelli e dataset.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

Questo studio individua e quantifica come i modelli di preferenza linguistica siano sistematicamente distorti da artefatti superficiali come lunghezza e stile, proponendo quindi un metodo di post-addestramento basato sull'aumento dei dati controfattuali per mitigare tali pregiudizi e migliorare l'affidabilità delle valutazioni senza compromettere le prestazioni complessive.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

Il paper presenta CounselBench, un benchmark su larga scala sviluppato con l'apporto di 100 professionisti della salute mentale per valutare e stress-testare i modelli linguistici su domande aperte relative alla salute mentale, evidenziando attraverso valutazioni esperte e test avversariali sia i limiti attuali degli LLM (come la mancanza di personalizzazione e i rischi di sicurezza) sia la loro tendenza a essere sopravvalutati da giudici automatizzati.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

Query-Level Uncertainty in Large Language Models

Questo lavoro propone "Internal Confidence", un metodo senza addestramento per rilevare l'incertezza a livello di query nei modelli linguistici di grandi dimensioni prima della generazione, consentendo un'inferenza adattiva più efficiente ed economica che preserva le prestazioni complessive.

Lihu Chen, Gerard de Melo, Fabian M. Suchanek + 1 more2026-03-05💬 cs.CL

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

Il paper propone un metodo di correzione degli errori di sostituzione in tempo reale durante l'inferenza per risolvere le discrepanze tra pronuncia e ortografia nei sistemi di riconoscimento vocale, ottenendo un miglioramento significativo dell'accuratezza per parole specifiche senza compromettere le prestazioni complessive.

Christian Huber, Alexander Waibel2026-03-05🤖 cs.LG

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

Il paper presenta RLVER, un innovativo framework di apprendimento per rinforzo che utilizza ricompense emotive verificabili da utenti simulati per addestrare modelli linguistici a sviluppare un'intelligenza emotiva superiore, migliorando drasticamente le loro capacità empatiche senza compromettere le competenze logiche e matematiche.

Peisong Wang, Ruotian Ma, Bang Zhang + 13 more2026-03-05🤖 cs.AI

UQLM: A Python Package for Uncertainty Quantification in Large Language Models

Il paper presenta UQLM, un pacchetto Python che rileva le allucinazioni nei grandi modelli linguistici calcolando punteggi di incertezza per valutare l'affidabilità delle loro risposte.

Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik + 3 more2026-03-05🤖 cs.AI

From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems

Questo studio dimostra che l'applicazione della risoluzione delle coreferenze nei sistemi Retrieval-Augmented Generation (RAG) migliora significativamente l'efficacia del recupero e la qualità delle risposte, in particolare per i modelli di dimensioni ridotte, mitigando l'ambiguità referenziale che ostacola l'apprendimento contestuale.

Youngjoon Jang, Seongtae Hong, Junyoung Son + 3 more2026-03-05🤖 cs.AI

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Questo studio utilizza tecniche di interpretabilità per dimostrare che i grandi modelli linguistici generalizzano compiti nuovi tramite un meccanismo di "induzione di funzioni", in cui più testine di attenzione collaborano per apprendere e riutilizzare strutture astratte come l'addizione con uno spostamento.

Qinyuan Ye, Robin Jia, Xiang Ren2026-03-05🤖 cs.AI

Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification

Questo articolo presenta il primo benchmark multilingue completo per la valutazione della detossificazione del testo in nove lingue, dimostrando che le metriche proposte, tra cui approcci basati su LLM, raggiungono una correlazione significativamente superiore con i giudizi umani rispetto ai metodi esistenti.

Vitaly Protasov, Nikolay Babakov, Daryna Dementieva + 1 more2026-03-05💬 cs.CL

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

Il paper presenta Text2VLM, un nuovo pipeline che adatta dataset testuali-only in formati multimodali per valutare la resilienza dei modelli linguistici visivi contro attacchi di iniezione di prompt tipografici, rivelando vulnerabilità critiche e un divario prestazionale rispetto ai modelli proprietari.

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI

WebDS: An End-to-End Benchmark for Web-based Data Science

Il paper introduce WebDS, il primo benchmark end-to-end per la data science basata sul web, che evidenzia il significativo divario tra le prestazioni degli attuali agenti LLM e quelle umane nella gestione di compiti complessi e multi-step su siti web eterogenei.

Ethan Hsu, Hong Meng Yam, Ines Bouissou + 9 more2026-03-05🤖 cs.AI

SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection

Il paper presenta SEVADE, un innovativo framework multi-agente auto-evolutivo con valutazione disaccoppiata che, grazie a un motore di ragionamento dinamico e un adjudicator separato, supera le limitazioni degli attuali modelli nel rilevamento dell'ironia riducendo le allucinazioni e ottenendo prestazioni state-of-the-art su quattro dataset di benchmark.

Ziqi Liu, Ziyang Zhou, Yilin Li + 4 more2026-03-05💬 cs.CL

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

Il paper propone ObfusQAte, un nuovo framework che introduce il dataset ObfusQA per valutare la robustezza dei modelli linguistici di grandi dimensioni di fronte a domande fattuali oscurate, rivelando la loro tendenza a fallire o allucinazioni quando confrontati con livelli crescenti di indirection e sovraccarico contestuale.

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru + 1 more2026-03-05🤖 cs.AI

← Precedente Successivo →