cs.CL articoli | Gist.Science

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

Il paper introduce POET-X, una variante scalabile ed efficiente dal punto di vista della memoria del framework POET che, riducendo i costi computazionali delle trasformazioni ortogonali, permette l'addestramento di modelli linguistici su larga scala su una singola GPU H100 dove i metodi standard fallirebbero.

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Questo articolo propone un metodo innovativo per la segmentazione istanza di oggetti mimetizzati in ambito open-vocabulary, sfruttando le capacità dei modelli di diffusione testo-immagine per apprendere rappresentazioni visivo-testuali multiscala che superano le sfide poste dal camuffamento e permettono l'identificazione di nuove classi di oggetti.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

RAEE: A Robust Retrieval-Augmented Early Exit Framework for Efficient Inference

Il paper propone RAEE, un framework robusto di uscita anticipata potenziato dal recupero (Retrieval-Augmented) che accelera l'inferenza dei grandi modelli linguistici migliorando al contempo le prestazioni attraverso l'utilizzo di informazioni correttive estratte da dati simili in un database di recupero.

Lianming Huang, Shangyu Wu, Yufei Cui + 6 more2026-03-05💬 cs.CL

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Questa ricerca propone un sistema innovativo di interrogazione semantica che integra modelli linguistici di grandi dimensioni con un grafo della conoscenza accademica dell'ANU, utilizzando un modello documentale profondo e un processo di interrogazione potenziato per migliorare l'accuratezza e l'efficienza nel recupero delle informazioni sulla ricerca informatica.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

Questo studio dimostra che i modelli linguistici neurali apprendono le eccezioni alla passivizzazione in inglese sia attraverso la frequenza d'uso (intrenchment) che attraverso la semantica (coinvolgimento), confermando la validità della manipolazione dei dati di addestramento come metodo per indagare i meccanismi di acquisizione linguistica.

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL

LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

Il paper introduce LMUnit, un modello di valutazione unificato basato su test unitari in linguaggio naturale che, combinando preferenze, valutazioni dirette e ragionamenti testuali, supera i limiti delle metriche automatizzate e dell'annotazione umana per migliorare l'affidabilità e l'efficacia dello sviluppo dei modelli linguistici.

Jon Saad-Falcon, Rajan Vivek, William Berrios + 6 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

Questo lavoro evidenzia il problema della "preference leakage", una forma di contaminazione nei sistemi LLM-as-a-judge causata dalla correlazione tra generatori di dati sintetici e modelli valutatori, che porta a un pregiudizio sistematico e difficile da rilevare a favore dei modelli correlati.

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI

OSCAR: Online Soft Compression And Reranking

Il paper introduce OSCAR, un metodo innovativo di compressione soft online e dipendente dalla query che riduce l'overhead computazionale e accelera l'inferenza nei sistemi RAG senza comprometterne l'accuratezza, integrando anche una funzionalità di riclassificazione.

Maxime Louis, Thibault Formal, Hervé Dejean + 1 more2026-03-05🤖 cs.AI

Generating Fine Details of Entity Interactions

Questo paper presenta \data, un dataset focalizzato sulle interazioni tra entità, e \model, un metodo che sfrutta i Modelli Linguistici Multimodali per decomporre le interazioni e raffinare le immagini generate, migliorando significativamente la qualità delle relazioni spaziali e funzionali tra gli oggetti.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

Il documento presenta il modello formale N2M-RSI, che dimostra come un agente AI che utilizza i propri output come dati di addestramento possa generare una crescita illimitata della complessità interna una volta superata una specifica soglia di integrazione informativa, unificando concetti di auto-prompting e riferimento godeliano in un framework agnostico rispetto all'implementazione.

Rintaro Ando2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Questo studio introduce PubHealthBench, un nuovo benchmark basato su oltre 8000 domande derivate dalle linee guida del governo britannico, per valutare le conoscenze di 24 modelli linguistici (LLM) nel campo della sanità pubblica, rivelando che, sebbene i modelli proprietari più recenti superino gli umani nelle risposte a scelta multipla, mostrano prestazioni inferiori nelle risposte in formato libero, indicando la necessità di ulteriori misure di sicurezza.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Il paper propone MoB, un metodo di pruning dei token visivi basato sulla teoria della copertura multi-obiettivo che risolve il compromesso tra allineamento e preservazione visiva garantendo prestazioni superiori e scalabilità lineare nei modelli MLLM.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Il paper presenta R1-Code-Interpreter, un modello LLM potenziato da un approccio di apprendimento curricolare multi-fase che combina fine-tuning supervisionato e rinforzato, permettendo di generare codice autonomamente e raggiungendo prestazioni superiori rispetto a GPT-4o su una vasta gamma di compiti di ragionamento e pianificazione.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Il paper propone la Calibrazione Supervisionata (SC), un nuovo framework basato sulla minimizzazione della perdita che supera i limiti delle tecniche di calibrazione esistenti per l'Apprendimento in Contesto (ICL) nei LLM, permettendo di modificare l'orientamento dei confini decisionali e integrando regolarizzatori per migliorare la stabilità e le prestazioni su diversi modelli e dataset.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

Questo studio individua e quantifica come i modelli di preferenza linguistica siano sistematicamente distorti da artefatti superficiali come lunghezza e stile, proponendo quindi un metodo di post-addestramento basato sull'aumento dei dati controfattuali per mitigare tali pregiudizi e migliorare l'affidabilità delle valutazioni senza compromettere le prestazioni complessive.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

Il paper presenta CounselBench, un benchmark su larga scala sviluppato con l'apporto di 100 professionisti della salute mentale per valutare e stress-testare i modelli linguistici su domande aperte relative alla salute mentale, evidenziando attraverso valutazioni esperte e test avversariali sia i limiti attuali degli LLM (come la mancanza di personalizzazione e i rischi di sicurezza) sia la loro tendenza a essere sopravvalutati da giudici automatizzati.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

Query-Level Uncertainty in Large Language Models

Questo lavoro propone "Internal Confidence", un metodo senza addestramento per rilevare l'incertezza a livello di query nei modelli linguistici di grandi dimensioni prima della generazione, consentendo un'inferenza adattiva più efficiente ed economica che preserva le prestazioni complessive.

Lihu Chen, Gerard de Melo, Fabian M. Suchanek + 1 more2026-03-05💬 cs.CL

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

Il paper propone un metodo di correzione degli errori di sostituzione in tempo reale durante l'inferenza per risolvere le discrepanze tra pronuncia e ortografia nei sistemi di riconoscimento vocale, ottenendo un miglioramento significativo dell'accuratezza per parole specifiche senza compromettere le prestazioni complessive.

Christian Huber, Alexander Waibel2026-03-05🤖 cs.LG

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

Il paper presenta RLVER, un innovativo framework di apprendimento per rinforzo che utilizza ricompense emotive verificabili da utenti simulati per addestrare modelli linguistici a sviluppare un'intelligenza emotiva superiore, migliorando drasticamente le loro capacità empatiche senza compromettere le competenze logiche e matematiche.

Peisong Wang, Ruotian Ma, Bang Zhang + 13 more2026-03-05🤖 cs.AI

UQLM: A Python Package for Uncertainty Quantification in Large Language Models

Il paper presenta UQLM, un pacchetto Python che rileva le allucinazioni nei grandi modelli linguistici calcolando punteggi di incertezza per valutare l'affidabilità delle loro risposte.

Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik + 3 more2026-03-05🤖 cs.AI

← Precedente Successivo →