cs.CL articoli | Gist.Science

SpiroLLM: Finetuning Pretrained LLMs to Understand Spirogram Time Series with Clinical Validation in COPD Reporting

Il paper presenta SpiroLLM, il primo modello linguistico multimodale in grado di analizzare le serie temporali degli spirogrammi per generare rapporti diagnostici interpretabili e clinicamente validati per la BPCO, superando le limitazioni dei modelli attuali grazie all'integrazione di segnali fisiologici e dati testuali.

Shuhao Mei, Yongchao Long, Xiaoyu Xiao + 6 more2026-03-03💬 cs.CL

Diversity-Enhanced Reasoning for Subjective Questions

Il paper propone MultiRole-R1, un framework di addestramento che migliora il ragionamento su domande soggettive e persino su compiti matematici avanzati introducendo la diversità di prospettive e di token come segnale di ricompensa, superando i limiti dei modelli attuali ottimizzati solo con reward verificabili.

Yumeng Wang, Zhiyuan Fan, Jiayu Liu + 2 more2026-03-03💬 cs.CL

Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs

Questo lavoro sfida la convinzione che l'apprendimento mnemonico ostacoli la generalizzazione, dimostrando che i grandi modelli linguistici possono reinterpretare dati memorizzati meccanicamente attraverso un processo di "memorizza-poi-generalizza", aprendo nuove prospettive sia per l'iniezione efficiente di conoscenze che per i relativi rischi di sicurezza.

Qinyuan Wu, Soumi Das, Mahsa Amani + 4 more2026-03-03💬 cs.CL

DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router

Il paper presenta DeepSieve, un framework RAG basato su agenti che utilizza un LLM come router della conoscenza per scomporre query complesse, filtrare le informazioni irrilevanti e migliorare la precisione e la profondità del ragionamento rispetto ai metodi tradizionali.

Minghao Guo, Qingcheng Zeng, Xujiang Zhao + 5 more2026-03-03💬 cs.CL

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

Il paper presenta Uni-CoT, un framework unificato che combina pianificazione macro e esecuzione micro per abilitare un ragionamento multimodale coerente tra testo e immagini, ottenendo prestazioni all'avanguardia con un addestramento efficiente su 8 GPU.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

Lo studio dimostra che per i modelli linguistici Mixture-of-Experts, l'ottimizzazione delle capacità di ragionamento richiede un bilanciamento congiunto tra i FLOPs attivi e il rapporto tra token totali e parametri, superando le tradizionali leggi di scalabilità basate solo sulla perdita di pre-addestramento.

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura + 4 more2026-03-03💬 cs.CL

EigenBench: A Comparative Behavioral Measure of Value Alignment

Il paper propone EigenBench, un metodo di benchmarking "black-box" che valuta l'allineamento ai valori dei modelli linguistici aggregando i loro giudizi reciproci tramite EigenTrust, ottenendo risultati coerenti con le valutazioni umane e senza richiedere etichette di verità fondamentale.

Jonathn Chang, Leonhard Piff, Suvadip Sana + 2 more2026-03-03💬 cs.CL

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Il paper propone GACD, un metodo di decodifica basato sull'inferenza che utilizza gradienti di primo ordine per stimare e mitigare i bias testuali e visivi, riducendo così le allucinazioni nei modelli linguistici multimodali senza necessità di riaddestramento.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

Post-training Large Language Models for Diverse High-Quality Responses

Il paper propone DQO, un nuovo metodo di addestramento basato sui processi puntuali determinantal (DPP) che ottimizza congiuntamente la qualità e la diversità semantica delle risposte dei grandi modelli linguistici, risolvendo il problema della ridotta varietà delle output tipico dell'apprendimento per rinforzo.

Yilei Chen, Souradip Chakraborty, Lorenz Wolf + 2 more2026-03-03💬 cs.CL

BinaryShield: Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

Il paper presenta BinaryShield, il primo sistema di intelligence sulle minacce che preserva la privacy, permettendo la condivisione sicura di impronte digitali degli attacchi tra servizi LLM separati da confini normativi tramite una pipeline innovativa che combina redazione PII, embedding semantico, quantizzazione binaria e risposta randomizzata, ottenendo prestazioni superiori rispetto alle soluzioni esistenti.

Waris Gill, Natalie Isak, Matthew Dressman2026-03-03💬 cs.CL

Distribution-Aligned Decoding for Efficient LLM Task Adaptation

Il paper introduce SVDecode, un metodo di decoding leggero e teoricamente fondato che allinea la distribuzione di output dei grandi modelli linguistici a quella del compito tramite un vettore di guida estratto dai gradienti di divergenza KL, migliorando le prestazioni di adattamento senza richiedere parametri aggiuntivi oltre agli adattatori PEFT.

Senkang Hu, Xudong Han, Jinqi Jiang + 5 more2026-03-03💬 cs.CL

Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference

Questo studio su larga scala dimostra che l'uso dei grandi modelli linguistici come generatori di codice supera le strategie di prompting tradizionali per l'inferenza su grafi, offrendo prestazioni superiori su dati complessi e sfatando il mito del loro fallimento in grafi eterofili, mentre la loro capacità di adattamento flessibile tra struttura, attributi e etichette fornisce linee guida fondamentali per futuri approcci.

Ben Finkelshtein, Silviu Cucerzan, Sujay Kumar Jauhar + 1 more2026-03-03💬 cs.CL

PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

Il paper presenta PMark, un nuovo metodo di filigrana semantica per i grandi modelli linguistici che, grazie a un framework teorico basato su funzioni proxy e vincoli multipli, garantisce robustezza contro le parafrasi e assenza di distorsioni rispetto ai testi originali.

Jiahao Huo, Shuliang Liu, Bin Wang + 5 more2026-03-03💬 cs.CL

Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

Il paper introduce GTO (Group Tree Optimization), un nuovo metodo di addestramento che allinea la politica di un modello di bozza alla sua decodifica ad albero tramite una ricompensa basata sull'albero e un addestramento di gruppo, migliorando significativamente la lunghezza di accettazione e la velocità di inferenza rispetto agli approcci esistenti.

Shijing Hu, Jingyang Li, Zhihui Lu + 1 more2026-03-03💬 cs.CL

Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs

Il paper propone T2PAM e il suo algoritmo leggero ROSA, che sfruttano il feedback utente in tempo reale per aggiornare efficientemente i parametri di un LLM durante la conversazione, migliorando le prestazioni nelle interazioni multi-turno senza costose ottimizzazioni iterative.

Chenxing Wei, Hong Wang, Ying He + 2 more2026-03-03💬 cs.CL

Train Once, Answer All: Many Pretraining Experiments for the Cost of One

Questo lavoro propone un approccio innovativo che consente di condurre molteplici esperimenti di preaddestramento in un'unica esecuzione, riducendo drasticamente i costi computazionali e permettendo di replicare risultati precedenti e esplorare nuove aree di ricerca con impatti minimi sulle prestazioni del modello.

Sebastian Bordt, Martin Pawelczyk2026-03-03💬 cs.CL

Dynamic Level Sets

Il paper introduce e analizza il concetto matematico originale di "insiemi di livello dinamici", derivato implicitamente dal lavoro del 2012 sulla computazione non calcolabile di Turing, spiegando come il principio di auto-modificabilità, che riconfigura un insieme logico invariante tramite un processo fisico non calcolabile ad ogni passo, permetta di superare i limiti classici della computazione probabilistica.

Michael Stephen Fiske2026-03-03🔢 math-ph

FeynTune: Large Language Models for High-Energy Theory

Il paper presenta FeynTune, una serie di 20 modelli linguistici specializzati per la fisica teorica delle alte energie, ottenuti tramite l'adattamento fine di Llama-3.1 su abstract di arXiv, che superano il modello base e i principali LLM commerciali nel completamento di testi di fisica teorica.

Paul Richmond, Prarit Agarwal, Borun Chowdhury + 2 more2026-03-02⚛️ hep-th

What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

Questo studio presenta un benchmark sperimentale che rivela come le strategie di filtraggio dei dati, sebbene efficaci nel ridurre i contenuti dannosi per la sicurezza dei modelli linguistici, abbiano l'effetto collaterale di aumentare la sottorappresentazione dei gruppi vulnerabili alla discriminazione nei dataset di addestramento.

Marco Antonio Stranisci, Christian Hardmeier2025-02-17💬 cs.CL

When ChatGPT is gone: Creativity reverts and homogeneity persists

Nonostante ChatGPT offra un miglioramento temporaneo delle prestazioni creative, la sua assenza comporta un rapido ritorno ai livelli di base e, più preoccupante, genera una persistente omogeneizzazione dei contenuti che limita la creatività umana a lungo termine.

Qinghan Liu, Yiyong Zhou, Jihao Huang + 1 more2024-01-11💬 cs.CL

← Precedente Successivo →