cs.CL articoli | Gist.Science

TransactionGPT

Il paper presenta TransactionGPT, un modello fondazionale basato su una nuova architettura 3D-Transformer addestrato su miliardi di transazioni reali che supera i modelli esistenti nel rilevamento di anomalie e nella previsione di transazioni future, offrendo al contempo maggiore efficienza rispetto ai grandi modelli linguistici.

Yingtong Dou, Zhimeng Jiang, Tianyi Zhang + 26 more2026-03-04💬 cs.CL

From Passive to Persuasive: Steering Emotional Nuance in Human-AI Negotiation

Questo articolo dimostra che l'ingegneria mirata delle attivazioni, basata su tecniche di attribution patching e vettori di espressione emotiva, permette di orientare il modello LLaMA 3.1-8B verso una maggiore sfumatura emotiva e un coinvolgimento personale più umano nelle negoziazioni con l'IA.

Niranjan Chebrolu, Gerard Christopher Yeo, Kokil Jaidka2026-03-04💬 cs.CL

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

Il documento presenta il framework CFD (Confidence-Aware Fine-Grained Debate), che utilizza il dibattito collaborativo tra modelli linguistici open-source per arricchire automaticamente i dati su salute mentale e sicurezza online, ottenendo risultati superiori rispetto alle linee di base grazie all'integrazione delle trascrizioni del dibattito.

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

GUMBridge: a Corpus for Varieties of Bridging Anaphora

Il paper introduce GUMBridge, un nuovo corpus che copre 16 generi diversi dell'inglese e offre annotazioni dettagliate sulle varietà di anafora di collegamento, evidenziando al contempo le difficoltà attuali dei modelli linguistici nel risolvere e classificare tali fenomeni.

Lauren Levine, Amir Zeldes2026-03-04💬 cs.CL

Activation Steering for Masked Diffusion Language Models

Questo lavoro introduce un metodo di steering delle attivazioni per i modelli linguistici a diffusione mascherata (MDLM) che, estraendo una direzione unidimensionale da prompt contrastivi, permette un controllo efficiente e generalizzabile del comportamento del modello (come il rifiuto di risposte non sicure) intervenendo globalmente sulle attivazioni durante il processo di denoising, superando i limiti delle tecniche basate su prompt o ottimizzazione e rivelando differenze architetturali rispetto ai modelli autoregressivi.

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

Il paper "Entropy Sentinel" dimostra che è possibile monitorare continuamente l'accuratezza dei modelli linguistici su domini STEM in evoluzione e guidare l'acquisizione mirata di dati analizzando i profili di entropia delle risposte durante l'inferenza, senza necessità di etichette di verità.

Pedro Memoli Buffa, Luciano Del Corro2026-03-04💬 cs.CL

Contextual Drag: How Errors in the Context Affect LLM Reasoning

Il documento evidenzia come il "drag contestuale", ovvero la presenza di tentativi falliti nel contesto, induca un pregiudizio verso errori strutturalmente simili che riduce le prestazioni dei modelli linguistici del 10-20% e porta al deterioramento iterativo, un fenomeno che le attuali strategie di mitigazione non riescono a eliminare completamente.

Yun Cheng, Xingyu Zhu, Haoyu Zhao + 1 more2026-03-04💬 cs.CL

Can LLMs Discern the Traits Influencing Your Preferences? Evaluating Personality-Driven Preference Alignment in LLMs

Il paper introduce il dataset PACIFIC e un framework che, sfruttando i tratti di personalità come segnale latente per selezionare preferenze coerenti, migliora drasticamente l'accuratezza delle risposte personalizzate degli LLM, portandole dal 29,25% al 76%.

Tianyu Zhao, Siqi Li, Yasser Shoukry + 1 more2026-03-04💬 cs.CL

Steer2Edit: From Activation Steering to Component-Level Editing

Steer2Edit è un framework privo di addestramento che trasforma i vettori di steering in modifiche ponderate a livello di componenti, migliorando significativamente il compromesso tra attributi desiderati e utilità rispetto ai metodi di intervento tradizionali sulle attivazioni.

Chung-En Sun, Ge Yan, Zimo Wang + 1 more2026-03-04💬 cs.CL

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Il documento presenta MedXIAOHE, un modello fondazionale medico visivo-linguistico che, grazie a un framework di pre-addestramento continuo orientato alle entità e a tecniche di apprendimento per rinforzo, raggiunge prestazioni all'avanguardia nel ragionamento diagnostico e nella generazione di report clinici affidabili, superando i sistemi multimodali chiusi esistenti.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

Rethinking the Role of LLMs in Time Series Forecasting

Questo studio su larga scala ribalta le valutazioni negative precedenti dimostrando che l'integrazione di modelli linguistici (LLM) nel forecasting delle serie temporali migliora significativamente le prestazioni, specialmente nella generalizzazione cross-dominio, grazie al sinergico contributo della conoscenza pre-addestrata e dell'architettura del modello.

Xin Qiu, Junlong Tong, Yirong Sun + 3 more2026-03-04💬 cs.CL

Spilled Energy in Large Language Models

Il paper propone un metodo senza addestramento per rilevare le allucinazioni nei grandi modelli linguistici interpretando il classificatore softmax come un modello basato sull'energia e analizzando le discrepanze energetiche ("spilled energy") e marginalizzate generate durante il processo di decodifica.

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi2026-03-04💬 cs.CL

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Il paper introduce CFE-Bench, un benchmark multimodale basato su esami universitari reali che valuta le capacità di ragionamento dei modelli linguistici in oltre 20 ambiti STEM, rivelando che, nonostante le buone prestazioni complessive, i modelli avanzati faticano a mantenere stati intermedi corretti durante soluzioni complesse e mostrano un'efficienza di passaggio inferiore rispetto alle soluzioni degli istruttori.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

Il paper propone RuCL, un nuovo framework di apprendimento curricolare basato su rubriche stratificate che migliora il ragionamento dei modelli linguistici multimodali ottimizzando la progettazione delle ricompense per guidare dinamicamente il modello dalla percezione di base al ragionamento logico avanzato, ottenendo risultati all'avanguardia sui benchmark di ragionamento visivo.

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

Questo articolo presenta un nuovo framework di traduzione guidata dalla voce (SMT) che, integrando audio e testo in un Modello Linguistico Multimodale e utilizzando un meccanismo di auto-evoluzione per generare dati sintetici, supera gli stati dell'arte sia nella traduzione multimodale che in quella generica multilingue.

Yexing Du, Youcheng Pan, Zekun Wang + 7 more2026-03-04💬 cs.CL

DeepXiv-SDK: An Agentic Data Interface for Scientific Literature

Il documento presenta DeepXiv-SDK, un'interfaccia dati agenziale a tre livelli che trasforma la letteratura scientifica non strutturata in formati normalizzati e fornisce strumenti accessibili via API, SDK Python e MCP per ottimizzare l'efficienza, i costi e l'affidabilità dei sistemi LLM-agent nella ricerca scientifica.

Hongjin Qian, Ziyi Xia, Ze Liu + 11 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

Il paper introduce "Super Research", un nuovo task e benchmark per valutare la capacità dei modelli linguistici di affrontare domande altamente complesse attraverso una ricerca autonoma strutturata, estremamente ampia e profonda, con report verificabili e un protocollo di audit multidimensionale.

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

Questo lavoro introduce uCDCR, un dataset unificato che consolida e analizza corpora eterogenei per la risoluzione della coreferenza cross-documento, fornendo un framework standardizzato che evidenzia la necessità di considerare sia le entità che gli eventi per migliorare la generalizzabilità e la complessità dei modelli.

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

Il paper propone QIME, un framework che genera embedding medici interpretabili basati su domande sì/no semanticamente atomiche e radicate in ontologie cliniche, superando i limiti dei metodi precedenti e avvicinandosi alle prestazioni dei modelli "black-box" senza richiedere l'addestramento di classificatori specifici.

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Il paper presenta ClinConsensus, un benchmark cinese basato sul consenso di esperti clinici composto da 2500 casi a risposta aperta che valutano le capacità dei modelli linguistici su compiti medici complessi e longitudinali, introducendo nuove metriche di valutazione e rivelando significative lacune nelle attuali capacità di pianificazione terapeutica.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

← Precedente Successivo →