cs.CL articoli | Gist.Science

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Il paper introduce ReflexiCoder, un nuovo framework di apprendimento per rinforzo che addestra i modelli linguistici a internalizzare capacità autonome di auto-riflessione e auto-correzione del codice, ottenendo risultati all'avanguardia su diversi benchmark senza dipendere da oracoli esterni o feedback di esecuzione durante l'inferenza.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

Il paper ROSE propone un metodo di pruning one-shot per grandi modelli linguistici che riordina le pesi in base alla perdita stimata, migliorando significativamente l'accuratezza rispetto a SparseGPT e ad altri metodi esistenti su modelli come LLaMA e Mistral.

Mingluo Su, Huan Wang2026-03-09🤖 cs.LG

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

Il paper propone CoCA, un framework di apprendimento per rinforzo che adotta un paradigma "confidence-first" per ottimizzare congiuntamente la calibrazione dell'incertezza e l'accuratezza delle risposte nei modelli linguistici, superando i limiti dei metodi tradizionali che generano la confidenza solo dopo la risposta.

Changcheng Li, Jiancan Wu, Hengheng Zhang, Zhengsu Chen, Guo An, Junxiang Qiu, Xiang Wang, Qi Tian2026-03-09💬 cs.CL

VerChol -- Grammar-First Tokenization for Agglutinative Languages

Il paper "VerChol" propone un approccio di tokenizzazione basato sulla grammatica per le lingue agglutinanti, superando i limiti degli attuali metodi statistici come BPE che frammentano erroneamente le unità morfologiche.

Prabhu Raja2026-03-09💬 cs.CL

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Il paper presenta ConStory-Bench, un nuovo benchmark e un sistema di verifica automatizzata (ConStory-Checker) progettati per valutare e analizzare le inconsistenze narrative nella generazione di storie lunghe da parte dei modelli linguistici, rivelando che tali errori sono più frequenti nei fatti e nella temporalità e tendono a manifestarsi nella parte centrale delle narrazioni.

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie2026-03-09🤖 cs.AI

Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

Questo articolo presenta un metodo basato su ensemble di modelli LLM, valutati tramite le nuove metriche CPR e TWF, per eseguire in modo affidabile ed economico la pulizia e l'etichettatura semantica delle risoluzioni del Consiglio di Sicurezza delle Nazioni Unite.

Hussein Ghaly2026-03-09💬 cs.CL

InfoGatherer: Principled Information Seeking via Evidence Retrieval and Strategic Questioning

Il paper presenta InfoGatherer, un framework che migliora la ricerca di informazioni in domini ad alto rischio come quello medico e legale, integrando documenti recuperati e domande strategiche all'utente attraverso una modellazione dell'incertezza basata sulla teoria di Dempster-Shafer per fornire decisioni più affidabili e interpretabili rispetto ai metodi esistenti.

Maksym Taranukhin, Shuyue Stella Li, Evangelos Milios, Geoff Pleiss, Yulia Tsvetkov, Vered Shwartz2026-03-09💬 cs.CL

Learning Next Action Predictors from Human-Computer Interaction

Il paper presenta LongNAP, un modello che utilizza l'apprendimento in contesto e il reinforcement learning su un vasto dataset annotato di interazioni utente-computer per prevedere con successo le azioni successive degli utenti, superando significativamente le tecniche di supervisione tradizionali.

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang2026-03-09💬 cs.CL

Addressing the Ecological Fallacy in Larger LMs with Human Context

Questo studio dimostra che modellare il contesto linguistico dell'autore, affrontando la fallacia ecologica tramite tecniche come HuLM e HuFT, migliora significativamente le prestazioni di un modello Llama da 8 miliardi di parametri rispetto ai metodi di addestramento standard.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

Questo lavoro propone un framework di riscrittura stilistica strutturata che, disaccoppiando il lessico, la sintassi e la pragmatica e utilizzando una distillazione del ragionamento esplicito per il condizionamento implicito, permette a piccoli modelli linguistici di generare personaggi altamente stilizzati con una coerenza superiore rispetto a modelli più grandi, pur operando in scenari con risorse limitate.

Chanhui Zhu2026-03-09🤖 cs.LG

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Il paper presenta modelli interpretabili che integrano tratti psicologici individuali e contesti situazionali, derivati da dati social media e teorie psicologiche, per prevedere il benessere mentale e identificare stati di sé adattivi o maladattivi, dimostrando che gli approcci basati sulla teoria offrono prestazioni competitive e maggiore trasparenza rispetto alle sole rappresentazioni vettoriali dei modelli linguistici.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Il paper presenta ProCap, un nuovo framework che rivoluziona la descrizione dei cambiamenti (change captioning) passando dal confronto statico di coppie di immagini alla modellazione dinamica delle procedure di trasformazione, utilizzando un encoder addestrato su fotogrammi chiave intermedi e query apprendibili per generare descrizioni testuali che spiegano non solo cosa è cambiato, ma anche come è avvenuto.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

Il paper presenta Track-SQL, un framework che potenzia i modelli linguistici generativi per il Text-to-SQL multi-turno integrando moduli estrattivi duali per il tracciamento dinamico dello schema e del contesto, ottenendo risultati state-of-the-art sui dataset SparC e CoSQL.

Bingfeng Chen, Shaobin Shi, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao2026-03-09💬 cs.CL

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

Il paper presenta MASFactory, un framework centrato sui grafi per orchestrare sistemi multi-agente basati su LLM che introduce il "Vibe Graphing", un approccio interattivo che traduce intenti in linguaggio naturale in flussi di lavoro eseguibili, facilitando la riutilizzabilità, l'integrazione di contesti eterogenei e la visualizzazione del processo.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

Il paper presenta ViewFusion, un framework a due stadi che migliora il ragionamento spaziale multi-vista separando l'allineamento spaziale pre-attento dalla risposta alla domanda, ottenendo risultati significativamente superiori rispetto ai modelli esistenti su benchmark specifici.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Questo studio valuta l'efficacia di quattro modelli linguistici di grandi dimensioni open-weight nel correggere automaticamente saggi in tedesco di livello A austriaci basandosi su rubriche, rivelando che, sebbene i modelli siano in grado di applicare i criteri di valutazione, la loro bassa concordanza con i valutatori umani (massimo 40,6% per le dimensioni e 32,8% per i voti finali) li rende attualmente inadatti all'uso in contesti di valutazione reali.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Questo studio dimostra che l'esposizione a testi specifici tramite pre-addestramento continuo modella la personalità dei modelli linguistici, rivelando un vantaggio nella risoluzione di problemi complessi per i modelli con tratti sociali ridotti e fornendo una roadmap per l'ingegneria delle personalità.

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

Il paper introduce DeepSight, il primo modello linguistico multimodale dedicato che migliora la comprensione tridimensionale delle scene sfruttando le mappe di profondità come input principale, supportato da un nuovo dataset e benchmark specifici per superare i limiti dei modelli esistenti nella percezione spaziale.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Making Implicit Premises Explicit in Logical Understanding of Enthymemes

Questo paper propone una pipeline che integra modelli linguistici di grandi dimensioni e un ragionatore neuro-simbolico per trasformare gli entimemi in argomenti logici espliciti, generando le premesse implicite necessarie per verificarne la validità tramite risoluzione SAT.

Xuyao Feng, Anthony Hunter2026-03-09🤖 cs.AI

Diffusion Language Models Are Natively Length-Aware

Il paper propone un meccanismo zero-shot che, sfruttando la rappresentazione del prompt latente per stimare dinamicamente la lunghezza necessaria dell'output, permette ai Modelli Linguistici Diffusivi di ridurre significativamente il costo computazionale e i FLOPs senza compromettere le prestazioni.

Vittorio Rossi, Giacomo Cirò, Davide Beltrame, Luca Gandolfi, Paul Röttger, Dirk Hovy2026-03-09🤖 cs.LG

← Precedente Successivo →