cs.CL articoli | Gist.Science

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

Questo lavoro dimostra che l'uso della Low-Rank Adaptation (LoRA) nel federated learning per i grandi modelli linguistici riduce significativamente la memorizzazione involontaria dei dati di addestramento, migliorando la privacy senza compromettere le prestazioni.

Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin Jaggi2026-03-10🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

Il paper presenta LaVCa, un approccio basato su modelli linguistici di grandi dimensioni (LLM) che genera didascalie naturali per descrivere con maggiore precisione e dettaglio la selettività dei voxel nella corteccia visiva umana, superando i limiti dei modelli di codifica tradizionali e rivelando nuove sfumature nella rappresentazione visiva del cervello.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Il paper propone il framework COD (Clustering-On-Difficulty), che raggruppa i compiti in base alle loro caratteristiche di scalabilità per prevedere con alta precisione le prestazioni downstream dei grandi modelli linguistici, superando le sfide poste dai fenomeni emergenti e dalla variabilità delle metriche.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Il paper propone HaLoRA, un metodo di adattamento a basso rango consapevole dell'hardware che combina architetture di calcolo in memoria ibride (RRAM per i pesi preaddestrati e SRAM per i rami LoRA) con una nuova strategia di addestramento robusto al rumore, ottenendo un drastico risparmio energetico (circa il 3% rispetto a una GPU Nvidia A100) e un miglioramento delle prestazioni fino al 22,7% su modelli LLM come Qwen e LLaMA.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai Wong2026-03-10💬 cs.CL

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Questo studio rivela che, nonostante i modelli linguistici di grandi dimensioni generino una sovrarappresentazione femminile nelle storie, le distribuzioni occupazionali prodotte rimangono allineate agli stereotipi di genere umani piuttosto che ai dati reali, evidenziando un paradosso che richiede strategie di mitigazione più equilibrate.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan Chen2026-03-10💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Il paper presenta EDU-PRM, un modello di ricompensa per processi basato sull'entropia che segmenta automaticamente i passaggi di ragionamento complesso senza annotazioni manuali, ottenendo prestazioni superiori su ProcessBench con solo l'1,5% dei dati di addestramento e riducendo significativamente l'uso di token.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Causal Retrieval with Semantic Consideration

Il paper introduce CAWAI, un modello di recupero che combina obiettivi semantici e causali per superare i limiti delle attuali tecniche di ricerca basate sulla semplice similarità superficiale, dimostrando prestazioni superiori in compiti di recupero causale e una forte capacità di generalizzazione zero-shot in domini scientifici.

Hyunseo Shin, Wonseok Hwang2026-03-10💬 cs.CL

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Questo studio dimostra che l'uso di modelli linguistici di grandi dimensioni (LLM) per estrarre caratteristiche cognitive e linguistiche, successivamente elaborate da algoritmi di apprendimento automatico basati su alberi decisionali, consente di stimare con maggiore precisione la difficoltà degli item nei test scolastici rispetto alla valutazione diretta, offrendo un'alternativa efficiente e scalabile ai costosi test sul campo.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Questo documento presenta il Task 5 della sfida DCASE 2025, un benchmark per la risposta alle domande audio (AQA) che valuta la capacità di ragionamento acustico dei modelli linguistico-audio su tre sottogruppi di domini diversi, fornendo dataset, protocolli di valutazione e risultati preliminari di sistemi baselines.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro2026-03-10💬 cs.CL

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

Il paper presenta FreeKV, un framework di co-ottimizzazione algoritmo-sistema privo di addestramento che migliora l'efficienza del recupero della cache KV mantenendo un'accuratezza quasi perfetta e ottenendo fino a 13 volte di velocità rispetto ai metodi esistenti.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

A Neuro-Symbolic Approach for Reliable Proof Generation with LLMs: A Case Study in Euclidean Geometry

Questo studio presenta un approccio neuro-simbolico che combina l'uso di problemi analoghi e un verificatore formale per guidare e correggere i modelli linguistici, migliorando significativamente l'accuratezza nella generazione di prove geometriche rigorose.

Oren Sultan, Eitan Stern, Dafna Shahaf2026-03-10💬 cs.CL

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

Il paper introduce MAS-ZERO, il primo framework di auto-evoluzione che progetta sistemi multi-agente senza supervisione esterna, adattando dinamicamente ruoli e protocolli durante l'inferenza per ottenere prestazioni superiori rispetto ai metodi manuali e automatici esistenti.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Il paper presenta HDLxGraph, un nuovo framework che integra le caratteristiche grafiche intrinseche dei linguaggi HDL (tramite AST e DFG) nei sistemi RAG per migliorare significativamente le prestazioni di ricerca, debug e completamento del codice rispetto agli approcci basati sulla similarità semantica, supportato dal nuovo benchmark HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

Il paper presenta SwingArena, un framework di valutazione competitiva per i modelli linguistici su larga scala che simula flussi di lavoro reali di sviluppo software attraverso un processo iterativo di sottomissione e revisione, supportato da un modulo di generazione del codice potenziato dal recupero (RACG) per gestire contesti estesi e risolvere issue di GitHub.

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai Wong2026-03-10💬 cs.CL

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Il paper introduce MMTU, un nuovo benchmark su larga scala con oltre 28.000 domande su 25 compiti reali, progettato per valutare in modo completo le capacità di comprensione, ragionamento e manipolazione delle tabelle da parte dei modelli linguistici, rivelando che anche i modelli più avanzati attuali hanno ancora margini significativi di miglioramento in questo dominio.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

Il paper introduce CyclicReflex, una strategia di decodifica priva di addestramento che migliora le prestazioni dei modelli di ragionamento adattando ciclicamente la frequenza dei token di riflessione per bilanciare l'uso della risorsa computazionale e superare i limiti dell'eccessiva o insufficiente riflessione.

Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia Liu2026-03-10💬 cs.CL

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Il paper introduce MeRF, un metodo che migliora l'addestramento per rinforzo dei grandi modelli di ragionamento fornendo loro una "motivazione" testuale esplicita delle regole di ricompensa nel prompt, sfruttando così l'apprendimento in contesto per allineare la generazione alle ottimizzazioni desiderate.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Questo paper introduce SGV, un metodo di verifica auto-fondato che mitiga il bias di accordo nei modelli linguistici multimodali, migliorando significativamente l'individuazione degli errori e le prestazioni dei agenti in compiti di navigazione web, uso del computer e robotica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

Questo articolo presenta UGST, un nuovo framework che risolve il problema della scarsa coerenza negli obiettivi dei simulatori di utenti basati su LLM, migliorando significativamente le loro prestazioni attraverso un monitoraggio dello stato degli obiettivi e una metodologia di valutazione su benchmark consolidati.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür2026-03-10💬 cs.CL

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

Il paper presenta MathSmith, un nuovo framework che genera problemi matematici sintetici ad alta difficoltà partendo da zero e ottimizzandoli tramite apprendimento per rinforzo, superando i metodi esistenti e migliorando le capacità di ragionamento dei modelli linguistici su benchmark complessi.

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei Tan2026-03-10💬 cs.CL

← Precedente Successivo →