cs.CL articoli | Gist.Science

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Il paper introduce DoWhatISay (DOWIS), un dataset multilingue di prompt parlati e scritti per valutare realisticamente i Modelli Linguistici a Grande Scala per la voce, rivelando che i prompt testuali superano quelli vocali tranne nei compiti con output vocale.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan NiehuesWed, 11 Ma💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Questo studio valuta i rischi di persuasione politica di sette modelli linguistici all'avanguardia attraverso due esperimenti su 19.145 partecipanti, rivelando che questi modelli superano le pubblicità elettorali tradizionali, con Claude che risulta il più persuasivo e Grok il meno, mentre l'efficacia dei prompt basati su informazioni varia significativamente a seconda del modello.

Zhongren Chen, Joshua Kalla, Quan LeWed, 11 Ma💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Il paper propone MSSR, un framework di replay esperienziale che stima la forza della memoria a livello di campione e pianifica la ripetizione adattiva per mitigare l'oblio catastrofico durante il fine-tuning continuo dei grandi modelli linguistici, ottenendo prestazioni superiori rispetto agli approcci esistenti.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan ZhaWed, 11 Ma🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Questo studio dimostra che l'abilitazione del ragionamento nei modelli linguistici di grandi dimensioni migliora significativamente il richiamo della conoscenza parametrica anche per domande fattuali semplici, grazie a un effetto di buffer computazionale e a un meccanismo di priming fattuale, sebbene quest'ultimo comporti il rischio di allucinazioni che possono essere mitigate selezionando traiettorie prive di errori fattuali.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan HerzigWed, 11 Ma💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Questo articolo offre una panoramica completa del merging dei modelli nell'era dei grandi modelli linguistici, presentando la tassonomia FUSE per analizzare fondamenti teorici, strategie algoritmiche, scenari applicativi e l'ecosistema di supporto, con l'obiettivo di guidare ricercatori e professionisti verso lo sviluppo futuro di questa tecnologia.

Mingyang Song, Mao ZhengWed, 11 Ma💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

Questo studio dimostra che, al contrario degli esseri umani, il processo di ragionamento aumenta la coerenza onesta nei modelli linguistici di grandi dimensioni, poiché lo spazio rappresentativo sottostante rende le risposte ingannevoli metastabili e più suscettibili di destabilizzazione rispetto a quelle oneste.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja FilippovaWed, 11 Ma🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

Il paper introduce CREATE, un benchmark progettato per valutare la capacità dei modelli linguistici di generare connessioni associative creative, specifiche e diversificate tra concetti, evidenziando come i modelli più avanzati ottengano risultati superiori ma come il compito rimanga complesso e difficile da saturare.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg DurrettWed, 11 Ma💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

Questo studio presenta Llama-Mob, un modello LLM basato su Llama-3-8B e affinato tramite instruction tuning che supera gli stati dell'arte nella previsione a lungo termine della mobilità urbana e dimostra una forte capacità di generalizzazione zero-shot tra diverse città.

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru SezakiTue, 10 Ma💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Questo articolo propone un modello integrato che spiega come l'identità del parlante influenzi la comprensione linguistica attraverso l'interazione tra processi percettivi basati sulla memoria acustico-episodica e aspettative top-down guidate da un modello del parlante, distinguendo tra effetti legati alla familiarità individuale e a gruppi demografici, e suggerendo l'estensione di tali ricerche agli interlocutori artificiali.

Hanlin Wu, Zhenguang G. CaiTue, 10 Ma💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Il paper introduce un collo di bottiglia discreto chiave-valore (DKVB) per modelli linguistici encoder-only che, grazie a un'inizializzazione indipendente dal compito e aggiornamenti localizzati, permette un apprendimento continuo efficiente riducendo il dimenticamento catastrofico e mantenendo prestazioni competitive anche in scenari senza identificatore di task.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar ScherpTue, 10 Ma💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Il paper propone HarmonicEval, una metrica di valutazione automatica senza riferimento che aggrega i punteggi per criterio in modo bottom-up, e introduce il benchmark MMHE con 18.000 giudizi umani per dimostrare che il metodo supera le metriche convenzionali nella valutazione multi-task e multi-criterio dei modelli visione-linguaggio.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa InoueTue, 10 Ma💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Questo studio esamina l'impatto del collasso degli embedding nel Prompt-Tuning, dimostrando che l'uso di priors di embedding permette un controllo efficace sulle posizioni degli embedding e rivela che le traiettorie generate formano cluster distinti per compiti diversi, suggerendo che la generalizzazione dei modelli linguistici non dipende necessariamente da un unico cluster di attivazione.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal KadambaTue, 10 Ma🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Il paper presenta un framework di ensemble basato su un singolo modello per la traduzione automatica neurale che, sfruttando la traduzione pivot per generare candidati diversificati e aggregarli successivamente, migliora la qualità della traduzione per le coppie linguistiche a risorse limitate riducendo al contempo i costi computazionali.

Seokjin Oh, Keonwoong Noh, Woohwan JungTue, 10 Ma💬 cs.CL

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

Il paper introduce GRADIEND, un nuovo approccio encoder-decoder che utilizza i gradienti delle reti neurali per identificare e modificare i pesi responsabili dei pregiudizi sociali, consentendo di debiasare i modelli mantenendone le altre capacità.

Jonathan Drechsel, Steffen HerboldTue, 10 Ma🤖 cs.LG

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

Questo lavoro dimostra che l'uso della Low-Rank Adaptation (LoRA) nel federated learning per i grandi modelli linguistici riduce significativamente la memorizzazione involontaria dei dati di addestramento, migliorando la privacy senza compromettere le prestazioni.

Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin JaggiTue, 10 Ma🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

Il paper presenta LaVCa, un approccio basato su modelli linguistici di grandi dimensioni (LLM) che genera didascalie naturali per descrivere con maggiore precisione e dettaglio la selettività dei voxel nella corteccia visiva umana, superando i limiti dei modelli di codifica tradizionali e rivelando nuove sfumature nella rappresentazione visiva del cervello.

Takuya Matsuyama, Shinji Nishimoto, Yu TakagiTue, 10 Ma🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Il paper propone il framework COD (Clustering-On-Difficulty), che raggruppa i compiti in base alle loro caratteristiche di scalabilità per prevedere con alta precisione le prestazioni downstream dei grandi modelli linguistici, superando le sfide poste dai fenomeni emergenti e dalla variabilità delle metriche.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang LiTue, 10 Ma🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Il paper propone HaLoRA, un metodo di adattamento a basso rango consapevole dell'hardware che combina architetture di calcolo in memoria ibride (RRAM per i pesi preaddestrati e SRAM per i rami LoRA) con una nuova strategia di addestramento robusto al rumore, ottenendo un drastico risparmio energetico (circa il 3% rispetto a una GPU Nvidia A100) e un miglioramento delle prestazioni fino al 22,7% su modelli LLM come Qwen e LLaMA.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Questo studio rivela che, nonostante i modelli linguistici di grandi dimensioni generino una sovrarappresentazione femminile nelle storie, le distribuzioni occupazionali prodotte rimangono allineate agli stereotipi di genere umani piuttosto che ai dati reali, evidenziando un paradosso che richiede strategie di mitigazione più equilibrate.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan ChenTue, 10 Ma💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Il paper presenta EDU-PRM, un modello di ricompensa per processi basato sull'entropia che segmenta automaticamente i passaggi di ragionamento complesso senza annotazioni manuali, ottenendo prestazioni superiori su ProcessBench con solo l'1,5% dei dati di addestramento e riducendo significativamente l'uso di token.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong LiTue, 10 Ma🤖 cs.LG

← Precedente Successivo →