cs.CL articles | Gist.Science

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Ce papier présente DoWhatISay (DOWIS), un jeu de données multilingue de prompts vocaux et écrits conçu pour évaluer de manière réaliste les modèles de langage audio, révélant que les instructions textuelles surpassent généralement les instructions vocales, sauf pour les tâches dont la sortie est également audio.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan NiehuesWed, 11 Ma💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Cette étude démontre que sept modèles de langage de pointe, en particulier Claude, surpassent les publicités politiques traditionnelles en matière de persuasion, tout en révélant que l'efficacité des stratégies de prompt dépend fortement du modèle spécifique utilisé.

Zhongren Chen, Joshua Kalla, Quan LeWed, 11 Ma💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Le papier propose MSSR, un cadre de réentraînement adaptatif qui estime la force de mémoire des échantillons et planifie des révisions à intervalles variables pour atténuer l'oubli catastrophique lors du fine-tuning continu des grands modèles de langage, tout en maintenant une adaptation rapide et en surpassant les méthodes existantes.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan ZhaWed, 11 Ma🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Cette étude démontre que l'activation du raisonnement améliore considérablement la récupération des connaissances paramétriques dans les LLMs, même pour des questions factuelles simples, grâce à un effet tampon computationnel et à une amorce factuelle, tout en soulignant le risque d'hallucinations si les faits intermédiaires générés sont incorrects.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan HerzigWed, 11 Ma💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Ce travail de recherche propose une revue complète du paradigme de fusion de modèles dans l'ère des grands modèles de langage, structurée selon la taxonomie FUSE (Fondations, Stratégies d'Unification, Scénarios et Écosystème) pour analyser les méthodes théoriques et algorithmiques, leurs applications pratiques et les défis futurs.

Mingyang Song, Mao ZhengWed, 11 Ma💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

Contrairement aux humains qui deviennent moins honnêtes lorsqu'ils réfléchissent, cette étude démontre que le processus de raisonnement améliore systématiquement l'honnêteté des grands modèles de langage en les amenant à traverser un espace de représentation où les réponses honnêtes sont plus stables que les réponses trompeuses.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja FilippovaWed, 11 Ma🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

Ce papier présente CREATE, un nouveau benchmark conçu pour évaluer la capacité des modèles de langage à effectuer un raisonnement associatif créatif en générant des connexions spécifiques et diversifiées entre des concepts, révélant ainsi les limites actuelles des modèles les plus avancés et des techniques de prompting.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg DurrettWed, 11 Ma💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

L'article présente Llama-Mob, un modèle de langage Llama-3-8B affiné par instruction qui surpasse les méthodes existantes pour la prédiction de la mobilité humaine à long terme à l'échelle d'une ville et démontre une forte capacité de généralisation zéro-shot.

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru SezakiTue, 10 Ma💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Ce article de revue propose un modèle intégrateur expliquant comment l'identité de l'orateur module la compréhension du langage par l'interaction entre des processus perceptifs ascendants et des attentes descendantes, tout en distinguant les effets d'individualité de ceux liés aux groupes démographiques et en suggérant leur application aux agents d'intelligence artificielle.

Hanlin Wu, Zhenguang G. CaiTue, 10 Ma💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Ce papier présente le Discrete Key-Value Bottleneck (DKVB), une méthode efficace pour l'apprentissage continu des petits modèles de langage qui atténue l'oubli catastrophique grâce à des mises à jour localisées et une initialisation innovante, tout en réduisant les coûts computationnels.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar ScherpTue, 10 Ma💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Ce papier présente HarmonicEval, une métrique d'évaluation automatique sans référence capable d'agréger des scores par critère pour évaluer plusieurs tâches multimodales, et introduit le benchmark MMHE basé sur 18 000 jugements humains pour valider la généralisabilité de cette approche.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa InoueTue, 10 Ma💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Cette étude examine l'impact des priors d'embedding sur le prompt-tuning, révélant que les modèles peuvent fonctionner efficacement dans de nouvelles régions de l'espace d'activation et que la structure de ces espaces varie selon la proximité des tâches, offrant ainsi de nouvelles perspectives pour l'interprétabilité et le contrôle des modèles.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal KadambaTue, 10 Ma🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Cet article présente un cadre d'ensemble utilisant un seul modèle pour la traduction automatique neuronale, qui améliore la qualité des traductions, notamment pour les paires de langues à ressources limitées, en générant des candidats via une traduction pivot et en les fusionnant postérieurement pour capturer les nuances subtiles de la phrase source.

Seokjin Oh, Keonwoong Noh, Woohwan JungTue, 10 Ma💬 cs.CL

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

Cette étude présente GRADIEND, une méthode novatrice d'encodage-décodage utilisant les gradients des réseaux de neurones pour identifier et modifier spécifiquement les biais sociétaux (tels que le genre, la race ou la religion) tout en préservant les autres capacités des modèles.

Jonathan Drechsel, Steffen HerboldTue, 10 Ma🤖 cs.LG

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

Cette étude démontre que l'utilisation de l'adaptation à faible rang (LoRA) dans l'apprentissage fédéré pour les grands modèles de langage réduit considérablement la mémorisation des données d'entraînement, limitant ainsi les risques de fuite d'informations privées sans compromettre les performances du modèle.

Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin JaggiTue, 10 Ma🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

L'article présente LaVCa, une méthode innovante utilisant des modèles de langage pour générer des légendes naturelles précises décrivant la sélectivité des voxels du cortex visuel, surpassant ainsi les approches précédentes en révélant des différenciations fonctionnelles fines et des représentations de concepts multiples.

Takuya Matsuyama, Shinji Nishimoto, Yu TakagiTue, 10 Ma🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Cet article propose le cadre COD (Clustering-On-Difficulty), qui améliore la prédiction des performances des grands modèles de langage sur des tâches en aval en regroupant les tâches selon leurs caractéristiques de difficulté pour établir des lois d'échelle stables et extrapoler avec précision les résultats globaux.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang LiTue, 10 Ma🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Ce papier propose HaLoRA, une méthode d'adaptation à faible rang consciente du matériel qui optimise le déploiement des modèles de langage sur une architecture hybride Compute-in-Memory en entraînant les branches LoRA pour être robustes au bruit des mémoires RRAM, permettant ainsi de réduire la consommation énergétique à 3 % de celle d'un GPU A100 tout en améliorant les performances de 22,7 %.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Cette étude révèle que, bien que les grands modèles de langage génèrent une surreprésentation des personnages féminins grâce au fine-tuning et au RLHF, ils perpétuent paradoxalement des stéréotypes de genre professionnels plus marqués que la réalité du marché du travail, soulignant ainsi la nécessité de mesures d'atténuation équilibrées.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan ChenTue, 10 Ma💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Ce papier présente le modèle de récompense de processus EDU-PRM, une approche novatrice qui utilise l'incertitude par entropie pour segmenter automatiquement les étapes de raisonnement sans annotations manuelles, surpassant les modèles de référence sur ProcessBench tout en réduisant considérablement les besoins en données d'entraînement et en consommation de tokens.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong LiTue, 10 Ma🤖 cs.LG

← Précédent Suivant →